TOKENIZER란 무엇인가? 자연어처리(NLP)를 하면서 많이 듣게 되는 용어 중 하나가 바로 '토큰화'이다. 딥러닝에 자연어처리를 하기 위해서는 우선 언어 RAWDATA 즉 CORPUS(코퍼스)를 데이터에 사용하고자 하는 용도에 맞게 토큰화, 정제, 정규화하는 작업을 거치게 된다. 여기서 토큰화란 토큰(token : 의미있는 단위)을 쪼개는 과정이다. 보통 영어에서는 NLTK 패키지를 이용하면 쉽게 사용할 수 있다. 그러나 문제점은 한국말 데이터를 이용하는 경우이다. 한국어의 경우 일반적으로 영어보다 토큰화하기 어렵다. 그 이유는 링크를 따라가면 확인할 수 있다. 한국어 토큰화할 때는 주로 KoNLPY를 사용해야하는데 이 KoNLPY가 jdk도 설치해야하고, 여러모로 까다로운 점이 많다. 그런데 이번..