[NLP] n-gram Tokenization

Notice

Recent Posts

Recent Comments

Tags more

Archives

관리 메뉴

Applied Data Analysis Study

딥러닝 & 파이토치

킴카 2022. 4. 23. 14:57

글자보다 더 긴 형태의 Token을 만들어내기 위해 사용하는 방법 중 하나가 n-gram Tokenization

n-gram 방법은 1개 단위가 아닌 여러 개(n)의 연속된 윈도우를 단위로 살펴보기 위해 나온 개념

uni-gram에서는 의미 없는 글자가 Token 이었다면 bi-gram과 tri-gram으로는 띄어쓰기나 글자로는 잡을 수 없던 "책상", "사과", "먹었다" 등의 Token을 찾을 수 있고 이런 의미를 가진 Token은 모델 학습을 도와줌

띄어쓰기 기준의 Token은 연속적으로 사용되는 용어를 잘 찾아낼 수 있음 (특히, 영어)

고유의 의미를 갖는 단어들을 조합해 다른 의미를 만드는 어려운 일 보다는 아예 다른 Token으로 모델 학습을 좀 더 쉽게 만들 수 있음

uni-gram, bi-gram, tri-gram의 Token을 모아 uni-gram보다 더 좋은 결과를 만들 수는 있음

하지만 쓸모 없는 조합이 너무 많이 생성되고 Token 사전이 과하게 커짐

사전이 커지지만 대부분 의미가 없거나 자주 사용되지 않은 Token으로 가득하다면 비효율적임

n-gram의 이점을 챙기면서 그 중 의미가 있는 것들로만 Token으로 사용하는 방법 --> Byte Pair Encoding (BPE)

one-hot encoding (0)	2022.04.29
딥러닝 논문 모아두는곳 (0)	2022.04.29
문자를 숫자로 표현하는 방법 & Corpus & Out-of-Vocabulary(OOV) (0)	2022.04.23
Byte Pair Encoding (0)	2022.04.22
VGG & GoogleNet (1)	2022.04.16

'딥러닝 & 파이토치' Related Articles

Comments