Applied Data Analysis Study
[NLP] n-gram Tokenization 본문
글자보다 더 긴 형태의 Token을 만들어내기 위해 사용하는 방법 중 하나가 n-gram Tokenization
n-gram 방법은 1개 단위가 아닌 여러 개(n)의 연속된 윈도우를 단위로 살펴보기 위해 나온 개념
uni-gram에서는 의미 없는 글자가 Token 이었다면 bi-gram과 tri-gram으로는 띄어쓰기나 글자로는 잡을 수 없던 "책상", "사과", "먹었다" 등의 Token을 찾을 수 있고 이런 의미를 가진 Token은 모델 학습을 도와줌
띄어쓰기 기준의 Token은 연속적으로 사용되는 용어를 잘 찾아낼 수 있음 (특히, 영어)
고유의 의미를 갖는 단어들을 조합해 다른 의미를 만드는 어려운 일 보다는 아예 다른 Token으로 모델 학습을 좀 더 쉽게 만들 수 있음
uni-gram, bi-gram, tri-gram의 Token을 모아 uni-gram보다 더 좋은 결과를 만들 수는 있음
하지만 쓸모 없는 조합이 너무 많이 생성되고 Token 사전이 과하게 커짐
사전이 커지지만 대부분 의미가 없거나 자주 사용되지 않은 Token으로 가득하다면 비효율적임
n-gram의 이점을 챙기면서 그 중 의미가 있는 것들로만 Token으로 사용하는 방법 --> Byte Pair Encoding (BPE)
'딥러닝 & 파이토치' 카테고리의 다른 글
one-hot encoding (0) | 2022.04.29 |
---|---|
딥러닝 논문 모아두는곳 (0) | 2022.04.29 |
문자를 숫자로 표현하는 방법 & Corpus & Out-of-Vocabulary(OOV) (0) | 2022.04.23 |
Byte Pair Encoding (0) | 2022.04.22 |
VGG & GoogleNet (1) | 2022.04.16 |
Comments