Notice
Recent Posts
Recent Comments
Link
«   2025/05   »
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
Tags
more
Archives
Today
Total
관리 메뉴

Applied Data Analysis Study

[NLP] n-gram Tokenization 본문

딥러닝 & 파이토치

[NLP] n-gram Tokenization

킴카 2022. 4. 23. 14:57

글자보다 더 긴 형태의 Token을 만들어내기 위해 사용하는 방법 중 하나가 n-gram Tokenization

n-gram 방법은 1개 단위가 아닌 여러 개(n)의 연속된 윈도우를 단위로 살펴보기 위해 나온 개념

uni-gram에서는 의미 없는 글자가 Token 이었다면 bi-gram과 tri-gram으로는 띄어쓰기나 글자로는 잡을 수 없던 "책상", "사과", "먹었다" 등의 Token을 찾을 수 있고 이런 의미를 가진 Token은 모델 학습을 도와줌

띄어쓰기 기준의 Token은 연속적으로 사용되는 용어를 잘 찾아낼 수 있음 (특히, 영어)

고유의 의미를 갖는 단어들을 조합해 다른 의미를 만드는 어려운 일 보다는 아예 다른 Token으로 모델 학습을 좀 더 쉽게 만들 수 있음

uni-gram, bi-gram, tri-gram의 Token을 모아 uni-gram보다 더 좋은 결과를 만들 수는 있음

하지만 쓸모 없는 조합이 너무 많이 생성되고 Token 사전이 과하게 커짐

사전이 커지지만 대부분 의미가 없거나 자주 사용되지 않은 Token으로 가득하다면 비효율적임

n-gram의 이점을 챙기면서 그 중 의미가 있는 것들로만 Token으로 사용하는 방법 --> Byte Pair Encoding (BPE)

'딥러닝 & 파이토치' 카테고리의 다른 글

one-hot encoding  (0) 2022.04.29
딥러닝 논문 모아두는곳  (0) 2022.04.29
문자를 숫자로 표현하는 방법 & Corpus & Out-of-Vocabulary(OOV)  (0) 2022.04.23
Byte Pair Encoding  (0) 2022.04.22
VGG & GoogleNet  (1) 2022.04.16
Comments