1.1 임베딩이란
자연어 처리에서 Embedding
- 사람이 쓰는 자연어를 Vector로 나타낸 것 혹은 과정 전체
간단한 Embedding 예시)
단서-문서 행렬
- 단어의 빈도를 vector로 사용하는 것
- 많이 나온 단어로 소재와 단어간의 의미 차이등을 추정 가능
1.2 임베딩의 역할
단어/문장 간 관련도 계산
-embedding을 통해 단어를 임의의 vector로 표현했다면 유사도를 통해 다른 단어와 얼마나 관련있는지 계산 가능
의미/문법 정보 함축
-단어 임베딩 벡터끼리의 사칙연산이 가능 -> 의미적, 문법적 관계 도출
ex)아들 - 딸 + 소녀 = 소년
전이 학습
- 임베딩은 딥러닝 모델의 입력값으로 자주 쓰임
-> 특징을 잘 보존하고 있는 임베딩을 활용하면 정확도 & 학습 속도 상승
단어 임베딩 모델
- 2017년 이전
- NPLM, Word2vec, Glove, FastText, Swivel 등
- 단어의 문맥적 의미를 함축
- 동음이의어를 분간하기 어렵다는 단점
문장 임베딩 모델
- ELMo 이후 문장 수준 임베딩 기법 주목
- BERT, GPT
- 전체의 문맥적 의미를 함축 -> 전이학습 효과가 좋음
reference
- 한국어임베딩 / 이기창 저
'AI > NLP' 카테고리의 다른 글
[NLP] 2. 자연어 임베딩 (0) | 2023.05.02 |
---|