본문 바로가기

AI/NLP

[NLP] 1. Embedding

1.1 임베딩이란

자연어 처리에서 Embedding

      - 사람이 쓰는 자연어를 Vector로 나타낸 것 혹은 과정 전체

 

 

간단한 Embedding 예시)

단서-문서 행렬

       - 단어의 빈도를 vector로 사용하는 것

       - 많이 나온 단어로 소재와 단어간의 의미 차이등을 추정 가능

단서-문서 행렬

 

 

 

1.2 임베딩의 역할 

단어/문장 간 관련도 계산 

       -embedding을 통해 단어를 임의의 vector로 표현했다면 유사도를 통해 다른 단어와 얼마나 관련있는지 계산 가능

 

의미/문법 정보 함축

       -단어 임베딩 벡터끼리의 사칙연산이 가능 -> 의미적, 문법적 관계 도출

              ex)아들 - 딸 + 소녀  = 소년

 

전이 학습

       - 임베딩은 딥러닝 모델의 입력값으로 자주 쓰임

             -> 특징을 잘 보존하고 있는 임베딩을 활용하면 정확도 & 학습 속도 상승

 

 

 

 

단어 임베딩 모델

   - 2017년 이전

   - NPLM, Word2vec, Glove, FastText, Swivel 등 

   - 단어의 문맥적 의미를 함축

   - 동음이의어를 분간하기 어렵다는 단점

 

문장 임베딩 모델 

   - ELMo 이후 문장 수준 임베딩 기법 주목

   - BERT, GPT

   - 전체의 문맥적 의미를 함축 -> 전이학습 효과가 좋음

                      

 

 


reference

- 한국어임베딩 / 이기창 저 

- https://ratsgo.github.io 

 

 

 

 

'AI > NLP' 카테고리의 다른 글

[NLP] 2. 자연어 임베딩  (0) 2023.05.02