AI/NLP (2) 썸네일형 리스트형 [NLP] 2. 자연어 임베딩 자연어 임베딩 -> 자연어의 통계적 패턴 정보를 임베딩에 넣음 통계적 패턴 정보 어떤 단어가 많이 쓰였는지 - 백오브워즈 (TF-IDF) 어떤 순서로 쓰였는지 - 언어 모델 (ELMO, GPT) 어떤 단어가 같이 쓰였는지 - 분포 가정 (Word2vec) 위의 세 방법은 상호배타적이지 않다. 단어가 주로 나타나는 순서는 문맥과 관련이 있고, 분포 가정에서는 단어의 빈도 정보를 활용함. -> 상호보완적임 1. 백오브워즈 말 그대로 단어들이 들어 있는 가방을 상상하면 됨 문서 내 단어 등장 빈도를 임베딩으로 사용 많이 등장하는 단어가 주제에 가까울 가능성이 높을 것임 1.1 TF-IDF 단어 빈도를 그대로 임베딩 값으로 사용하는것은 여러 단점이 존재함 그중 단어의 중요도를 따지지 않는 것, 예를들어 은, 는.. [NLP] 1. Embedding 1.1 임베딩이란 자연어 처리에서 Embedding - 사람이 쓰는 자연어를 Vector로 나타낸 것 혹은 과정 전체 간단한 Embedding 예시) 단서-문서 행렬 - 단어의 빈도를 vector로 사용하는 것 - 많이 나온 단어로 소재와 단어간의 의미 차이등을 추정 가능 1.2 임베딩의 역할 단어/문장 간 관련도 계산 -embedding을 통해 단어를 임의의 vector로 표현했다면 유사도를 통해 다른 단어와 얼마나 관련있는지 계산 가능 의미/문법 정보 함축 -단어 임베딩 벡터끼리의 사칙연산이 가능 -> 의미적, 문법적 관계 도출 ex)아들 - 딸 + 소녀 = 소년 전이 학습 - 임베딩은 딥러닝 모델의 입력값으로 자주 쓰임 -> 특징을 잘 보존하고 있는 임베딩을 활용하면 정확도 & 학습 속도 상승 단어.. 이전 1 다음