워드 임베딩 (Word2Vec, GloVe) — 단어의 의미를 벡터로

이런 분들이 찾고 있어요

이 레슨과 관련된 학습 키워드

CS/AI 전공 대학생

NLP 기말고사BERT 구조 정리GPT 원리자연어처리 과제

비전공/입문자

NLP란자연어처리 입문GPT 쉽게 설명

취준생

NLP 엔지니어 면접BERT 파인튜닝 프로젝트LLM 개발자

직장인

챗봇 구축RAG 시스템 구현LLM 실무 활용

대학원생/연구자

LLM 논문 리뷰prompt engineering 연구RLHF 분석

AI 교육 플랫폼

AI 교육 플랫폼 추천AI 강의 사이트머신러닝 온라인 강의딥러닝 강의 추천

AI 독학/로드맵

AI 독학 방법머신러닝 공부 순서딥러닝 로드맵머신러닝 독학 로드맵

AI 취업/커리어

AI 취업 준비데이터 사이언티스트 강의ML 엔지니어 준비AI 면접 준비

워드 임베딩 (Word2Vec, GloVe) — 단어의 의미를 벡터로

Learn word embedding methods including Word2Vec (CBOW, Skip-gram), GloVe, FastText, cosine similarity, and pre-trained embedding usage.

1 / 15

One-hot 인코딩의 한계 — 고차원, 유사도 0

왜 One-hot 인코딩의 한계 — 고차원, 유사도 0이(가) 필요한가? 실무에서 이 개념 없이는 문제를 해결할 수 없습니다. 핵심 동기와 배경을 먼저 이해합시다.

</div>

One-hot 인코딩은 단어를 표현하는 가장 단순한 방법입니다. 어휘 크기만큼의 벡터에서 해당 단어 위치만 1, 나머지는 0으로 표현합니다.

문제 1: 차원의 저주

- 어휘가 10만 개라면 각 단어는 10만 차원 벡터가 됩니다

- 대부분의 값이 0인 극도로 희소(sparse)한 표현

- 메모리 낭비가 심하고, 계산이 비효율적입니다

문제 2: 의미적 유사도 = 0

- "king"과 "queen"의 코사인 유사도: 0

- "cat"과 "dog"의 코사인 유사도: 0

- 모든 단어 쌍이 동일한 거리를 가집니다 — 의미 관계를 전혀 반영하지 못합니다

문제 3: 일반화 불가

- "I love cats"에서 학습한 내용이 "I love dogs"로 전이되지 않습니다

- 단어 간 관계 정보가 전혀 없기 때문입니다

해결책: 단어를 저차원 밀집 벡터(dense vector)로 표현하는 워드 임베딩이 필요합니다.

0:00

1:59

🎓 강의 스크립트

가장 단순한 단어 표현 방법인 원-핫 {인코딩→인코딩}부터 살펴볼게요.

그림 왼쪽 상단을 보세요. 어휘 크기만큼의 {벡터→벡터}에서 해당 단어 위치만 1이에요.

나머지 자리는 전부 0이에요. cat은 첫 번째, dog은 두 번째, 이런 식이죠.

그런데 왜 이 방식이 문제일까요?

첫 번째 문제는 차원의 저주예요. 어휘가 10만 개면 10만 {디멘전→디멘전} {벡터→벡터}가 돼요.

대부분이 0인 극도로 희소한 {벡터→벡터}라 메모리 낭비가 심해요.

그림 가운데를 보시면 두 번째 문제가 보여요. 의미를 전혀 담지 못해요.

cat과 dog은 둘 다 동물인데, 원-핫 {벡터→벡터}로는 이 관계를 알 수 없어요.

두 원-핫 {벡터→벡터}의 내적은 항상 0이에요. 어떤 단어 쌍이든 직교하거든요.

{코사인→코사인} {시밀래리티→시밀래리티}를 계산해도 전부 0이에요. 의미 거리를 측정할 수가 없죠.

이건 정말 큰 한계예요. 자연어 처리의 핵심은 단어 간 관계를 파악하는 건데요.

그림 오른쪽을 보세요. 세 번째 문제는 일반화 불가예요.

학습 데이터에서 cat을 본 모델이 dog에 대해서는 아무것도 추론할 수 없어요.

원-핫에서는 단어가 완전히 독립적이라 전이 학습도 불가능하거든요.

그래서 언어학자들은 분포 가설이라는 아이디어를 떠올렸어요.

비슷한 맥락에서 나타나는 단어는 비슷한 의미를 가진다는 거예요.

1957년 존 루퍼트 퍼스가 처음 제안했죠. 단어는 함께 쓰이는 친구들로 알 수 있다고요.

이 아이디어가 바로 워드 {임베딩→임베딩}의 이론적 토대가 됐어요.

원-핫의 세 가지 한계를 정리하면 고차원, 의미 부재, 일반화 불가예요.

다음 블록에서 이 한계를 극복하는 분산 표현을 알아볼게요.

💬 강의 Q&A

0:00

0:37

🎓 강의 스크립트

선생님: 원-핫 {인코딩→인코딩}에서 cat과 dog의 {코사인→코사인} {시밀래리티→시밀래리티}가 0인 이유가 뭘까요?

학생: 두 {벡터→벡터}가 완전히 직교하니까요. 겹치는 차원이 하나도 없어서 내적이 0이에요.

선생님: 맞아요. 그러면 어휘가 50만 개인 실제 시스템에서 원-핫 {벡터→벡터}를 쓰면 어떤 문제가 가장 먼저 터질까요?

학생: 50만 차원 희소 {벡터→벡터}를 저장하고 연산하는 게 메모리와 속도 면에서 비현실적이에요.

선생님: 정확해요. 그래서 밀집 저차원 {벡터→벡터}인 워드 {임베딩→임베딩}이 필요한 거예요.