이 레슨과 관련된 학습 키워드
인공지능(AI) — 기계가 생각하는 법 → 자연어처리(NLP) — 기계가 언어를 이해하다 → NLP 기초 — 컴퓨터가 언어를 이해하는 법 → 텍스트 전처리
A motivational overview of the entire NLP course — what you will learn, why it matters, and how to approach it.
자연어 처리, 줄여서 에엔엘피란 무엇일까요?
기계가 사람의 말과 글을 이해하는 기술입니다.
그림 상단의 파이프라인을 왼쪽부터 보세요.
첫 단계는 원시 텍스트 입력입니다.
"나는 밥을 먹었다"라는 문장이 들어옵니다.
두 번째로 토큰화를 거칩니다.
문장을 작은 단위로 쪼개는 과정이죠.
세 번째는 임베딩, 숫자 벡터로 바꾸는 단계입니다.
영점이삼, 마이너스 영점사일 같은 실수 벡터가 됩니다.
네 번째로 트랜스포머 같은 모델이 추론합니다.
마지막으로 긍정 영점구이 같은 결과가 나옵니다.
이제 그림 가운데 네 개의 박스를 보세요.
에엔엘피는 크게 네 가지 과제를 해결합니다.
이해는 감성 분석처럼 텍스트의 뜻을 파악합니다.
생성은 지피티처럼 새 글을 만듭니다.
변환은 번역처럼 형태를 바꾸는 과제입니다.
추출은 문서에서 답을 찾아내는 과제입니다.
그런데 하단 빨간 영역을 보시면 왜 어려운지 나옵니다.
"배"라는 한 단어가 과일, 선박, 복부를 뜻합니다.
이런 다의어 때문에 기계가 혼란스럽습니다.
비유와 구문적 중의성도 큰 도전입니다.
이 과목에서 이 문제를 어떻게 푸는지 배워봅시다.
선생님: 에엔엘피가 뭔지 한마디로 말해볼까요?
학생: 컴퓨터가 사람 말을 이해하는 기술이요.
선생님: 맞아요. 그럼 파이프라인 다섯 단계 중 가장 중요한 건?
학생: 임베딩이요. 숫자로 바꿔야 계산이 되니까요.
선생님: 정확해요. 왜 에엔엘피가 어려운지도 기억나죠?
학생: "배"처럼 같은 단어가 여러 뜻을 가져서요.
선생님: 다의어, 비유, 구문 중의성. 세 가지 모호성이 핵심이에요.