이 레슨과 관련된 학습 키워드
인공지능(AI) — 기계가 생각하는 법 → 인공지능 수학 — AI를 떠받치는 수학적 기초 → 인공지능 수학 — AI를 떠받치는 수학적 기초 → 선형대수
오늘은 벡터 공간과 임베딩에 대해 알아볼 거예요.
현대 AI의 핵심 혁신은 모든 것을 벡터로 표현하는 거예요.
그림 왼쪽 첫 번째 파란 박스를 보세요.
단어 king은 0.23, 마이너스 0.41 같은 300차원 숫자 벡터가 돼요.
두 번째 빨간 박스에는 이미지를 벡터로 바꾸는 과정이 있어요.
224곱하기 224 이미지가 2048차원 벡터 하나로 압축돼요.
세 번째 보라색 박스는 음성이에요. 위스퍼 모델이 음성을 512차원으로 바꿔요.
네 번째 주황색 박스는 분자 구조까지 벡터로 표현하는 알파폴드예요.
이 네 가지가 모두 아래 공통 벡터 공간으로 모이는 거예요.
가운데 파란 강조 박스를 보세요.
코사인 유사도로 개와 강아지가 0.85로 가깝다는 걸 수학적으로 알 수 있어요.
반면 개와 자동차는 0.12로 멀죠.
왜 벡터로 바꿔야 하냐고요? 문자열로는 유사성을 판단할 수 없기 때문이에요.
컴퓨터는 숫자만 이해하니까, 의미를 숫자로 바꾸는 게 임베딩이에요.
아래 초록 박스의 벡터 산술을 보세요.
왕에서 남자를 빼고 여자를 더하면 여왕이 나와요.
서울에서 한국을 빼고 일본을 더하면 도쿄가 나오죠.
이런 의미 관계가 벡터 방향으로 자동 인코딩되는 거예요.
이것이 바로 벡터 공간의 마법이자 현대 AI의 기반이에요.
이 레슨에서 이 마법이 어떻게 작동하는지 하나씩 살펴볼 거예요.
학생: 왜 꼭 벡터로 변환해야 하나요? 다른 방법은 없나요?
선생님: 좋은 질문이에요. 컴퓨터는 근본적으로 숫자만 계산할 수 있어요.
선생님: 벡터로 변환하면 유사성, 방향, 관계를 수학 연산으로 표현할 수 있죠.
선생님: 그래프나 심볼릭 표현도 있지만, 벡터가 가장 효율적이고 범용적이에요.
선생님: 특히 경사하강법으로 학습할 수 있다는 게 벡터의 결정적 장점이에요.
학생: 그러면 벡터 차원이 높을수록 좋은 건가요?
선생님: 차원이 높으면 더 많은 정보를 담지만, 데이터가 부족하면 오히려 성능이 떨어져요.
선생님: 이것을 차원의 저주라고 하는데, 나중에 자세히 배울 거예요.