이 레슨과 관련된 학습 키워드
인공지능(AI) — 기계가 생각하는 법 → 자연어처리(NLP) — 기계가 언어를 이해하다 → 트랜스포머 기반 NLP — BERT에서 GPT까지 → 사전학습 모델
Learn GPT series: autoregressive modeling, causal attention, scaling laws, in-context learning, RLHF, ChatGPT, GPT-4, and prompt engineering.
BERT는 텍스트를 이해하는 데는 뛰어나지만, 새로운 문장을 생성할 수 없다는 치명적인 한계가 있었어요.
그림 왼쪽 파란 박스를 보세요. BERT는 양방향으로 문맥을 보기 때문에 빈칸 채우기에는 완벽해요.
하지만 "나는 오늘"이라는 시작 문장에서 다음 단어를 생성하려면, 아직 존재하지 않는 오른쪽 문맥은 볼 수 없어야 해요.
오른쪽 초록 박스를 보시면, {GPT→지피티}는 왼쪽 문맥만 사용하는 단방향 모델이에요.
이 구조 덕분에 한 {token→토큰}씩 순차적으로 새로운 텍스트를 만들어낼 수 있죠.
가운데 주황색 영역을 보시면, 텍스트 생성이 필수인 과제들이 나열되어 있어요.
번역, 요약, 대화, 코드 생성, 창작 — 이 모든 과제에서 {GPT→지피티} 방식의 생성 능력이 핵심이에요.
하단 파란 강조 박스의 핵심 질문을 보세요.
"왼쪽에서 오른쪽으로만 보면서 고품질 텍스트를 생성할 수 있는가?" — 이것이 {GPT→지피티}의 출발점이에요.
{GPT→지피티}의 놀라운 발견은, "다음 단어 예측"이라는 단순한 목표만으로 언어의 문법, 의미, 상식을 모두 학습할 수 있다는 거예요.
이것을 {autoregressive→오토리그레시브} 언어 모델이라고 불러요. 자기가 생성한 출력을 다시 입력으로 사용하는 구조죠.
BERT가 시험 문제의 빈칸을 채우는 학생이라면, {GPT→지피티}는 백지에서 에세이를 쓰는 학생이에요.
빈칸 채우기는 답이 정해져 있지만, 에세이 쓰기는 무한한 가능성을 가지고 있어요.
바로 이 "생성" 능력 때문에 {GPT→지피티}가 {ChatGPT→챗지피티}로 발전하면서 세상을 바꿀 수 있었던 거예요.
2018년 {GPT→지피티}-1에서 시작해서, 2023년 {GPT→지피티}-4까지 불과 5년 만에 혁명적인 발전이 이루어졌어요.
이번 강의에서는 이 놀라운 여정을 처음부터 끝까지 따라가 볼 거예요.
먼저 자기회귀 모델의 수학적 원리를 이해하고, 그 다음 각 버전의 혁신을 하나씩 살펴볼게요.
특히 {GPT→지피티}-3의 {in-context learning→인컨텍스트 러닝}과 {RLHF→알엘에이치에프}는 AI 역사의 전환점이에요.
자 그러면, 왜 "다음 단어 예측"이 그렇게 강력한지부터 알아볼까요?
이 단순한 목표가 어떻게 인간 수준의 언어 능력으로 이어지는지, 수학적 기반부터 차근차근 시작해봐요.
선생님: BERT가 있는데 왜 {GPT→지피티}가 필요했을까요?
학생: BERT는 텍스트를 이해하는 건 잘하지만, 새로운 문장을 만들어내지는 못하잖아요.
선생님: 맞아요! 그러면 생성이 왜 그렇게 중요해졌을까요?
학생: 번역, 대화, 요약 같은 실제 과제들은 모두 텍스트를 생성해야 하니까요. {ChatGPT→챗지피티}처럼 사람과 대화하려면 필수죠.
선생님: 정확해요! {GPT→지피티}의 핵심 원리인 {autoregressive→오토리그레시브} 생성은 "다음 단어 예측"이라는 놀라울 정도로 단순한 목표에서 출발해요.
학생: 다음 단어만 맞추는 게 어떻게 그렇게 강력한 능력이 되는 건가요?
선생님: 다음 단어를 정확히 예측하려면 문법, 의미, 상식, 논리를 모두 이해해야 하기 때문이에요. 단순한 목표가 깊은 이해를 요구하는 거죠.