GPT와 자기회귀 언어 모델 — 다음 단어를 예측하는 AI

Learn GPT series: autoregressive modeling, causal attention, scaling laws, in-context learning, RLHF, ChatGPT, GPT-4, and prompt engineering.

1 / 17

왜 GPT가 필요한가? — 언어 생성의 도전

BERT는 놀라운 이해(understanding) 능력을 보여주었지만, 치명적인 한계가 있었습니다: 텍스트를 생성(generation)할 수 없다는 것입니다.

왜 BERT는 생성을 못하는가?

- BERT는 양방향(bidirectional)으로 문맥을 봅니다

- "나는 [MASK]에 갔다"에서 왼쪽과 오른쪽을 동시에 참조합니다

- 그런데 새로운 문장을 생성할 때는 오른쪽 문맥이 아직 존재하지 않습니다

- 한 단어씩 순차적으로 생성해야 하는데, BERT는 이 구조가 아닙니다

언어 생성이 필요한 이유:

- 번역: "Hello" → "안녕하세요"를 한 토큰씩 생성해야 합니다

- 요약: 긴 문서를 짧은 문장으로 새로 작성해야 합니다

- 대화: 사용자의 질문에 자연스러운 답변을 만들어야 합니다

- 창작: 시, 코드, 이야기 등을 처음부터 만들어야 합니다

핵심 질문: "왼쪽에서 오른쪽으로 한 단어씩 생성하면서도 높은 품질을 유지하려면 어떤 모델이 필요한가?"

이 질문의 답이 바로 GPT(Generative Pre-trained Transformer)입니다. GPT는 BERT보다 먼저 등장했지만(2018년 6월 vs 10월), BERT의 성공 이후 생성 능력의 중요성이 재조명되었습니다.

0:00

2:29

🎓 강의 스크립트

BERT는 텍스트를 이해하는 데는 뛰어나지만, 새로운 문장을 생성할 수 없다는 치명적인 한계가 있었어요.

그림 왼쪽 파란 박스를 보세요. BERT는 양방향으로 문맥을 보기 때문에 빈칸 채우기에는 완벽해요.

하지만 "나는 오늘"이라는 시작 문장에서 다음 단어를 생성하려면, 아직 존재하지 않는 오른쪽 문맥은 볼 수 없어야 해요.

오른쪽 초록 박스를 보시면, {GPT→지피티}는 왼쪽 문맥만 사용하는 단방향 모델이에요.

이 구조 덕분에 한 {token→토큰}씩 순차적으로 새로운 텍스트를 만들어낼 수 있죠.

가운데 주황색 영역을 보시면, 텍스트 생성이 필수인 과제들이 나열되어 있어요.

번역, 요약, 대화, 코드 생성, 창작 — 이 모든 과제에서 {GPT→지피티} 방식의 생성 능력이 핵심이에요.

하단 파란 강조 박스의 핵심 질문을 보세요.

"왼쪽에서 오른쪽으로만 보면서 고품질 텍스트를 생성할 수 있는가?" — 이것이 {GPT→지피티}의 출발점이에요.

{GPT→지피티}의 놀라운 발견은, "다음 단어 예측"이라는 단순한 목표만으로 언어의 문법, 의미, 상식을 모두 학습할 수 있다는 거예요.

이것을 {autoregressive→오토리그레시브} 언어 모델이라고 불러요. 자기가 생성한 출력을 다시 입력으로 사용하는 구조죠.

BERT가 시험 문제의 빈칸을 채우는 학생이라면, {GPT→지피티}는 백지에서 에세이를 쓰는 학생이에요.

빈칸 채우기는 답이 정해져 있지만, 에세이 쓰기는 무한한 가능성을 가지고 있어요.

바로 이 "생성" 능력 때문에 {GPT→지피티}가 {ChatGPT→챗지피티}로 발전하면서 세상을 바꿀 수 있었던 거예요.

2018년 {GPT→지피티}-1에서 시작해서, 2023년 {GPT→지피티}-4까지 불과 5년 만에 혁명적인 발전이 이루어졌어요.

이번 강의에서는 이 놀라운 여정을 처음부터 끝까지 따라가 볼 거예요.

먼저 자기회귀 모델의 수학적 원리를 이해하고, 그 다음 각 버전의 혁신을 하나씩 살펴볼게요.

특히 {GPT→지피티}-3의 {in-context learning→인컨텍스트 러닝}과 {RLHF→알엘에이치에프}는 AI 역사의 전환점이에요.

자 그러면, 왜 "다음 단어 예측"이 그렇게 강력한지부터 알아볼까요?

이 단순한 목표가 어떻게 인간 수준의 언어 능력으로 이어지는지, 수학적 기반부터 차근차근 시작해봐요.

💬 강의 Q&A

0:00

0:54

🎓 강의 스크립트

선생님: BERT가 있는데 왜 {GPT→지피티}가 필요했을까요?

학생: BERT는 텍스트를 이해하는 건 잘하지만, 새로운 문장을 만들어내지는 못하잖아요.

선생님: 맞아요! 그러면 생성이 왜 그렇게 중요해졌을까요?

학생: 번역, 대화, 요약 같은 실제 과제들은 모두 텍스트를 생성해야 하니까요. {ChatGPT→챗지피티}처럼 사람과 대화하려면 필수죠.

선생님: 정확해요! {GPT→지피티}의 핵심 원리인 {autoregressive→오토리그레시브} 생성은 "다음 단어 예측"이라는 놀라울 정도로 단순한 목표에서 출발해요.

학생: 다음 단어만 맞추는 게 어떻게 그렇게 강력한 능력이 되는 건가요?

선생님: 다음 단어를 정확히 예측하려면 문법, 의미, 상식, 논리를 모두 이해해야 하기 때문이에요. 단순한 목표가 깊은 이해를 요구하는 거죠.

이런 분들이 찾고 있어요

이 레슨과 관련된 학습 키워드

CS/AI 전공 대학생

트랜스포머 시험attention 수식 정리self-attention 원리트랜스포머 과제

비전공/입문자

트랜스포머 쉽게attention 직관트랜스포머란

취준생

트랜스포머 면접attention 구현NLP 엔지니어 준비

직장인

트랜스포머 실무LLM 파인튜닝

대학원생/연구자

attention mechanism 논문efficient transformer 서베이

AI 교육 플랫폼

AI 교육 플랫폼 추천AI 강의 사이트머신러닝 온라인 강의딥러닝 강의 추천

AI 독학/로드맵

AI 독학 방법머신러닝 공부 순서딥러닝 로드맵머신러닝 독학 로드맵

AI 취업/커리어

AI 취업 준비데이터 사이언티스트 강의ML 엔지니어 준비AI 면접 준비

GPT와 자기회귀 언어 모델 — 다음 단어를 예측하는 AI

Learn GPT series: autoregressive modeling, causal attention, scaling laws, in-context learning, RLHF, ChatGPT, GPT-4, and prompt engineering.

1 / 17

왜 GPT가 필요한가? — 언어 생성의 도전

BERT는 놀라운 이해(understanding) 능력을 보여주었지만, 치명적인 한계가 있었습니다: 텍스트를 생성(generation)할 수 없다는 것입니다.

왜 BERT는 생성을 못하는가?

- BERT는 양방향(bidirectional)으로 문맥을 봅니다

- "나는 [MASK]에 갔다"에서 왼쪽과 오른쪽을 동시에 참조합니다

- 그런데 새로운 문장을 생성할 때는 오른쪽 문맥이 아직 존재하지 않습니다

- 한 단어씩 순차적으로 생성해야 하는데, BERT는 이 구조가 아닙니다

언어 생성이 필요한 이유:

- 번역: "Hello" → "안녕하세요"를 한 토큰씩 생성해야 합니다

- 요약: 긴 문서를 짧은 문장으로 새로 작성해야 합니다

- 대화: 사용자의 질문에 자연스러운 답변을 만들어야 합니다

- 창작: 시, 코드, 이야기 등을 처음부터 만들어야 합니다

핵심 질문: "왼쪽에서 오른쪽으로 한 단어씩 생성하면서도 높은 품질을 유지하려면 어떤 모델이 필요한가?"

0:00

2:29

🎓 강의 스크립트

BERT는 텍스트를 이해하는 데는 뛰어나지만, 새로운 문장을 생성할 수 없다는 치명적인 한계가 있었어요.

그림 왼쪽 파란 박스를 보세요. BERT는 양방향으로 문맥을 보기 때문에 빈칸 채우기에는 완벽해요.

하지만 "나는 오늘"이라는 시작 문장에서 다음 단어를 생성하려면, 아직 존재하지 않는 오른쪽 문맥은 볼 수 없어야 해요.

오른쪽 초록 박스를 보시면, {GPT→지피티}는 왼쪽 문맥만 사용하는 단방향 모델이에요.

이 구조 덕분에 한 {token→토큰}씩 순차적으로 새로운 텍스트를 만들어낼 수 있죠.

가운데 주황색 영역을 보시면, 텍스트 생성이 필수인 과제들이 나열되어 있어요.

번역, 요약, 대화, 코드 생성, 창작 — 이 모든 과제에서 {GPT→지피티} 방식의 생성 능력이 핵심이에요.

하단 파란 강조 박스의 핵심 질문을 보세요.

"왼쪽에서 오른쪽으로만 보면서 고품질 텍스트를 생성할 수 있는가?" — 이것이 {GPT→지피티}의 출발점이에요.

{GPT→지피티}의 놀라운 발견은, "다음 단어 예측"이라는 단순한 목표만으로 언어의 문법, 의미, 상식을 모두 학습할 수 있다는 거예요.

이것을 {autoregressive→오토리그레시브} 언어 모델이라고 불러요. 자기가 생성한 출력을 다시 입력으로 사용하는 구조죠.

BERT가 시험 문제의 빈칸을 채우는 학생이라면, {GPT→지피티}는 백지에서 에세이를 쓰는 학생이에요.

빈칸 채우기는 답이 정해져 있지만, 에세이 쓰기는 무한한 가능성을 가지고 있어요.

바로 이 "생성" 능력 때문에 {GPT→지피티}가 {ChatGPT→챗지피티}로 발전하면서 세상을 바꿀 수 있었던 거예요.

2018년 {GPT→지피티}-1에서 시작해서, 2023년 {GPT→지피티}-4까지 불과 5년 만에 혁명적인 발전이 이루어졌어요.

이번 강의에서는 이 놀라운 여정을 처음부터 끝까지 따라가 볼 거예요.

먼저 자기회귀 모델의 수학적 원리를 이해하고, 그 다음 각 버전의 혁신을 하나씩 살펴볼게요.

특히 {GPT→지피티}-3의 {in-context learning→인컨텍스트 러닝}과 {RLHF→알엘에이치에프}는 AI 역사의 전환점이에요.

자 그러면, 왜 "다음 단어 예측"이 그렇게 강력한지부터 알아볼까요?

이 단순한 목표가 어떻게 인간 수준의 언어 능력으로 이어지는지, 수학적 기반부터 차근차근 시작해봐요.

💬 강의 Q&A

0:00

0:54

🎓 강의 스크립트

선생님: BERT가 있는데 왜 {GPT→지피티}가 필요했을까요?

학생: BERT는 텍스트를 이해하는 건 잘하지만, 새로운 문장을 만들어내지는 못하잖아요.

선생님: 맞아요! 그러면 생성이 왜 그렇게 중요해졌을까요?

학생: 번역, 대화, 요약 같은 실제 과제들은 모두 텍스트를 생성해야 하니까요. {ChatGPT→챗지피티}처럼 사람과 대화하려면 필수죠.

학생: 다음 단어만 맞추는 게 어떻게 그렇게 강력한 능력이 되는 건가요?

선생님: 다음 단어를 정확히 예측하려면 문법, 의미, 상식, 논리를 모두 이해해야 하기 때문이에요. 단순한 목표가 깊은 이해를 요구하는 거죠.