BERT와 사전학습 — 양방향으로 읽는 AI

Learn BERT and pre-training: MLM, NSP, fine-tuning strategies, BERT variants, Korean BERT, and Encoder/Decoder/Enc-Dec architectures.

1 / 15

사전학습이란? — 대규모 비지도 학습의 힘

사전학습(Pre-training)은 대규모 레이블 없는 데이터로 모델을 먼저 학습시키는 방법입니다. 언어의 일반적인 패턴을 먼저 배운 뒤, 특정 과제에 맞게 미세 조정합니다.

왜 사전학습이 필요한가?

- 레이블 데이터는 비싸고 부족합니다 (수천~수만 건)

- 레이블 없는 텍스트는 인터넷에 무한히 존재합니다 (수십억 문장)

- 일반적인 언어 지식을 먼저 습득하면 적은 레이블로도 높은 성능을 달성합니다

사전학습의 핵심 아이디어:

1. 자기지도 학습(Self-supervised Learning): 입력 자체에서 학습 신호를 생성합니다

2. 빈칸 채우기(Cloze Task): 문장의 일부를 가리고 맞추는 방식으로 문맥 이해력을 학습합니다

3. 전이 학습(Transfer Learning): 한 과제에서 배운 지식을 다른 과제에 활용합니다

사전학습 이전 vs 이후:

- 이전: 과제마다 처음부터 모델을 학습 → 데이터 부족, 낮은 성능

- 이후: 사전학습 모델을 파인튜닝 → 적은 데이터로 높은 성능

비유: 대학에서 기초교양을 먼저 배우고(사전학습), 전공을 깊이 공부하는 것(파인튜닝)과 같습니다.

0:00

2:15

🎓 강의 스크립트

사전학습은 대규모 레이블 없는 데이터로 모델을 먼저 학습시키는 방법이에요.

화면 왼쪽을 보시면, 위키피디아 60억 단어, 북코퍼스 8억 단어 같은 방대한 텍스트 데이터가 있어요.

이런 데이터에는 라벨이 없어요. 사람이 일일이 정답을 달아주지 않았다는 뜻이죠.

그런데 라벨 없는 데이터만으로 어떻게 학습할 수 있을까요?

자기지도 학습, 셀프 슈퍼바이즈드 {self-supervised→셀프 슈퍼바이즈드} 러닝이라는 영리한 방법을 쓰는 거예요.

화면 가운데 {pre-training→프리트레이닝} 박스를 보세요. 세 가지 과제가 보이죠.

첫째, 빈칸 채우기 과제인 {MLM→엠엘엠}은 문장의 일부를 가리고 맞추는 방식이에요.

둘째, 다음 문장 예측인 {NSP→엔에스피}는 두 문장이 이어지는 관계인지 판단하는 거죠.

셋째, 다음 단어 예측은 GPT 같은 모델이 사용하는 방법이에요.

수백 개의 GPU로 며칠 동안 학습하면, 오른쪽처럼 범용 언어 이해 능력을 가진 모델이 탄생해요.

이 모델은 문법과 구문을 이해하고, 단어 간 의미 관계를 학습하며, 세계 지식까지 축적하게 돼요.

그 다음이 핵심이에요. 소량의 라벨 데이터로 {fine-tuning→파인튜닝}하면 특정 작업을 수행할 수 있죠.

화면 아래를 보시면 감성 분석, 질의응답, 개체명 인식, 자연어 추론 네 가지 다운스트림 과제가 있어요.

이전에는 각 작업마다 대형 모델을 처음부터 학습해야 했어요. 데이터도 많이 필요했고 시간도 엄청 걸렸죠.

사전학습 패러다임은 한 번 학습한 모델을 여러 작업에 전이해서 100배 이상 효율적이에요.

비유하자면, 대학교에서 기초 교양을 배운 후 전공을 빠르게 익히는 것과 같아요.

이 패러다임이 없었다면 오늘날의 ChatGPT나 {BERT→버트}는 존재하지 못했을 거예요.

{BERT→버트}의 등장은 NLP 분야의 이미지넷 모먼트라고 불릴 만큼 혁명적이었어요.

2018년 구글이 발표한 이후, 거의 모든 NLP 벤치마크 기록이 갈아치워졌죠.

이제 사전학습의 구체적인 메커니즘을 하나씩 살펴보겠습니다.

💬 강의 Q&A

0:00

0:53

🎓 강의 스크립트

선생님: 사전학습이 기존 방식보다 획기적인 이유가 뭘까요?

학생: 라벨 없는 데이터만으로 범용 언어 이해력을 학습할 수 있기 때문이에요.

선생님: 맞아요! 기존에는 작업마다 대량의 라벨 데이터가 필요했는데, 사전학습은 한 번만 학습하면 여러 작업에 전이할 수 있죠. 그러면 자기지도 학습이 가능한 이유는 뭘까요?

학생: 텍스트 자체에서 학습 신호를 만들 수 있으니까요. 빈칸 채우기나 다음 단어 예측처럼 입력 데이터만으로 정답을 구성할 수 있어요.

선생님: 정확해요! 라벨을 사람이 달지 않아도 데이터 자체가 감독 신호가 되는 거예요. 위키피디아 한 문장만으로도 수십 개의 학습 샘플을 만들 수 있죠.

학생: 그래서 데이터가 사실상 무한한 거군요. 기존 지도학습과의 규모 차이가 엄청나네요.

이런 분들이 찾고 있어요

이 레슨과 관련된 학습 키워드

CS/AI 전공 대학생

트랜스포머 시험attention 수식 정리self-attention 원리트랜스포머 과제

비전공/입문자

트랜스포머 쉽게attention 직관트랜스포머란

취준생

트랜스포머 면접attention 구현NLP 엔지니어 준비

직장인

트랜스포머 실무LLM 파인튜닝

대학원생/연구자

attention mechanism 논문efficient transformer 서베이

AI 교육 플랫폼

AI 교육 플랫폼 추천AI 강의 사이트머신러닝 온라인 강의딥러닝 강의 추천

AI 독학/로드맵

AI 독학 방법머신러닝 공부 순서딥러닝 로드맵머신러닝 독학 로드맵

AI 취업/커리어

AI 취업 준비데이터 사이언티스트 강의ML 엔지니어 준비AI 면접 준비

BERT와 사전학습 — 양방향으로 읽는 AI

Learn BERT and pre-training: MLM, NSP, fine-tuning strategies, BERT variants, Korean BERT, and Encoder/Decoder/Enc-Dec architectures.

1 / 15

사전학습이란? — 대규모 비지도 학습의 힘

왜 사전학습이 필요한가?

- 레이블 데이터는 비싸고 부족합니다 (수천~수만 건)

- 레이블 없는 텍스트는 인터넷에 무한히 존재합니다 (수십억 문장)

- 일반적인 언어 지식을 먼저 습득하면 적은 레이블로도 높은 성능을 달성합니다

사전학습의 핵심 아이디어:

1. 자기지도 학습(Self-supervised Learning): 입력 자체에서 학습 신호를 생성합니다

2. 빈칸 채우기(Cloze Task): 문장의 일부를 가리고 맞추는 방식으로 문맥 이해력을 학습합니다

3. 전이 학습(Transfer Learning): 한 과제에서 배운 지식을 다른 과제에 활용합니다

사전학습 이전 vs 이후:

- 이전: 과제마다 처음부터 모델을 학습 → 데이터 부족, 낮은 성능

- 이후: 사전학습 모델을 파인튜닝 → 적은 데이터로 높은 성능

비유: 대학에서 기초교양을 먼저 배우고(사전학습), 전공을 깊이 공부하는 것(파인튜닝)과 같습니다.

0:00

2:15

🎓 강의 스크립트

사전학습은 대규모 레이블 없는 데이터로 모델을 먼저 학습시키는 방법이에요.

화면 왼쪽을 보시면, 위키피디아 60억 단어, 북코퍼스 8억 단어 같은 방대한 텍스트 데이터가 있어요.

이런 데이터에는 라벨이 없어요. 사람이 일일이 정답을 달아주지 않았다는 뜻이죠.

그런데 라벨 없는 데이터만으로 어떻게 학습할 수 있을까요?

자기지도 학습, 셀프 슈퍼바이즈드 {self-supervised→셀프 슈퍼바이즈드} 러닝이라는 영리한 방법을 쓰는 거예요.

화면 가운데 {pre-training→프리트레이닝} 박스를 보세요. 세 가지 과제가 보이죠.

첫째, 빈칸 채우기 과제인 {MLM→엠엘엠}은 문장의 일부를 가리고 맞추는 방식이에요.

둘째, 다음 문장 예측인 {NSP→엔에스피}는 두 문장이 이어지는 관계인지 판단하는 거죠.

셋째, 다음 단어 예측은 GPT 같은 모델이 사용하는 방법이에요.

수백 개의 GPU로 며칠 동안 학습하면, 오른쪽처럼 범용 언어 이해 능력을 가진 모델이 탄생해요.

이 모델은 문법과 구문을 이해하고, 단어 간 의미 관계를 학습하며, 세계 지식까지 축적하게 돼요.

그 다음이 핵심이에요. 소량의 라벨 데이터로 {fine-tuning→파인튜닝}하면 특정 작업을 수행할 수 있죠.

화면 아래를 보시면 감성 분석, 질의응답, 개체명 인식, 자연어 추론 네 가지 다운스트림 과제가 있어요.

이전에는 각 작업마다 대형 모델을 처음부터 학습해야 했어요. 데이터도 많이 필요했고 시간도 엄청 걸렸죠.

사전학습 패러다임은 한 번 학습한 모델을 여러 작업에 전이해서 100배 이상 효율적이에요.

비유하자면, 대학교에서 기초 교양을 배운 후 전공을 빠르게 익히는 것과 같아요.

이 패러다임이 없었다면 오늘날의 ChatGPT나 {BERT→버트}는 존재하지 못했을 거예요.

{BERT→버트}의 등장은 NLP 분야의 이미지넷 모먼트라고 불릴 만큼 혁명적이었어요.

2018년 구글이 발표한 이후, 거의 모든 NLP 벤치마크 기록이 갈아치워졌죠.

이제 사전학습의 구체적인 메커니즘을 하나씩 살펴보겠습니다.

💬 강의 Q&A

0:00

0:53

🎓 강의 스크립트

선생님: 사전학습이 기존 방식보다 획기적인 이유가 뭘까요?

학생: 라벨 없는 데이터만으로 범용 언어 이해력을 학습할 수 있기 때문이에요.

학생: 텍스트 자체에서 학습 신호를 만들 수 있으니까요. 빈칸 채우기나 다음 단어 예측처럼 입력 데이터만으로 정답을 구성할 수 있어요.

학생: 그래서 데이터가 사실상 무한한 거군요. 기존 지도학습과의 규모 차이가 엄청나네요.