이 레슨과 관련된 학습 키워드
인공지능(AI) — 기계가 생각하는 법 → 자연어처리(NLP) — 기계가 언어를 이해하다 → 트랜스포머 기반 NLP — BERT에서 GPT까지 → 사전학습 모델
Learn BERT and pre-training: MLM, NSP, fine-tuning strategies, BERT variants, Korean BERT, and Encoder/Decoder/Enc-Dec architectures.
사전학습은 대규모 레이블 없는 데이터로 모델을 먼저 학습시키는 방법이에요.
화면 왼쪽을 보시면, 위키피디아 60억 단어, 북코퍼스 8억 단어 같은 방대한 텍스트 데이터가 있어요.
이런 데이터에는 라벨이 없어요. 사람이 일일이 정답을 달아주지 않았다는 뜻이죠.
그런데 라벨 없는 데이터만으로 어떻게 학습할 수 있을까요?
자기지도 학습, 셀프 슈퍼바이즈드 {self-supervised→셀프 슈퍼바이즈드} 러닝이라는 영리한 방법을 쓰는 거예요.
화면 가운데 {pre-training→프리트레이닝} 박스를 보세요. 세 가지 과제가 보이죠.
첫째, 빈칸 채우기 과제인 {MLM→엠엘엠}은 문장의 일부를 가리고 맞추는 방식이에요.
둘째, 다음 문장 예측인 {NSP→엔에스피}는 두 문장이 이어지는 관계인지 판단하는 거죠.
셋째, 다음 단어 예측은 GPT 같은 모델이 사용하는 방법이에요.
수백 개의 GPU로 며칠 동안 학습하면, 오른쪽처럼 범용 언어 이해 능력을 가진 모델이 탄생해요.
이 모델은 문법과 구문을 이해하고, 단어 간 의미 관계를 학습하며, 세계 지식까지 축적하게 돼요.
그 다음이 핵심이에요. 소량의 라벨 데이터로 {fine-tuning→파인튜닝}하면 특정 작업을 수행할 수 있죠.
화면 아래를 보시면 감성 분석, 질의응답, 개체명 인식, 자연어 추론 네 가지 다운스트림 과제가 있어요.
이전에는 각 작업마다 대형 모델을 처음부터 학습해야 했어요. 데이터도 많이 필요했고 시간도 엄청 걸렸죠.
사전학습 패러다임은 한 번 학습한 모델을 여러 작업에 전이해서 100배 이상 효율적이에요.
비유하자면, 대학교에서 기초 교양을 배운 후 전공을 빠르게 익히는 것과 같아요.
이 패러다임이 없었다면 오늘날의 ChatGPT나 {BERT→버트}는 존재하지 못했을 거예요.
{BERT→버트}의 등장은 NLP 분야의 이미지넷 모먼트라고 불릴 만큼 혁명적이었어요.
2018년 구글이 발표한 이후, 거의 모든 NLP 벤치마크 기록이 갈아치워졌죠.
이제 사전학습의 구체적인 메커니즘을 하나씩 살펴보겠습니다.
선생님: 사전학습이 기존 방식보다 획기적인 이유가 뭘까요?
학생: 라벨 없는 데이터만으로 범용 언어 이해력을 학습할 수 있기 때문이에요.
선생님: 맞아요! 기존에는 작업마다 대량의 라벨 데이터가 필요했는데, 사전학습은 한 번만 학습하면 여러 작업에 전이할 수 있죠. 그러면 자기지도 학습이 가능한 이유는 뭘까요?
학생: 텍스트 자체에서 학습 신호를 만들 수 있으니까요. 빈칸 채우기나 다음 단어 예측처럼 입력 데이터만으로 정답을 구성할 수 있어요.
선생님: 정확해요! 라벨을 사람이 달지 않아도 데이터 자체가 감독 신호가 되는 거예요. 위키피디아 한 문장만으로도 수십 개의 학습 샘플을 만들 수 있죠.
학생: 그래서 데이터가 사실상 무한한 거군요. 기존 지도학습과의 규모 차이가 엄청나네요.