토큰화와 텍스트 전처리 — 텍스트를 모델이 읽게

Learn tokenization methods (BPE, WordPiece, SentencePiece), text normalization, stopword removal, and preprocessing pipelines for NLP.

1 / 15

토큰화란? — NLP의 첫 번째 단계

토큰화(Tokenization)는 텍스트를 의미 있는 최소 단위(토큰)로 분리하는 과정입니다. NLP 파이프라인의 가장 첫 번째이자 가장 중요한 단계입니다.

왜 토큰화가 필요한가?

- 컴퓨터는 문자열을 그대로 이해할 수 없습니다

- 텍스트를 숫자(벡터)로 변환하려면, 먼저 어떤 단위로 나눌지 결정해야 합니다

- 토큰화 방식에 따라 모델 성능이 크게 달라집니다

토큰이란?

- 단어 단위: "나는 학생입니다" → ["나는", "학생입니다"]

- 형태소 단위: "나는 학생입니다" → ["나", "는", "학생", "입니다"]

- 서브워드 단위: "unbelievable" → ["un", "##believ", "##able"]

- 문자 단위: "cat" → ["c", "a", "t"]

핵심 원칙:

토큰화는 "어떻게 나눌 것인가"의 문제이며, 정답은 하나가 아닙니다. 언어, 과제, 모델에 따라 최적의 방식이 다릅니다.

0:00

2:16

🎓 강의 스크립트

토큰화란 무엇일까요? 텍스트를 의미 있는 최소 단위로 쪼개는 과정이에요.

NLP 파이프라인의 가장 첫 번째 단계이자, 모델 성능을 좌우하는 가장 중요한 단계입니다.

그림 왼쪽을 보세요. 원시 텍스트가 있죠. 컴퓨터는 이 문자열을 그대로 이해할 수 없어요.

먼저 텍스트를 작은 단위로 나누고, 그걸 숫자로 바꿔야 해요.

그림 가운데 {토크나이제이션→토크나이제이션} 과정을 보면, 문장이 토큰 리스트로 분리돼요.

그 다음 각 토큰에 고유한 ID 번호를 부여하고, 최종적으로 임베딩 벡터로 변환해요.

나누는 방식은 네 가지가 있어요. 그림 아래쪽 네 개의 박스를 보세요.

단어 단위는 직관적이지만, 처음 보는 단어를 처리할 수 없는 OOV 문제가 있어요.

형태소 단위는 한국어에 특화되어 있어요. 조사와 어미를 분리해서 의미를 보존하죠.

{서브워드→서브워드} 단위는 현대 NLP의 표준이에요. {비피이→비피이}나 {워드피스→워드피스}가 대표적이죠.

unbelievable이 un, believ, able로 쪼개지면, 처음 보는 단어도 부분 조합으로 이해할 수 있어요.

문자 단위는 어휘가 256개로 충분하지만, 시퀀스가 너무 길어져서 비효율적이에요.

그림 맨 아래 핵심 박스를 보세요. {토크나이제이션→토크나이제이션}은 NLP의 첫 번째 관문이에요.

나누는 방식에 따라 모델 성능이 크게 달라진다는 것, 꼭 기억하세요.

정답은 하나가 아니에요. 언어, 과제, 모델에 따라 최적의 방식이 달라져요.

GPT는 {비피이→비피이}를, BERT는 {워드피스→워드피스}를, T5는 {센텐스피스→센텐스피스}를 사용해요.

다음 슬라이드에서 세 가지 방식을 같은 문장으로 직접 비교해볼게요.

왜 {서브워드→서브워드}가 현대 표준이 되었는지, 그 이유를 확실히 이해하게 될 거예요.

토큰화를 잘 이해하면, LLM의 API 비용 구조도 자연스럽게 이해할 수 있어요.

GPT-4가 토큰당 과금하는 이유, 한국어가 영어보다 비싼 이유가 바로 여기에 있습니다.

💬 강의 Q&A

0:00

0:45

🎓 강의 스크립트

선생님: {토크나이제이션→토크나이제이션}을 왜 하는 건지 한마디로 설명해볼까요?

학생: 모델이 텍스트를 처리할 수 있게 작은 단위로 쪼개는 거요.

선생님: 맞아요! 그런데 왜 단어 단위로 쪼개면 안 될까요?

학생: 처음 보는 단어가 나오면 처리할 수 없으니까요. OOV 문제요.

선생님: 정확해요! 그래서 {서브워드→서브워드} 방식이 나온 거예요. un과 believ와 able로 나누면 새 단어도 조합으로 이해할 수 있죠.

학생: 그러면 문자 단위로 나누면 OOV가 아예 없잖아요. 왜 그건 안 쓰나요?

선생님: 좋은 질문이에요! 시퀀스가 너무 길어져서 Attention 비용이 제곱으로 늘어나거든요.

이런 분들이 찾고 있어요

이 레슨과 관련된 학습 키워드

CS/AI 전공 대학생

NLP 기말고사BERT 구조 정리GPT 원리자연어처리 과제

비전공/입문자

NLP란자연어처리 입문GPT 쉽게 설명

취준생

NLP 엔지니어 면접BERT 파인튜닝 프로젝트LLM 개발자

직장인

챗봇 구축RAG 시스템 구현LLM 실무 활용

대학원생/연구자

LLM 논문 리뷰prompt engineering 연구RLHF 분석

AI 교육 플랫폼

AI 교육 플랫폼 추천AI 강의 사이트머신러닝 온라인 강의딥러닝 강의 추천

AI 독학/로드맵

AI 독학 방법머신러닝 공부 순서딥러닝 로드맵머신러닝 독학 로드맵

AI 취업/커리어

AI 취업 준비데이터 사이언티스트 강의ML 엔지니어 준비AI 면접 준비

토큰화와 텍스트 전처리 — 텍스트를 모델이 읽게

Learn tokenization methods (BPE, WordPiece, SentencePiece), text normalization, stopword removal, and preprocessing pipelines for NLP.

1 / 15

토큰화란? — NLP의 첫 번째 단계

토큰화(Tokenization)는 텍스트를 의미 있는 최소 단위(토큰)로 분리하는 과정입니다. NLP 파이프라인의 가장 첫 번째이자 가장 중요한 단계입니다.

왜 토큰화가 필요한가?

- 컴퓨터는 문자열을 그대로 이해할 수 없습니다

- 텍스트를 숫자(벡터)로 변환하려면, 먼저 어떤 단위로 나눌지 결정해야 합니다

- 토큰화 방식에 따라 모델 성능이 크게 달라집니다

토큰이란?

- 단어 단위: "나는 학생입니다" → ["나는", "학생입니다"]

- 형태소 단위: "나는 학생입니다" → ["나", "는", "학생", "입니다"]

- 서브워드 단위: "unbelievable" → ["un", "##believ", "##able"]

- 문자 단위: "cat" → ["c", "a", "t"]

핵심 원칙:

토큰화는 "어떻게 나눌 것인가"의 문제이며, 정답은 하나가 아닙니다. 언어, 과제, 모델에 따라 최적의 방식이 다릅니다.

0:00

2:16

🎓 강의 스크립트

토큰화란 무엇일까요? 텍스트를 의미 있는 최소 단위로 쪼개는 과정이에요.

NLP 파이프라인의 가장 첫 번째 단계이자, 모델 성능을 좌우하는 가장 중요한 단계입니다.

그림 왼쪽을 보세요. 원시 텍스트가 있죠. 컴퓨터는 이 문자열을 그대로 이해할 수 없어요.

먼저 텍스트를 작은 단위로 나누고, 그걸 숫자로 바꿔야 해요.

그림 가운데 {토크나이제이션→토크나이제이션} 과정을 보면, 문장이 토큰 리스트로 분리돼요.

그 다음 각 토큰에 고유한 ID 번호를 부여하고, 최종적으로 임베딩 벡터로 변환해요.

나누는 방식은 네 가지가 있어요. 그림 아래쪽 네 개의 박스를 보세요.

단어 단위는 직관적이지만, 처음 보는 단어를 처리할 수 없는 OOV 문제가 있어요.

형태소 단위는 한국어에 특화되어 있어요. 조사와 어미를 분리해서 의미를 보존하죠.

{서브워드→서브워드} 단위는 현대 NLP의 표준이에요. {비피이→비피이}나 {워드피스→워드피스}가 대표적이죠.

unbelievable이 un, believ, able로 쪼개지면, 처음 보는 단어도 부분 조합으로 이해할 수 있어요.

문자 단위는 어휘가 256개로 충분하지만, 시퀀스가 너무 길어져서 비효율적이에요.

그림 맨 아래 핵심 박스를 보세요. {토크나이제이션→토크나이제이션}은 NLP의 첫 번째 관문이에요.

나누는 방식에 따라 모델 성능이 크게 달라진다는 것, 꼭 기억하세요.

정답은 하나가 아니에요. 언어, 과제, 모델에 따라 최적의 방식이 달라져요.

GPT는 {비피이→비피이}를, BERT는 {워드피스→워드피스}를, T5는 {센텐스피스→센텐스피스}를 사용해요.

다음 슬라이드에서 세 가지 방식을 같은 문장으로 직접 비교해볼게요.

왜 {서브워드→서브워드}가 현대 표준이 되었는지, 그 이유를 확실히 이해하게 될 거예요.

토큰화를 잘 이해하면, LLM의 API 비용 구조도 자연스럽게 이해할 수 있어요.

GPT-4가 토큰당 과금하는 이유, 한국어가 영어보다 비싼 이유가 바로 여기에 있습니다.

💬 강의 Q&A

0:00

0:45

🎓 강의 스크립트

선생님: {토크나이제이션→토크나이제이션}을 왜 하는 건지 한마디로 설명해볼까요?

학생: 모델이 텍스트를 처리할 수 있게 작은 단위로 쪼개는 거요.

선생님: 맞아요! 그런데 왜 단어 단위로 쪼개면 안 될까요?

학생: 처음 보는 단어가 나오면 처리할 수 없으니까요. OOV 문제요.

선생님: 정확해요! 그래서 {서브워드→서브워드} 방식이 나온 거예요. un과 believ와 able로 나누면 새 단어도 조합으로 이해할 수 있죠.

학생: 그러면 문자 단위로 나누면 OOV가 아예 없잖아요. 왜 그건 안 쓰나요?

선생님: 좋은 질문이에요! 시퀀스가 너무 길어져서 Attention 비용이 제곱으로 늘어나거든요.