이 레슨과 관련된 학습 키워드
인공지능(AI) — 기계가 생각하는 법 → 자연어처리(NLP) — 기계가 언어를 이해하다 → NLP 응용 — 번역, 요약, 질의응답 → 실전 응용
텍스트 요약의 기초부터 최신 LLM 기반 접근까지 체계적으로 학습합니다.
여러분, 매일 얼마나 많은 텍스트가 세상에 쏟아지는지 상상해 보세요.
뉴스 기사만 해도 하루에 수백만 건이 생성되고, 연구 논문도 매주 10만 건 이상 나와요.
이 모든 텍스트를 사람이 직접 읽는 건 물리적으로 불가능하죠.
화면 왼쪽을 보시면, 정보 과부하{Information Overload→인포메이션 오버로드} 상황이 시각화되어 있어요.
의사는 환자 기록을 빠르게 파악해야 하고, 변호사는 계약서 핵심 조항을 놓치면 안 돼요.
이런 현실적 필요가 텍스트 요약{summarization→서머라이제이션} 기술을 탄생시킨 거예요.
텍스트 요약이란, 원본 문서의 핵심 정보를 보존하면서 짧은 형태로 바꾸는 NLP 태스크예요.
가운데 초록색 박스를 보시면, Summary의 길이가 Document보다 훨씬 짧다는 걸 수식으로 표현했어요.
뉴스에서는 헤드라인을 자동 생성하고, 학술 분야에서는 논문 초록을 만들 수 있어요.
오른쪽 노란 박스를 보시면 의료, 법률, 비즈니스까지 활용 분야가 정말 넓죠.
그럼 좋은 요약이란 어떤 걸까요?
아래쪽 세 개의 박스를 보시면, 좋은 요약의 세 가지 조건이 나와 있어요.
정보성{Informativeness→인포머티브니스}은 핵심 내용을 빠짐없이 담는 것이고, 간결성은 불필요한 부분을 과감히 잘라내는 거예요.
충실성{faithfulness→페이스풀니스}은 원문에 없는 내용을 지어내지 않는 것으로, 가장 어렵지만 가장 중요한 조건이에요.
맨 아래 압축률{compression→컴프레션} 바를 보면, 일반적으로 원문의 20% 정도로 압축하는 게 목표예요.
이번 레슨에서는 전통적인 추출 요약부터 최신 LLM 기반 요약까지 전체 흐름을 다룰 거예요.
각 기법이 어떻게 이 세 가지 조건을 만족시키려 노력하는지 주목해서 들어보세요.
특히 환각 문제와 충실성 검증이 왜 최근 가장 뜨거운 연구 주제인지 함께 알아볼 거예요.
요약 기술의 발전이 우리 일상에 어떤 변화를 가져왔는지, 구체적 사례와 함께 살펴봐요.
자, 그럼 첫 번째 주제인 요약의 두 가지 큰 유형부터 시작해 볼까요?
선생님: 텍스트 요약{summarization→서머라이제이션}에서 가장 중요한 조건이 뭘까요?
학생: 핵심을 놓치지 않으면서 간결하고, 원문에 없는 내용을 추가하지 않는 거요.
선생님: 맞아요, 특히 충실성{faithfulness→페이스풀니스}이 가장 어려운 조건이에요. 왜 그럴까요?
학생: 모델이 새로운 문장을 생성할 때 원문에 없는 사실을 만들어낼 수 있으니까요.
선생님: 정확해요. 그래서 추출 요약과 생성 요약의 충실성 차이가 중요한 연구 주제가 된 거예요.
학생: 의료나 법률처럼 정확성이 생명인 분야에서는 특히 더 중요하겠네요.