데이터 증강 전략 — 데이터를 무한히 늘리기

모델 일반화를 향상시키고 과적합을 줄이기 위해 훈련 이미지에 랜덤 변환을 적용합니다.

1 / 15

데이터 증강이란? 왜 필요한가

핵심 질문: 왜 데이터를 "뻥튀기"해야 하는가?

딥러닝 모델은 수백만~수억 개의 파라미터를 학습합니다. 하지만 현실에서 라벨링된 데이터는 항상 부족하죠. 데이터가 적으면 모델은 훈련 데이터를 "암기"해버립니다 — 이것이 과적합(overfitting)입니다.

과적합의 전형적 신호:

- 훈련 정확도: 99% / 검증 정확도: 65% → 모델이 훈련 세트만 외운 것

- 훈련 손실은 계속 내려가는데 검증 손실은 올라감 → 일반화 실패

- 새로운 데이터에 대해 예측이 불안정 → 실전에서 쓸 수 없는 모델

Data Augmentation의 원리:

기존 데이터에 변환을 적용해서 "의미적으로 동일하지만 픽셀 수준에서 다른" 새 샘플을 만듭니다.

고양이 사진 1장이 있다고 해보죠:

- 좌우 반전 → 거울상 고양이 (여전히 고양이)

- 15도 회전 → 기울어진 고양이 (여전히 고양이)

- 밝기 변경 → 어두운 고양이 (여전히 고양이)

- 랜덤 크롭 → 일부만 보이는 고양이 (여전히 고양이)

이렇게 1장으로 수십~수백 장의 학습 데이터를 만들 수 있어요.

데이터 증강이 효과적인 이유 3가지:

1. 데이터 다양성 증가: 모델이 다양한 시점/조명/구도를 학습

2. 과적합 방지: 같은 이미지를 반복하지 않으니 암기가 어려움

3. 불변성(invariance) 학습: "좌우 반전해도 고양이는 고양이"라는 걸 모델이 배움

주의사항: 라벨을 보존하는 변환만 적용해야 합니다!

- ✅ 고양이를 뒤집어도 고양이 → OK

- ❌ 숫자 6을 180도 회전하면 9 → 라벨이 바뀜! NG

- ❌ 의료 영상에서 좌우 반전 → 좌심실이 우심실이 됨! NG

왜 중요한가? 딥러닝 모델은 데이터가 부족하면 학습 데이터를 외워버립니다(과적합). 직관적으로 "더 많은 데이터를 모으면 해결"이지만, 의료 영상, 위성 사진, 산업 결함 등 많은 도메인에서 데이터 수집은 극도로 비싸거나 물리적으로 불가능합니다. 데이터 증강은 기존 데이터를 변환하여 새로운 학습 샘플을 생성합니다. 핵심은 "라벨을 보존하는 변환"을 적용하는 것입니다. 고양이를 뒤집어도 여전히 고양이이지만, 6을 뒤집으면 9가 됩니다. 이 도메인 지식을 반영한 증강이 데이터 수집 대비 100배 저렴하면서도 유사한 효과를 줍니다.

0:00

1:35

🎓 강의 스크립트

여러분, 딥러닝 모델을 훈련할 때 가장 큰 고민이 무엇일까요?

바로 데이터가 부족하다는 겁니다.

데이터를 새로 수집하려면 시간과 비용이 엄청나게 들죠.

그림 왼쪽을 보세요.

원본 데이터가 고작 100장뿐이라면 어떤 일이 벌어질까요?

모델이 훈련 데이터를 달달 외워버리는 과적합이 발생합니다.

훈련 정확도는 99퍼센트인데, 검증 정확도는 55퍼센트밖에 안 되는 거죠.

이것이 바로 과적합의 전형적인 증상입니다.

가운데 상자를 보면, 데이터 증강이라는 해결책이 있습니다.

오그멘테이션은 기존 이미지를 회전하고, 뒤집고, 밝기를 바꿔서 새로운 변형을 만들어내는 거예요.

핵심은 라벨은 그대로 유지하면서 외형만 달라진다는 점입니다.

고양이 사진을 뒤집어도 여전히 고양이니까요.

오른쪽 결과를 보세요.

100장이 1000장으로 늘어나면서, 검증 정확도가 88퍼센트로 껑충 올라갑니다.

그리고 이 모든 것이 추가 비용 없이, 기존 데이터만으로 가능합니다.

아래 비교표를 한번 확인해보세요.

증강 전과 후의 차이가 한눈에 보입니다.

데이터 증강은 2012년 알렉스넷 때부터 사실상 필수 기법이 되었습니다.

지금부터 어떤 증강 기법들이 있는지, 하나하나 살펴보겠습니다.

이 레슨을 마치면 여러분도 자신의 프로젝트에 바로 적용할 수 있을 거예요.

💬 강의 Q&A

0:00

0:42

🎓 강의 스크립트

선생님: 데이터 증강을 하면 왜 과적합이 줄어들까요? 단순히 데이터가 많아져서일까요?

학생: 음, 데이터가 많으면 모델이 외우기 어려우니까 일반화가 되는 거 아닌가요?

선생님: 맞는 말이에요. 하지만 더 본질적인 이유가 있어요.

선생님: 증강된 이미지들은 같은 객체를 다양한 조건에서 보여주기 때문에, 모델이 불변 특성을 학습하게 됩니다.

학생: 아, 뒤집힌 고양이도 고양이라는 걸 배우는 거군요! 그러면 새로운 각도의 고양이도 맞출 수 있겠네요.

선생님: 정확해요. 이걸 변환 불변성이라고 합니다. 면접에서도 자주 나오는 개념이에요.

이런 분들이 찾고 있어요

이 레슨과 관련된 학습 키워드

CS/AI 전공 대학생

딥러닝 기말고사딥러닝 중간고사인공지능 전공 정리딥러닝 과제신경망 시험 대비

비전공/입문자

딥러닝 쉽게 설명딥러닝이란AI 기초 공부딥러닝 독학딥러닝 입문 추천

취준생

딥러닝 면접 질문AI 엔지니어 준비딥러닝 포트폴리오

직장인

딥러닝 실무 적용AI 업스킬링직장인 딥러닝 강의

대학원생/연구자

딥러닝 최신 동향neural network 서베이

AI 교육 플랫폼

AI 교육 플랫폼 추천AI 강의 사이트머신러닝 온라인 강의딥러닝 강의 추천

AI 독학/로드맵

AI 독학 방법머신러닝 공부 순서딥러닝 로드맵머신러닝 독학 로드맵

AI 취업/커리어

AI 취업 준비데이터 사이언티스트 강의ML 엔지니어 준비AI 면접 준비

데이터 증강 전략 — 데이터를 무한히 늘리기

모델 일반화를 향상시키고 과적합을 줄이기 위해 훈련 이미지에 랜덤 변환을 적용합니다.

1 / 15

데이터 증강이란? 왜 필요한가

핵심 질문: 왜 데이터를 "뻥튀기"해야 하는가?

과적합의 전형적 신호:

- 훈련 정확도: 99% / 검증 정확도: 65% → 모델이 훈련 세트만 외운 것

- 훈련 손실은 계속 내려가는데 검증 손실은 올라감 → 일반화 실패

- 새로운 데이터에 대해 예측이 불안정 → 실전에서 쓸 수 없는 모델

Data Augmentation의 원리:

기존 데이터에 변환을 적용해서 "의미적으로 동일하지만 픽셀 수준에서 다른" 새 샘플을 만듭니다.

고양이 사진 1장이 있다고 해보죠:

- 좌우 반전 → 거울상 고양이 (여전히 고양이)

- 15도 회전 → 기울어진 고양이 (여전히 고양이)

- 밝기 변경 → 어두운 고양이 (여전히 고양이)

- 랜덤 크롭 → 일부만 보이는 고양이 (여전히 고양이)

이렇게 1장으로 수십~수백 장의 학습 데이터를 만들 수 있어요.

데이터 증강이 효과적인 이유 3가지:

1. 데이터 다양성 증가: 모델이 다양한 시점/조명/구도를 학습

2. 과적합 방지: 같은 이미지를 반복하지 않으니 암기가 어려움

3. 불변성(invariance) 학습: "좌우 반전해도 고양이는 고양이"라는 걸 모델이 배움

주의사항: 라벨을 보존하는 변환만 적용해야 합니다!

- ✅ 고양이를 뒤집어도 고양이 → OK

- ❌ 숫자 6을 180도 회전하면 9 → 라벨이 바뀜! NG

- ❌ 의료 영상에서 좌우 반전 → 좌심실이 우심실이 됨! NG

0:00

1:35

🎓 강의 스크립트

여러분, 딥러닝 모델을 훈련할 때 가장 큰 고민이 무엇일까요?

바로 데이터가 부족하다는 겁니다.

데이터를 새로 수집하려면 시간과 비용이 엄청나게 들죠.

그림 왼쪽을 보세요.

원본 데이터가 고작 100장뿐이라면 어떤 일이 벌어질까요?

모델이 훈련 데이터를 달달 외워버리는 과적합이 발생합니다.

훈련 정확도는 99퍼센트인데, 검증 정확도는 55퍼센트밖에 안 되는 거죠.

이것이 바로 과적합의 전형적인 증상입니다.

가운데 상자를 보면, 데이터 증강이라는 해결책이 있습니다.

오그멘테이션은 기존 이미지를 회전하고, 뒤집고, 밝기를 바꿔서 새로운 변형을 만들어내는 거예요.

핵심은 라벨은 그대로 유지하면서 외형만 달라진다는 점입니다.

고양이 사진을 뒤집어도 여전히 고양이니까요.

오른쪽 결과를 보세요.

100장이 1000장으로 늘어나면서, 검증 정확도가 88퍼센트로 껑충 올라갑니다.

그리고 이 모든 것이 추가 비용 없이, 기존 데이터만으로 가능합니다.

아래 비교표를 한번 확인해보세요.

증강 전과 후의 차이가 한눈에 보입니다.

데이터 증강은 2012년 알렉스넷 때부터 사실상 필수 기법이 되었습니다.

지금부터 어떤 증강 기법들이 있는지, 하나하나 살펴보겠습니다.

이 레슨을 마치면 여러분도 자신의 프로젝트에 바로 적용할 수 있을 거예요.

💬 강의 Q&A

0:00

0:42

🎓 강의 스크립트

선생님: 데이터 증강을 하면 왜 과적합이 줄어들까요? 단순히 데이터가 많아져서일까요?

학생: 음, 데이터가 많으면 모델이 외우기 어려우니까 일반화가 되는 거 아닌가요?

선생님: 맞는 말이에요. 하지만 더 본질적인 이유가 있어요.

선생님: 증강된 이미지들은 같은 객체를 다양한 조건에서 보여주기 때문에, 모델이 불변 특성을 학습하게 됩니다.

학생: 아, 뒤집힌 고양이도 고양이라는 걸 배우는 거군요! 그러면 새로운 각도의 고양이도 맞출 수 있겠네요.

선생님: 정확해요. 이걸 변환 불변성이라고 합니다. 면접에서도 자주 나오는 개념이에요.