이 레슨과 관련된 학습 키워드
인공지능(AI) — 기계가 생각하는 법 → 딥러닝(Deep Learning) — 인공 신경망의 세계 → 합성곱 신경망(CNN) — 이미지를 이해하는 네트워크 → 고급 CNN 아키텍처
다중 스케일 특징 추출을 위한 병렬 경로를 가진 inception 블록을 구축합니다.
인셉션 모듈을 배울 거예요. 먼저 왜 필요한지, 다중 스케일 문제부터 봅시다.
그림 왼쪽에 입력 이미지가 있어요. 224 곱하기 224 크기의 컬러 사진이에요.
이 이미지 안에는 크기가 완전히 다른 특징들이 섞여 있어요.
눈, 코, 입처럼 작은 부분도 있고, 얼굴 전체 윤곽처럼 큰 구조도 있어요.
가운데 위쪽 파란 상자를 보세요. 3 곱하기 3 필터는 수용 영역이 좁아서 edge나 corner를 잡아요.
주황색 상자를 보면, 5 곱하기 5 필터는 텍스처나 곡선 같은 중간 크기 패턴을 감지해요.
초록색 상자를 보면, 넓은 수용 영역은 얼굴 전체나 물체 윤곽 같은 큰 구조를 포착해요.
오른쪽 보라색 영역에 현미경 비유가 있어요. 직관적으로 이해해봅시다.
고배율 400배는 세포 핵을 보는 거예요. 3 곱하기 3 필터의 edge 감지와 같아요.
중배율 100배는 조직 패턴을 봐요. 5 곱하기 5 필터의 텍스처 검출과 대응돼요.
저배율 10배는 장기 전체를 봐요. 넓은 수용 영역의 물체 인식과 같죠.
정확한 진단을 위해서는 세 배율을 모두 봐야 해요. CNN도 마찬가지예요.
오른쪽 끝에 VGG와 인셉션 비교가 있어요. 빨간 상자가 VGG예요.
VGG는 3 곱하기 3만 16에서 19층 깊게 쌓아서 간접적으로 수용 영역을 넓혔어요.
하지만 파라미터가 1억 3천8백만 개나 돼요. 그래디언트 소실 위험도 커요.
초록 상자의 인셉션 접근법을 보세요. 1 곱하기 1, 3 곱하기 3, 5 곱하기 5를 병렬 배치해요.
파라미터가 5백만 개로, VGG 대비 96퍼센트나 절감돼요. 효율이 극적으로 좋아지죠.
이게 바로 2014년 구글 연구팀, Szegedy 팀이 던진 질문이에요.
하단 파란 상자를 보세요. 핵심 질문은, 한 레이어에서 여러 스케일의 특징을 동시에 뽑을 수 없을까예요.
이 질문에 대한 답이 인셉션 모듈이에요. 이름은 영화 인셉션에서 따왔어요.
네트워크 안의 네트워크라는 의미죠. 다음 슬라이드에서 첫 번째 시도를 볼게요.
선생님: 이 개념을 직관적으로 이해해봅시다. 왜 하나의 필터 크기만으로는 부족할까요?
학생: 3 곱하기 3 필터만 쓰면 큰 구조를 놓치니까요. 수용 영역이 좁으니까요.
선생님: 맞아요. VGG처럼 깊게 쌓으면 간접적으로 넓힐 수 있지만, 파라미터가 1억 3천만 개나 필요해요.
학생: 그러면 인셉션은 여러 크기 필터를 한 레이어에 동시에 두는 건가요?
선생님: 정확해요. 1 곱하기 1, 3 곱하기 3, 5 곱하기 5를 병렬로 배치하고 결과를 합치는 거예요.
학생: 와, 현미경 비유가 딱이네요. 여러 배율을 동시에 보는 거군요!