이 레슨과 관련된 학습 키워드
인공지능(AI) — 기계가 생각하는 법 → 머신러닝 — 데이터에서 지식을 추출하다 → 지도학습 기초 — 데이터에서 패턴 배우기 → 선형 모델
선형 회귀를 다중 특성과 정규화를 사용한 다항식 변환으로 확장합니다.
단순 회귀는 변수가 하나였죠. 이번엔 여러 개의 독립변수를 동시에 사용하는 다중 회귀를 배워볼게요.
그림 왼쪽 파란 박스를 보세요. 독립변수 네 개가 나열되어 있어요. 면적, 층수, 역세권 거리, 건축연도예요.
집값을 예측할 때 면적 하나만으로는 부족하잖아요. 층수도 중요하고 역세권인지도 영향을 주죠.
가운데 주황색 박스를 보면 각 변수에 가중치를 곱해서 더하는 과정이 나와요.
w1 곱하기 x1은 50 곱하기 85로 4250이에요. 면적이 가장 큰 기여를 하고 있네요.
역세권 거리의 가중치는 마이너스 200이에요. 멀수록 집값이 떨어진다는 뜻이죠.
이렇게 모든 가중합을 더하면 시그마가 4660이 되고 절편 b를 더해서 최종 예측값 5660만원이 나와요.
오른쪽 초록 박스에 예측값이 표시되어 있어요. 실제값 5800만원과 비교하면 잔차가 140만원이에요.
수식으로 쓰면 y햇 이퀄 w 트랜스포즈 x 플러스 b예요. 벡터 내적으로 깔끔하게 정리돼요.
그림 아래 보라색 박스를 보세요. 벡터 표기법으로 한 줄에 표현한 예시가 있어요.
오른쪽 시안색 박스에 OLS 최적해 공식이 있어요. w 이퀄 X 트랜스포즈 X 인버스 X 트랜스포즈 y예요.
이 공식은 잔차 제곱합을 최소화하는 닫힌 해예요. 편미분을 0으로 놓으면 유도돼요.
다중 회귀의 핵심은 각 변수의 독립적인 기여를 분리해낸다는 거예요.
면적이 한 단위 늘면 다른 변수를 고정한 채 예측값이 w1만큼 변하죠. 이걸 편회귀계수라고 해요.
변수가 많아지면 좋은 점도 있지만 위험도 있어요. 불필요한 변수가 노이즈를 가져올 수 있거든요.
또한 변수끼리 서로 상관관계가 높으면 다중공선성 문제가 생겨요. 뒤에서 자세히 다룰 거예요.
표준화도 중요해요. 면적은 85인데 층수는 12니까 스케일이 다르잖아요. 가중치 크기만으로 중요도를 비교하면 안 돼요.
표준화하면 모든 변수를 같은 척도에 놓을 수 있어서 가중치 비교가 의미를 가지게 돼요.
정리하면 다중 회귀는 여러 변수의 선형 조합으로 타겟을 예측하고 OLS로 최적 가중치를 찾는 모델이에요.
다음 블록에서는 이 다중 회귀를 3D 공간에서 어떻게 시각화하는지 살펴볼게요.
선생님: 다중 회귀에서 가중치 w₃가 마이너스 200이라는 건 어떤 의미일까요?
학생: 역세권 거리가 1킬로미터 멀어지면 예측 집값이 200만원 줄어든다는 뜻 아닌가요?
선생님: 맞아요. 정확히는 다른 변수를 고정한 상태에서 그 변수만 1 단위 변할 때의 효과예요.
학생: 그런데 면적의 가중치가 50이고 층수가 30이면 면적이 더 중요한 건가요?
선생님: 조심해야 해요. 면적은 85 단위이고 층수는 12 단위니까 스케일이 달라요. 표준화 후 비교해야 진짜 중요도를 알 수 있어요.
학생: 아 그래서 표준화가 필요한 거군요. 가중치 크기만 보면 오해할 수 있겠네요.