다중 및 다항 회귀 — 복잡한 관계 모델링

선형 회귀를 다중 특성과 정규화를 사용한 다항식 변환으로 확장합니다.

1 / 15

다중 회귀(Multiple Regression)는 독립변수가 여러 개인 선형 회귀입니다.

수식:

y = w_1 x_1 + w_2 x_2 + \cdots + w_n x_n + b

벡터 표기:

y = \mathbf{w}^T \mathbf{x} + b

왜 필요한가?

- 집값 예측: 면적(x₁)만으로는 부족 → 방 수(x₂), 역세권 거리(x₃), 층수(x₄) 등 추가

- 변수가 많을수록 예측 정확도 향상 (단, 무조건은 아님!)

각 계수 w의 의미:

| 변수 | 계수 w | 해석 |

|---|---|---|

| 면적(평) | w₁ = 820 | 1평 넓어지면 가격 820만원 상승 |

| 역 거리(km) | w₂ = -340 | 역에서 1km 멀어지면 340만원 하락 |

| 층수 | w₃ = 45 | 1층 올라갈 때마다 45만원 상승 |

핵심 포인트:

- 다른 변수를 고정했을 때 해당 변수의 순수 효과를 나타냄

- 이를 편회귀계수(Partial Regression Coefficient)라고 함

- 단순 상관과 다를 수 있음 → 다중공선성 문제로 이어짐

0:00

2:40

🎓 강의 스크립트

단순 회귀는 변수가 하나였죠. 이번엔 여러 개의 독립변수를 동시에 사용하는 다중 회귀를 배워볼게요.

그림 왼쪽 파란 박스를 보세요. 독립변수 네 개가 나열되어 있어요. 면적, 층수, 역세권 거리, 건축연도예요.

집값을 예측할 때 면적 하나만으로는 부족하잖아요. 층수도 중요하고 역세권인지도 영향을 주죠.

가운데 주황색 박스를 보면 각 변수에 가중치를 곱해서 더하는 과정이 나와요.

w1 곱하기 x1은 50 곱하기 85로 4250이에요. 면적이 가장 큰 기여를 하고 있네요.

역세권 거리의 가중치는 마이너스 200이에요. 멀수록 집값이 떨어진다는 뜻이죠.

이렇게 모든 가중합을 더하면 시그마가 4660이 되고 절편 b를 더해서 최종 예측값 5660만원이 나와요.

오른쪽 초록 박스에 예측값이 표시되어 있어요. 실제값 5800만원과 비교하면 잔차가 140만원이에요.

수식으로 쓰면 y햇 이퀄 w 트랜스포즈 x 플러스 b예요. 벡터 내적으로 깔끔하게 정리돼요.

그림 아래 보라색 박스를 보세요. 벡터 표기법으로 한 줄에 표현한 예시가 있어요.

오른쪽 시안색 박스에 OLS 최적해 공식이 있어요. w 이퀄 X 트랜스포즈 X 인버스 X 트랜스포즈 y예요.

이 공식은 잔차 제곱합을 최소화하는 닫힌 해예요. 편미분을 0으로 놓으면 유도돼요.

다중 회귀의 핵심은 각 변수의 독립적인 기여를 분리해낸다는 거예요.

면적이 한 단위 늘면 다른 변수를 고정한 채 예측값이 w1만큼 변하죠. 이걸 편회귀계수라고 해요.

변수가 많아지면 좋은 점도 있지만 위험도 있어요. 불필요한 변수가 노이즈를 가져올 수 있거든요.

또한 변수끼리 서로 상관관계가 높으면 다중공선성 문제가 생겨요. 뒤에서 자세히 다룰 거예요.

표준화도 중요해요. 면적은 85인데 층수는 12니까 스케일이 다르잖아요. 가중치 크기만으로 중요도를 비교하면 안 돼요.

표준화하면 모든 변수를 같은 척도에 놓을 수 있어서 가중치 비교가 의미를 가지게 돼요.

정리하면 다중 회귀는 여러 변수의 선형 조합으로 타겟을 예측하고 OLS로 최적 가중치를 찾는 모델이에요.

다음 블록에서는 이 다중 회귀를 3D 공간에서 어떻게 시각화하는지 살펴볼게요.

💬 강의 Q&A

0:00

0:44

🎓 강의 스크립트

선생님: 다중 회귀에서 가중치 w₃가 마이너스 200이라는 건 어떤 의미일까요?

학생: 역세권 거리가 1킬로미터 멀어지면 예측 집값이 200만원 줄어든다는 뜻 아닌가요?

선생님: 맞아요. 정확히는 다른 변수를 고정한 상태에서 그 변수만 1 단위 변할 때의 효과예요.

학생: 그런데 면적의 가중치가 50이고 층수가 30이면 면적이 더 중요한 건가요?

선생님: 조심해야 해요. 면적은 85 단위이고 층수는 12 단위니까 스케일이 달라요. 표준화 후 비교해야 진짜 중요도를 알 수 있어요.

학생: 아 그래서 표준화가 필요한 거군요. 가중치 크기만 보면 오해할 수 있겠네요.

이런 분들이 찾고 있어요

이 레슨과 관련된 학습 키워드

CS/AI 전공 대학생

머신러닝 기말고사회귀분석 정리분류 알고리즘 비교머신러닝 과제

비전공/입문자

머신러닝이란머신러닝 입문머신러닝 독학 로드맵AI 기초

취준생

머신러닝 면접 질문데이터 사이언티스트 준비ML 엔지니어 포트폴리오

직장인

머신러닝 실무 적용업무 자동화 ML비전공자 머신러닝

대학원생/연구자

ML 알고리즘 비교 논문classical ML 서베이

AI 교육 플랫폼

AI 교육 플랫폼 추천AI 강의 사이트머신러닝 온라인 강의딥러닝 강의 추천

AI 독학/로드맵

AI 독학 방법머신러닝 공부 순서딥러닝 로드맵머신러닝 독학 로드맵

AI 취업/커리어

AI 취업 준비데이터 사이언티스트 강의ML 엔지니어 준비AI 면접 준비

다중 및 다항 회귀 — 복잡한 관계 모델링

선형 회귀를 다중 특성과 정규화를 사용한 다항식 변환으로 확장합니다.

1 / 15

다중 회귀(Multiple Regression)는 독립변수가 여러 개인 선형 회귀입니다.

수식:

y = w_1 x_1 + w_2 x_2 + \cdots + w_n x_n + b

벡터 표기:

y = \mathbf{w}^T \mathbf{x} + b

왜 필요한가?

- 집값 예측: 면적(x₁)만으로는 부족 → 방 수(x₂), 역세권 거리(x₃), 층수(x₄) 등 추가

- 변수가 많을수록 예측 정확도 향상 (단, 무조건은 아님!)

각 계수 w의 의미:

| 변수 | 계수 w | 해석 |

|---|---|---|

| 면적(평) | w₁ = 820 | 1평 넓어지면 가격 820만원 상승 |

| 역 거리(km) | w₂ = -340 | 역에서 1km 멀어지면 340만원 하락 |

| 층수 | w₃ = 45 | 1층 올라갈 때마다 45만원 상승 |

핵심 포인트:

- 다른 변수를 고정했을 때 해당 변수의 순수 효과를 나타냄

- 이를 편회귀계수(Partial Regression Coefficient)라고 함

- 단순 상관과 다를 수 있음 → 다중공선성 문제로 이어짐

0:00

2:40

🎓 강의 스크립트

단순 회귀는 변수가 하나였죠. 이번엔 여러 개의 독립변수를 동시에 사용하는 다중 회귀를 배워볼게요.

그림 왼쪽 파란 박스를 보세요. 독립변수 네 개가 나열되어 있어요. 면적, 층수, 역세권 거리, 건축연도예요.

집값을 예측할 때 면적 하나만으로는 부족하잖아요. 층수도 중요하고 역세권인지도 영향을 주죠.

가운데 주황색 박스를 보면 각 변수에 가중치를 곱해서 더하는 과정이 나와요.

w1 곱하기 x1은 50 곱하기 85로 4250이에요. 면적이 가장 큰 기여를 하고 있네요.

역세권 거리의 가중치는 마이너스 200이에요. 멀수록 집값이 떨어진다는 뜻이죠.

이렇게 모든 가중합을 더하면 시그마가 4660이 되고 절편 b를 더해서 최종 예측값 5660만원이 나와요.

오른쪽 초록 박스에 예측값이 표시되어 있어요. 실제값 5800만원과 비교하면 잔차가 140만원이에요.

수식으로 쓰면 y햇 이퀄 w 트랜스포즈 x 플러스 b예요. 벡터 내적으로 깔끔하게 정리돼요.

그림 아래 보라색 박스를 보세요. 벡터 표기법으로 한 줄에 표현한 예시가 있어요.

오른쪽 시안색 박스에 OLS 최적해 공식이 있어요. w 이퀄 X 트랜스포즈 X 인버스 X 트랜스포즈 y예요.

이 공식은 잔차 제곱합을 최소화하는 닫힌 해예요. 편미분을 0으로 놓으면 유도돼요.

다중 회귀의 핵심은 각 변수의 독립적인 기여를 분리해낸다는 거예요.

면적이 한 단위 늘면 다른 변수를 고정한 채 예측값이 w1만큼 변하죠. 이걸 편회귀계수라고 해요.

변수가 많아지면 좋은 점도 있지만 위험도 있어요. 불필요한 변수가 노이즈를 가져올 수 있거든요.

또한 변수끼리 서로 상관관계가 높으면 다중공선성 문제가 생겨요. 뒤에서 자세히 다룰 거예요.

표준화도 중요해요. 면적은 85인데 층수는 12니까 스케일이 다르잖아요. 가중치 크기만으로 중요도를 비교하면 안 돼요.

표준화하면 모든 변수를 같은 척도에 놓을 수 있어서 가중치 비교가 의미를 가지게 돼요.

정리하면 다중 회귀는 여러 변수의 선형 조합으로 타겟을 예측하고 OLS로 최적 가중치를 찾는 모델이에요.

다음 블록에서는 이 다중 회귀를 3D 공간에서 어떻게 시각화하는지 살펴볼게요.

💬 강의 Q&A

0:00

0:44

🎓 강의 스크립트

선생님: 다중 회귀에서 가중치 w₃가 마이너스 200이라는 건 어떤 의미일까요?

학생: 역세권 거리가 1킬로미터 멀어지면 예측 집값이 200만원 줄어든다는 뜻 아닌가요?

선생님: 맞아요. 정확히는 다른 변수를 고정한 상태에서 그 변수만 1 단위 변할 때의 효과예요.

학생: 그런데 면적의 가중치가 50이고 층수가 30이면 면적이 더 중요한 건가요?

선생님: 조심해야 해요. 면적은 85 단위이고 층수는 12 단위니까 스케일이 달라요. 표준화 후 비교해야 진짜 중요도를 알 수 있어요.

학생: 아 그래서 표준화가 필요한 거군요. 가중치 크기만 보면 오해할 수 있겠네요.