본문 바로가기
ML

[ISLR] Chapter6. Linear Model Selection and Regularization - Intro

by 조조링 2021. 7. 12.

다음 내용들은 아래의 책 ISLR 책을 해석하면서 공부한 내용임을 먼저 말씀드립니다! ( 사진에 링크 연결 )


linear model 식 

위의 식은 우리가 흔히 보는 linear model이다. 

linear model은 주로 X들과 Y 사이의 관계를 보고 싶을 때 주로 사용된다. 

Chapter 3에서 우리는 주로 회귀계수를 추정할 때, Least squares (최소 제곱 법)를 사용했다.

 

linear model의 가장 큰 이점은 "해석력"을 꼽을 수 있다. 

그리고 현실 문제에서 놀랍게도 non-linear methods와 비교했을 때 경쟁력이 있다. 

그래서 우리는 이번 Chapter 6에서는 Least squares에 다른 어떤 것을 추가함으로써 

simple linear model을 향상시키는 방법들에 대해서 배워볼 것이다. 

 


자 그럼 우리는 "왜 기존의 Least squares를 대신하는 방법" 들을 찾으려고 하는지 의문을 품을 수 있다. 

답을 먼저 말하자면

" 대체한 least squares methods " 은 더 좋은 예측력더 좋은 해석력을 가질 수 있기 때문이다.

 

 

Prediction Accurary ; 예측력

반응 변수와 예측 변수 사이의 관계가 대략적으로 선형인 경우, 최소 제곱 추정치의 편향은 낮을 것이다. (Low bias)

만약 n >> p이라면, (이때, n은 관측치 수 , p는 변수 개수) 즉, 관측치의 개수가 p보다 상당히 많다면,

최소 제곱 추정치는 또한 낮은 분산(Low variance)를 가질 것이고 그 결과 test data에서도 좋은 성능을 보일 것이다.

 

하지만 n > p 이라면, 즉, 관측치의 개수가 p보다는 크지만, 그렇게 크지 않은 경우에는,

최소 제곱 추정치가 큰 변동성(high variance)을 갖게 되며, 결과적으로는 과적합(overfittig)의 결과를 가져올 것이다. 

 

만약 p > n 이라면, 더 이상 유일한 최소 제곱 추정치 값을 가지지 않을 것이다.  왜냐?

\( \hat {\beta}= (X^TX)^{-1}X^TY \)  에서  (최소 제곱 추정치 공식)

X는 n by p 행렬이다. 위의 식은 \( X^TX \) 의 역행렬이 존재해야 해가 나오는데

p > n 인경우는 X의 모든 열(또는 행)이 선형독립이 아닌 즉, full rank가 아닌 matrix 이다.

그렇기 때문에 \( X^TX \) 역시 full rank가 아니고, 비가역 행렬로 위의 식을 풀 수 없게 된다.

즉, p > n 인 경우는 우리는 최소 제곱법을 사용할 수 없게 된다.

 

우리는 이러한 Least squares의 문제점을 해결하기 위해

추정된 회귀계수의 제약을 가하거나(constraining) 혹은 축소(shrinking)를 할 수 있다. 

제약 or 축소를 통해 우리는 편향(bias)을 조금 포기하는 대신 분산(variance)을 줄일 수 있게 된다.

그리고 이것은 test data (unseen data)에 대해서 정확도가 상승하는 효과를 가져올 것이다. 

 


 

Model Interpretability ; 모델 해석력

다항 회귀 모형에서 종종 Y랑은 상관없는 예측 변수들이 존재하며, 

이것을 포함시키는 것은 최종 모델에 있어서 불필요한 복잡성만 가져온다. 

우리는 Y랑은 상관없는 변수들의 추정 계수를 0으로 함으로써 X를 제거할 수 있으며

제거함으로써 좀 더 해석하기 쉬운 모델을 얻을 수 있다. 

 

하지만 기존의 Least squares로는 회귀계수가 정확히 0이 나올 수는 없다. 

Chapter 6에서는 자동적으로 feature selection or variable selection을 할 수 있는 방법에 대해서 알아볼 것이다. 

 


" There are many alternatives, both classical and modern, to using least squares to fit regression model.

  In this chapter, we discuss three important classes of methods "

 

1). Subset Selection ; 부분 선택

쉽게 말해서, p개의 예측 변수들 중에서 Y와의 관계가 유의하다고 판단되는 변수들의 집합으로

기존의 Least squares 방법으로 회귀 계수를 추정하는 방식 

 

 

2). Shrinkage ; 축소

p개의 변수 중 p' (p> p')의 변수로 모델링을 진행하는 Subset Selection과는 달리,

Shrinkage는 p개의 변수를 모두 사용할 것이다. 

하지만 추정 계수는 최소 제곱 추정치에 비해 0을 향해 축소될 것이다. 

뒤에서 자세히 배우겠지만 여기서 말하는 축소는 우리가 알고 있는 '정규화'다 

정규화는 분산(variance)을 줄여주는 효과가 있다. 

어떤 정규화 방식을 선택하냐에 따라 몇몇 계수들을 완전히 0으로 만들어 주기도 하고,

이런 점을 이용하여 변수 선택법으로 활용하기도 한다. 

 

 

3). Dimension Reduction ; 차원 축소

p개의 예측 변수들을 M차원의 공간으로 사영시키는 방식이다. ( M < p ) 

 


 

지금까지는 Intro 였고

지금부터 위의 3가지 방법에 대해서 각각 자세하게 알아볼 것이다.

 

 

 

 

 

 

 

댓글