회귀,regression

회귀,regression (rev. 1.42)

자료는 scatterplot으로 표시할 수 있는데 이것을 회귀분석regression analysis을 통해 경향(trend)를 반영하는 곡선,curve 즉 회귀곡선regression curve을 찾는다. 보통 사용되는 방법은 least squares. (minimizing the sum of the squares of the vertical distances between the data points and the curve) (AKA optimization problem)

자료,data로 함수를 만든 뒤 이 함수를 피팅하는 작업. 회귀분석에서 함수에 피팅할 때는 잔차,residual가 최소화되도록 함수를 조정하는데, 가장 일반적인 방법은 최소제곱법,least_square_method,LSM(curr see 최소제곱,least_square)이다.
잔차 제곱의 합을 e라 하면
$e=\sum_{i=1}^{n}\left(y_i-f(x_i)\right)^2$

회귀분석,regression_analysis예측,prediction을 가능하게 한다.

회귀분석 regression analysis


TBD. 회귀분석을 이 페이지(회귀,regression)에 적을지 아님 별도 페이지가 필요한지

http://blog.naver.com/mykepzzang/220933439872
{
* 변수,variable간의 의존관계(dependency)를 파악
* 경향성(tendency)을 파악
하여 예측,prediction을 가능하게 함.
}

단일 회귀 분석 (독립변수가 하나)
$y=\alpha+\beta x+\epsilon$
다중 회귀 분석 (독립변수가 둘 이상)
$ y=\alpha+\beta x_1+\gamma x_2+\epsilon$
다다(p98)에 의하면, 다중회귀분석은 독립 변수가 여러 개이므로 단순(단일?)회귀분석처럼 2차원 그래프로 시각화하기 어렵다. 이 때 2차원 평면상에 점을 찍을 수 있도록 주성분분석,principal_component_analysis,PCA을 이용한다.
독립 변수가 데이터의 수보다 훨씬 많으면 주성분 분석의 차원 감소를 이용한 주성분회귀,principal_component_regression,PCR와 이를 개선한 Partial_least_squares,PLS회귀를 활용할 수 있다.

편차,deviation를 사용한다.

독립변수,independent_variable는 각각 선형독립,linear_independence이어야 한다는 것이 회귀분석의 전제인데, 독립 변수가 늘면 독립 변수들 사이의 상관관계가 개입해 결과에 영향을 준다. 이를 다중공선성,multicollinearity 문제라고 한다.
{
관련:
회귀,regression
회귀분석,regression_analysis

Twins:
[https]두산백과
WpKo:다중공선성
"독립변수들간에 정확한 선형관계가 존재하는 완전공선성의 경우와 독립변수들간에 높은 선형관계가 존재하는 다중공선성으로 구분하기도 한다."
WpEn:Multicollinearity
}
해결법은 PLS회귀와 L1정규화(Lasso)등이 있다.

다항식 회귀의 경우 차수를 무조건 많이 올린다고 해서 좋은 게 아니다. 이미 주어진 데이터에는 잔차가 0으로 근접하는 결과가 나올 수 있지만 앞으로 수집할 데이터가 크게 벗어날 수 있다. 이것을 과적합,overfitting이라고 한다.


가중 회귀분석

p.105
최소제곱법은 특잇값(singular value)에 취약하다는 약점이 있다.

LOWESS,locally_weighted_scatterplot_smoothing (see WpEn:Local_regression) 분석은 가중회귀 함수를 써서 평활화( WpEn:Smoothing )를 실행한 회귀 식 도출법.

LOESS, loess

Local regression
Linear regression with only local samples

스플라인,spline

regression with polynomial basis

영단어 regression의 다른 뜻 (통계 밖)

software development

참조한 서적

다다 사토시, 처음 배우는 인공지능, 한빛미디어


https://everything2.com/title/Regression
{
OLS regression = ordinary_least_squares (최소제곱,least_square에 작성중) regression ...
}
https://mathworld.wolfram.com/Regression.html (short)