자료는 scatterplot으로 표시할 수 있는데 이것을 회귀분석regression analysis을 통해 경향(trend)를 반영하는 [[곡선,curve]] 즉 회귀곡선regression curve을 찾는다. 보통 사용되는 방법은 [[최소제곱,least_square|least square]]s. (minimizing the sum of the squares of the vertical distances between the data points and the curve) (AKA [[최적화,optimization|optimization]] problem)
## from Thomas Calculus Early Trans. 13e p. 33
----
[[자료,data]]로 함수를 만든 뒤 이 함수를 피팅하는 작업. 회귀분석에서 함수에 피팅할 때는 [[잔차,residual]]가 최소화되도록 함수를 조정하는데, 가장 일반적인 방법은 [[최소제곱법,least_square_method,LSM]](curr see [[최소제곱,least_square]])이다.
잔차 제곱의 합을 e라 하면
 $e=\sum_{i=1}^{n}\left(y_i-f(x_i)\right)^2$

[[회귀분석,regression_analysis]]은 [[예측,prediction]]을 가능하게 한다.

= 회귀분석 regression analysis =
[[회귀분석,regression_analysis]]

''TBD. 회귀분석을 이 페이지([[회귀,regression]])에 적을지 아님 별도 페이지가 필요한지''

http://blog.naver.com/mykepzzang/220933439872
{
* [[변수,variable]]간의 의존관계(dependency)를 파악
* 경향성(tendency)을 파악
하여 [[예측,prediction]]을 가능하게 함.
}

단일 회귀 분석 (독립변수가 하나)
 $y=\alpha+\beta x+\epsilon$
다중 회귀 분석 (독립변수가 둘 이상)
 $ y=\alpha+\beta x_1+\gamma x_2+\epsilon$
다다(p98)에 의하면, 다중회귀분석은 독립 변수가 여러 개이므로 단순(단일?)회귀분석처럼 2차원 그래프로 시각화하기 어렵다. 이 때 2차원 평면상에 점을 찍을 수 있도록 [[주성분분석,principal_component_analysis,PCA]]을 이용한다.
독립 변수가 데이터의 수보다 훨씬 많으면 주성분 분석의 차원 감소를 이용한 [[주성분회귀,principal_component_regression,PCR]]와 이를 개선한 [[Partial_least_squares,PLS]]회귀를 활용할 수 있다.

[[편차,deviation]]를 사용한다. 

[[독립변수,independent_variable]]는 각각 [[선형독립,linear_independence]]이어야 한다는 것이 회귀분석의 전제인데, 독립 변수가 늘면 독립 변수들 사이의 상관관계가 개입해 결과에 영향을 준다. 이를 [[다중공선성,multicollinearity]] 문제라고 한다.
{
관련:
[[회귀,regression]]
[[회귀분석,regression_analysis]]

Twins:
[[https://terms.naver.com/entry.nhn?docId=3404410&cid=40942&categoryId=32211 두산백과]]
WpKo:다중공선성
 "독립변수들간에 정확한 선형관계가 존재하는 '''완전공선성'''의 경우와 독립변수들간에 높은 선형관계가 존재하는 '''다중공선성'''으로 구분하기도 한다."
WpEn:Multicollinearity
}
해결법은 PLS회귀와 L1정규화(Lasso)등이 있다.

다항식 회귀의 경우 차수를 무조건 많이 올린다고 해서 좋은 게 아니다. 이미 주어진 데이터에는 잔차가 0으로 근접하는 결과가 나올 수 있지만 앞으로 수집할 데이터가 크게 벗어날 수 있다. 이것을 [[과적합,overfitting]]이라고 한다.

[[WpKo:회귀_분석]]

[[WpEn:Regression_analysis]]
 = https://en.wikipedia.org/wiki/Regression_analysis

= 선형회귀 =
[[선형회귀,linear_regression]]
{

//simple en
[[직선,line]](straight_line)을 써서,
한 [[종속변수,dependent_variable]]와
하나 이상의 [[설명변수,explanatory_variable]]
{ [[회귀분석,regression_analysis]]에서 [[독립변수,independent_variable]]를 설명변수라고도 함.[* [[https://terms.naver.com/entry.naver?docId=149917&cid=50331&categoryId=50331]] and [[WpEn:Dependent_and_independent_variables#Statistics_synonyms]]] }
사이의 [[관계,relationship]]를 설명하는 방법.
[[회귀분석,regression_analysis]] 방법의 일종.

//wpen
[[설명변수,explanatory_variable]] 개수에 따라
 simple linear regression
 multiple linear regression
으로 나뉘며 두번째는 multivariate linear regression([[WpEn:Multivariate_linear_regression]], redir to [[WpEn:General_linear_model]] corresp ko interwiki [[WpKo:일반화_선형_모형]]) 과 다르다

// from wpko
일반적으로 [[최소제곱법,least_square_method,LSM]](curr see [[최소제곱,least_square]])을 쓴다고 한다..

[[최대가능도추정,maximum_likelihood_estimation,MLE]]
$\arg\max$ 가 나오고..


tmp bmks ko
한글 설명:
https://angeloyeo.github.io/2020/08/24/linear_regression.html
1 http://blog.naver.com/mykepzzang/220935001644 단순선형회귀
....
8 http://blog.naver.com/mykepzzang/220972930825
https://bluehorn07.github.io/mathematics/2021/06/06/introduction-to-linear-regression.html

----
줄여서 '''linreg'''

tmp twins:
https://developers.google.com/machine-learning/glossary?hl=ko#linear-regression

Twins:
[[WpSimple:Linear_regression]]
[[WpKo:선형_회귀]]
[[WpEn:Linear_regression]]

Up: [[회귀,regression]] (and [[선형성,linearity]]?) [[회귀분석,regression_analysis]]
}


= [[로지스틱회귀,logistic_regression]] =
로지스틱 모델의 일반식
 $y=\frac{e^x}{1+e^x}$
로짓 함수(logit)는 $(0,1)\mapsto(-\infty,\infty)$ 로 변환하는 함수로, 로지스틱 함수의 역함수

로지스틱 회귀에 쓰이는 [[손실함수,loss_function]] : 로그 손실(log_loss)

links ko
https://ratsgo.github.io/machine%20learning/2017/04/02/logistic/
~~[[https://developers.google.com/machine-learning/glossary?hl=ko#%EB%A1%9C%EC%A7%80%EC%8A%A4%ED%8B%B1-%ED%9A%8C%EA%B7%80logistic-regression 머신러닝 용어집: 로지스틱 회귀(logistic regression)]]~~
https://developers.google.com/machine-learning/glossary?hl=ko#logistic-regression

rel. [[시그모이드함수,sigmoid_function]] - curr at [[함수,function#s-14]]

[[WpKo:로지스틱_회귀]]
[[WpSimple:Logistic_regression]]
[[WpEn:Logistic_regression]]
not in mathworld([[Date(2022-01-11T08:51:55)]]); 검색결과: https://mathworld.wolfram.com/search/?query=logistic+regression&x=0&y=0


= 가중 회귀분석 =
p.105
최소제곱법은 특잇값(singular value)에 취약하다는 약점이 있다.

LOWESS,locally_weighted_scatterplot_smoothing (see [[WpEn:Local_regression]]) 분석은 가중회귀 함수를 써서 평활화( WpEn:Smoothing )를 실행한 회귀 식 도출법. 

= LOESS, LOWESS =
[[local_regression]]에 작성중

= [[스플라인,spline]] =
regression with polynomial basis

= 영단어 regression의 다른 뜻 (통계 밖) =
== software development ==
regression_testing
https://everything2.com/title/regression+testing

= 참조한 서적 =
다다 사토시, 처음 배우는 인공지능, 한빛미디어

----
https://everything2.com/title/Regression
{
OLS regression = ordinary_least_squares ([[최소제곱,least_square]]에 작성중) regression ... 
}
https://mathworld.wolfram.com/Regression.html (short)