회귀,regression

Difference between r1.50 and the current

@@ -72,72 +72,7 @@

= 선형회귀 =
[[선형회귀,linear_regression]]
{
보다 나은 [[선형모형,linear_mode]]은 '''선형회귀'''라는 통계적 절차를 통해 얻을 수 있.
Maple에서는 통계패키지에서 {{{fit [ leastsquare ]}}} 명령어
Mathematica에서는 Fit 명령어
그러면 회귀직의 기울기와 y절편을 준다.
(Stewart)
//simple en
[[직선,line]](straight_line)을 써서,
한 [[종속변수,dependent_variable]]와
하나 이상의 [[설명변수,explanatory_variable]]
{ [[회귀분석,regression_analysis]]에서 [[독립변수,independent_variable]]를 설명변수라고도 함.[* [[https://terms.naver.com/entry.naver?docId=149917&cid=50331&categoryId=50331]] and [[WpEn:Dependent_and_independent_variables#Statistics_synonyms]]] }
사이의 [[관계,relationship]]를 설명하는 방법.
[[회귀분석,regression_analysis]] 방법의 일종.
//wpen
[[설명변수,explanatory_variable]] 개수에 따라
simple linear regression
multiple linear regression
으로 나뉘며 두번째는 multivariate linear regression([[WpEn:Multivariate_linear_regression]], redir to [[WpEn:General_linear_model]] corresp ko interwiki [[WpKo:일반화_선형_모형]]) 과 다르다
// from wpko
일반적으 [[최소제곱법,least_square_method,LSM]](curr see [[최소제곱,least_square]]) 쓴다고 한다..
[[최대가능도추정,maximum_likelihood_estimation,MLE]]
$\arg\max$ 가오고..
Sub:
[[multivariate_linear_regression]]
{
http://mlwiki.org/index.php/Multivariate_Linear_Regression
}
----
// tmp from https://datascienceschool.net/02%20mathematics/02.02%20벡터와%20행렬의%20연산.html # 선형회귀 모형
선형회귀모형(linear regression model)은 독립변수 $x$ 서 종속변수 $y$ 를 예측하는 방법의 하나로, 독립변수벡터 $x$ 와 [[가중값,weight]]벡터 $w$ 의 [[가중합,weighted_sum]]으로 $y$대한 예측값 $\hat{y}$ 를 계산하는 수을 말한다.
$\hat{y}=w_1x_1+\cdots+w_nx_n$
같은 식을 내적으로 나타내면
$\hat{y}=w^T x$
선형회귀모형은 가장 단순하고 가장 널리 쓰이는 [[예측모형,prediction_model]]이다. // [[예측,prediction]]
----
tmp bmks ko
한글 설명:
https://angeloyeo.github.io/2020/08/24/linear_regression.html
1 http://blog.naver.com/mykepzzang/220935001644 단순선형회귀
....
8 http://blog.naver.com/mykepzzang/220972930825
https://bluehorn07.github.io/mathematics/2021/06/06/introduction-to-linear-regression.html
----
줄여서 '''linreg'''
tmp twins:
https://developers.google.com/machine-learning/glossary?hl=ko#linear-regression
http://mlwiki.org/index.php/Linear_Regression
Twins:
[[WpSimple:Linear_regression]]
[[WpKo:선형_회귀]]
[[WpEn:Linear_regression]]
Up: [[회귀,regression]] (and [[선형성,linearity]]?) [[회귀분석,regression_analysis]]
}
단순선형회귀,회귀 ... 등도 생길텐데 여기보단 (section interface ) -> sub tree형식으로.

= [[로지스틱회귀,logistic_regression]] =
로지스틱 모델의 일반식
@@ -191,5 +126,4 @@
OLS regression = ordinary_least_squares ([[최소제곱,least_square]]에 작성중) regression ...
}
https://mathworld.wolfram.com/Regression.html (short)



자료는 scatterplot으로 표시할 수 있는데 이것을 회귀분석regression analysis을 통해 경향(trend)를 반영하는 곡선,curve 즉 회귀곡선regression curve을 찾는다. 보통 사용되는 방법은 least squares. (minimizing the sum of the squares of the vertical distances between the data points and the curve) (AKA optimization problem)

자료,data로 함수를 만든 뒤 이 함수를 피팅하는 작업. 회귀분석에서 함수에 피팅할 때는 잔차,residual가 최소화되도록 함수를 조정하는데, 가장 일반적인 방법은 최소제곱법,least_square_method,LSM(curr see 최소제곱,least_square)이다.
잔차 제곱의 합을 e라 하면
$e=\sum_{i=1}^{n}\left(y_i-f(x_i)\right)^2$

회귀분석,regression_analysis예측,prediction을 가능하게 한다.

2022-09-27
https://process-mining.tistory.com/ 보고 대충 적음. 나중에 분류에 참조.

선형회귀,linear_regression
{
(대충) scatterplot(과 가장 잘 맞는) / (을 가장 잘 설명해주는) 일차함수
y=Wx+b
$W,b$ 값을 찾아내는??

https://process-mining.tistory.com/125
least_square - 가장 기본적인 선형회귀인 least_squares 는 단순히 RSS를 최소화하는 것인데, outlier에 민감하다.
robust_linear_regression - outlier에 민감하지 않은. curr see https://process-mining.tistory.com/130
Google:Laplace_regression - Laplace_distribution 을 가능도,likelihood로 사용.
Google:Huber_regression - Google:Huber_loss_function을 최소화하는. 저것은 error의 절대값이 얼마 이하이면 L2_error , 얼마 초과이면 L1_error 형태 - 즉 error가 작을 때는 L1 error의 단점을 피하고, 클 때는 L2 error의 단점을 피하는.
}

ridge_regression - RSS를 최소화하면서 L2_norm까지 최소화. curr see https://process-mining.tistory.com/129



1. 회귀분석 regression analysis


TBD. 회귀분석을 이 페이지(회귀,regression)에 적을지 아님 별도 페이지가 필요한지

http://blog.naver.com/mykepzzang/220933439872
{
* 변수,variable간의 의존관계(dependency)를 파악
* 경향성(tendency)을 파악
하여 예측,prediction을 가능하게 함.
}

단일 회귀 분석 (독립변수가 하나)
$y=\alpha+\beta x+\epsilon$
다중 회귀 분석 (독립변수가 둘 이상)
$ y=\alpha+\beta x_1+\gamma x_2+\epsilon$
다다(p98)에 의하면, 다중회귀분석은 독립 변수가 여러 개이므로 단순(단일?)회귀분석처럼 2차원 그래프로 시각화하기 어렵다. 이 때 2차원 평면상에 점을 찍을 수 있도록 주성분분석,principal_component_analysis,PCA을 이용한다.
독립 변수가 데이터의 수보다 훨씬 많으면 주성분 분석의 차원 감소를 이용한 주성분회귀,principal_component_regression,PCR와 이를 개선한 Partial_least_squares,PLS회귀를 활용할 수 있다.

편차,deviation를 사용한다.

독립변수,independent_variable는 각각 선형독립,linear_independence이어야 한다는 것이 회귀분석의 전제인데, 독립 변수가 늘면 독립 변수들 사이의 상관관계가 개입해 결과에 영향을 준다. 이를 다중공선성,multicollinearity 문제라고 한다.
{
관련:
회귀,regression
회귀분석,regression_analysis

Twins:
[https]두산백과
WpKo:다중공선성
"독립변수들간에 정확한 선형관계가 존재하는 완전공선성의 경우와 독립변수들간에 높은 선형관계가 존재하는 다중공선성으로 구분하기도 한다."
WpEn:Multicollinearity
}
해결법은 PLS회귀와 L1정규화(Lasso)등이 있다.

다항식 회귀의 경우 차수를 무조건 많이 올린다고 해서 좋은 게 아니다. 이미 주어진 데이터에는 잔차가 0으로 근접하는 결과가 나올 수 있지만 앞으로 수집할 데이터가 크게 벗어날 수 있다. 이것을 과적합,overfitting이라고 한다.


2. 선형회귀

선형회귀,linear_regression
단순선형회귀, 다중선형회귀 ... 등도 생길텐데 여기보단 (section interface 별로임) -> 나중에 맨 위에 sub tree형식으로.

4. 가중 회귀분석

p.105
최소제곱법은 특잇값(singular value)에 취약하다는 약점이 있다.

LOWESS,locally_weighted_scatterplot_smoothing (see WpEn:Local_regression) 분석은 가중회귀 함수를 써서 평활화( WpEn:Smoothing )를 실행한 회귀 식 도출법.

5. LOESS, LOWESS

local_regression에 작성중

6. 스플라인,spline

regression with polynomial basis

7. 영단어 regression의 다른 뜻 (통계 밖)

7.1. software development

8. 참조한 서적

다다 사토시, 처음 배우는 인공지능, 한빛미디어




https://everything2.com/title/Regression
{
OLS regression = ordinary_least_squares (최소제곱,least_square에 작성중) regression ...
}
https://mathworld.wolfram.com/Regression.html (short)