Difference between r1.50 and the current

@@ -72,72 +72,7 @@

= 선형회귀 =
[[선형회귀,linear_regression]]

{

~~보다 나은 [[선형모형,linear_mode]]은 '''~~선형회귀~~'''라는~~ ~~통계적 절차를 통해 얻을 수 있~~다.

~~Maple에서는 통계패키지에서 {{{fit [ leastsquare ]}}} 명령어~~

~~Mathematica에서는 Fit 명령어~~

~~그러면 회귀직~~선~~의 기울기와 y절편을 준다.~~

~~(Stewart)~~

~~//simple en~~

~~[[직선,line]](straight_line)을 써서,~~

~~한 [[종속변수,dependent_variable]]와~~

~~하나 이상의 [[설명변수,explanatory_variable]]~~

~~{ [[~~회귀~~분석,regression_analysis]]에서~~ ~~[[독립변수,independent_variable]]를 설명변수라고도 함~~.~~[* [[https://terms~~.~~naver~~.~~com/entry.naver?docId=149917&cid=50331&categoryId=50331]]~~ ~~and~~ ~~[[WpEn:Dependent_and_independent_variables#Statistics_synonyms]]]~~ }

~~사이의~~ ~~[[관계,relationship]]를 설명하는 방법.~~

~~[[회귀분석,regression_analysis]] 방법의 일종.~~

~~//wpen~~

~~[[설명변수,explanatory_variable]] 개수에 따라~~

~~simple linear regression~~

~~multiple linear regression~~

~~으로 나뉘며 두번째는 multivariate linear regression~~(~~[[WpEn:Multivariate_linear_regression]],~~ ~~redir~~ ~~to [[WpEn:General_linear_model]] corresp ko interwiki [[WpKo:일반화_선형_모형]]) 과 다르다~~

~~// from wpko~~

~~일반적으~~로 ~~[[최소제곱법,least_square_method,LSM]](curr see [[최소제곱,least_square]]~~)을 ~~쓴다고 한다..~~

~~[[최대가능도추정,maximum_likelihood_estimation,MLE]]~~

~~$\arg\max$ 가~~ 나~~오고..~~

~~Sub:~~

~~[[multivariate_linear_regression]]~~

{

~~http://mlwiki.org/index.php/Multivariate_Linear_Regression~~

}

~~----~~

~~// tmp from https://datascienceschool.net/02%20mathematics/02.02%20벡터와%20행렬의%20연산.html # 선형회귀 모형~~

~~선형회귀모형(linear regression model)은 독립변수 $x$~~ 에~~서 종속변수 $y$ 를 예측하는 방법의 하나로, 독립변수벡터 $x$ 와 [[가중값,weight]]벡터 $w$ 의 [[가중합,weighted_sum]]으로~~ ~~$y$~~ 에 대한 ~~예측값 $\hat{y}$ 를 계산하는 수~~식~~을 말한다.~~

~~$\hat{y}=w_1x_1+\cdots+w_nx_n$~~

~~같은 식을 내적~~으로 ~~나타내면~~

~~$\hat{y}=w^T x$~~

~~선형회귀모형은 가장 단순하고 가장 널리 쓰이는 [[예측모형,prediction_model]]이다~~. ~~// [[예측,prediction]]~~

~~----~~

~~tmp bmks ko~~

~~한글 설명:~~

~~https://angeloyeo.github.io/2020/08/24/linear_regression.html~~

~~1 http://blog.naver.com/mykepzzang/220935001644 단순선형회귀~~

~~....~~

~~8 http://blog.naver.com/mykepzzang/220972930825~~

~~https://bluehorn07.github.io/mathematics/2021/06/06/introduction-to-linear-regression.html~~

~~----~~

~~줄여서 '''linreg'''~~

~~tmp twins:~~

~~https://developers.google.com/machine-learning/glossary?hl=ko#linear-regression~~

~~http://mlwiki.org/index.php/Linear_Regression~~

~~Twins:~~

~~[[WpSimple:Linear_regression]]~~

~~[[WpKo:선형_회귀]]~~

~~[[WpEn:Linear_regression]]~~

~~Up: [[회귀,regression]] (and [[선형성,linearity]]?) [[회귀분석,regression_analysis]]~~

}

단순선형회귀, 다중선형회귀 ... 등도 생길텐데 여기보단 (section interface 별로임) -> 나중에 맨 위에 sub tree형식으로.

= [[로지스틱회귀,logistic_regression]] =
로지스틱 모델의 일반식

@@ -191,5 +126,4 @@

OLS regression = ordinary_least_squares ([[최소제곱,least_square]]에 작성중) regression ...
}
https://mathworld.wolfram.com/Regression.html (short)

자료는 scatterplot으로 표시할 수 있는데 이것을 회귀분석regression analysis을 통해 경향(trend)를 반영하는 곡선,curve 즉 회귀곡선regression curve을 찾는다. 보통 사용되는 방법은 least squares. (minimizing the sum of the squares of the vertical distances between the data points and the curve) (AKA optimization problem)

자료,data로 함수를 만든 뒤 이 함수를 피팅하는 작업. 회귀분석에서 함수에 피팅할 때는 잔차,residual가 최소화되도록 함수를 조정하는데, 가장 일반적인 방법은 최소제곱법,least_square_method,LSM(curr see 최소제곱,least_square)이다.
잔차 제곱의 합을 e라 하면

$e=\sum_{i=1}^{n}\left(y_i-f(x_i)\right)^2$

회귀분석,regression_analysis은 예측,prediction을 가능하게 한다.

2022-09-27
https://process-mining.tistory.com/ 보고 대충 적음. 나중에 분류에 참조.

선형회귀,linear_regression
{
(대충) scatterplot(과 가장 잘 맞는) / (을 가장 잘 설명해주는) 일차함수

y=Wx+b

의 $W,b$ 값을 찾아내는??

https://process-mining.tistory.com/125
least_square - 가장 기본적인 선형회귀인 least_squares 는 단순히 RSS를 최소화하는 것인데, outlier에 민감하다.
robust_linear_regression - outlier에 민감하지 않은. curr see https://process-mining.tistory.com/130

Laplace_regression - Laplace_distribution 을 가능도,likelihood로 사용.

Huber_regression -

Huber_loss_function을 최소화하는. 저것은 error의 절대값이 얼마 이하이면 L2_error , 얼마 초과이면 L1_error 형태 - 즉 error가 작을 때는 L1 error의 단점을 피하고, 클 때는 L2 error의 단점을 피하는.

}

ridge_regression - RSS를 최소화하면서 L2_norm까지 최소화. curr see https://process-mining.tistory.com/129

1. 회귀분석 regression analysis

2. 선형회귀

3. 로지스틱회귀,logistic_regression

4. 가중 회귀분석

5. LOESS, LOWESS

6. 스플라인,spline

7. 영단어 regression의 다른 뜻 (통계 밖)

7.1. software development

8. 참조한 서적

[edit]

1. 회귀분석 regression analysis ¶

회귀분석,regression_analysis

TBD. 회귀분석을 이 페이지(회귀,regression)에 적을지 아님 별도 페이지가 필요한지

http://blog.naver.com/mykepzzang/220933439872
{
* 변수,variable간의 의존관계(dependency)를 파악
* 경향성(tendency)을 파악
하여 예측,prediction을 가능하게 함.
}

단일 회귀 분석 (독립변수가 하나)

$y=\alpha+\beta x+\epsilon$

다중 회귀 분석 (독립변수가 둘 이상)

$y=\alpha+\beta x_1+\gamma x_2+\epsilon$

다다(p98)에 의하면, 다중회귀분석은 독립 변수가 여러 개이므로 단순(단일?)회귀분석처럼 2차원 그래프로 시각화하기 어렵다. 이 때 2차원 평면상에 점을 찍을 수 있도록 주성분분석,principal_component_analysis,PCA을 이용한다.
독립 변수가 데이터의 수보다 훨씬 많으면 주성분 분석의 차원 감소를 이용한 주성분회귀,principal_component_regression,PCR와 이를 개선한 Partial_least_squares,PLS회귀를 활용할 수 있다.

편차,deviation를 사용한다.

독립변수,independent_variable는 각각 선형독립,linear_independence이어야 한다는 것이 회귀분석의 전제인데, 독립 변수가 늘면 독립 변수들 사이의 상관관계가 개입해 결과에 영향을 준다. 이를 다중공선성,multicollinearity 문제라고 한다.
{
관련:
회귀,regression
회귀분석,regression_analysis

Twins: