= 통계학의 종류 = TBW: descriptive vs inferential / bayesian vs frequentist / ... [[기술통계학,descriptive_statistics]] - 자료의 정리 & 요약 주어진 자료의 특성을 분석. [[추론통계학,inferential_statistics]] - 정보 분석으로 모집단의 특성을 추정/추론 주어진 자료를 이용하여 [[모집단,population]]의 특성을 추론. tmp; 주로 [[추론,inference]] > 통계추론 or [[통계적추론,statistical_inference]] 방식 접근(approach) 관점에서 나뉘는??? chk Google:bayesian_statistics vs Google:frequentist_statistics ?? Google:bayesian+frequentist ---- [[확률,probability]] [[확률변수,random_variable]] [[모집단,population]]: 통계적 관찰의 대상이 되는 집단 전체 전수조사(census): [[모집단,population]] 전체를 대상으로 조사하는 것 추정하다(to estimate)라는 뜻의 라틴어 censere에서 유래 매우 힘들므로 보통 [[표본,sample]]을 뽑아 일부를 조사함 [[표본,sample]]: 모집단에서 뽑은 것 [[표본공간,sample_space]]: 랜덤 현상의 모든 가능한 [[결과,outcome]]의 집합 [[사건,event]]: 표본공간의 [[부분집합,subset]] [[표본추출,sampling]] // Ndict:sampling Ndict:표본추출 Ndict:표집 { '''표본추출, 표집, 샘플링''' [[모집단,population]]으로부터 표본을 선택하는 행위 (같은 영단어 [[샘플링,sampling]]페이지는 전자공학 얘기) 복원추출(sampling with replacement) (추출할 때 마다 원래 상태로 돌려놓음) 비복원추출(sampling without replacement) 임의추출(random sampling; 확률적 추출) 무작위 추출 random_sampling 비임의추출(nonrandom sampling; 비확률적 추출) 표본추출오차(sampling error) = 통계량(statistic) - 모수(parameter) ... // (노부호 p9-12) { 표본오차(sampling error)란 모집단의 일부인 표본의 결과를 근거로 모집단 전체의 특성을 추론하는 과정에서 발생하는 오차를 말한다. 따라서 전수조사의 경우 표본오차는 발생하지 않는다. 표본오차는 일반적으로 표본의 크기가 증가함에 따라 감소한다. 표본추출 방법 * 판단 표본추출(judgement sampling) - 전문가가 주관적으로 하는 샘플링 * 확률 표본추출(probability sampling) - 표본 추출 전, 모집단을 구성하는 기본단위가 표본으로 추출될 확률을 일정하게 할당하는 방법, 판단표본추출보다 객관적 * 단순 무작위 표본추출(simple random sampling) - 일정 크기의 모든 표본조합(sample combination)이 표본으로 추출될 확률을 같게 놓으며, 모집단의 기본단위가 표본에 포함될 확률을 같게 하여 표본추출하는 방법 - 이것의 [[무작위성,randomness]]을 확실히 하기 위해서는 난수발생기RNG를 사용 (일반적으로 [[난수,random_number]]는 [[고른분포,uniform_distribution]]로부터 만든 숫자로, 각 숫자가 발생할 확률은 동일) * 층화 표본추출(stratified sampling) - 각 [[층,stratum]](writing) { 몇 개의 동질적인 집단으로 [[모집단,population]]을 구분해 놓은 것. (노부호 p11) } 에 [[가중값,weight]]을 적용하여 모집단 특성에 대한 추정치를 계산하는 방법 * 군집 표본추출(clustered sampling) - 모집단을 군(cluster)으로 불리는 여러 집단으로 나누어 모집단을 대표하는 군을 표본으로 추출하는 방법 * 1단계추출(single-stage sampling) * 2단계추출(two-stage sampling) * 다단계추출(multi-stage sampling) * 체계적 표본추출(systematic sampling) - 표본추출간격(sampling interval)(rel. [[구간,interval]])을 이용 - ''(대충) 그래서 (등차수열 비슷한 방식으로) 일정 간격으로 일부를 뽑아내는'' - 다만 모집단의 [[순서,order]]에 따른 [[주기성,periodicity]]이 표본추출간격과 일치하는 경우 문제 발생 } } [[무기억성,memorylessness]] [[오차,error]] [[자료,data]] [[표본,sample]] [[샘플링,sampling]]? - 통계에선 '''표본추출, 표집''' [[사분위수,quartile]] [[사분범위,interquartile_range,IQR]] [[거리,distance]] [[빈도,frequency]] 도수=빈도수=frequency: 각 [[계급,class]]에 들어가는 데이터의 수 상대도수: 도수의 합계에 대한 각 계급 도수의 비율 - see [[빈도,frequency]] 누적상대도수: 그 계급 이하의 상대도수의 합계 [[기대값,expected_value]] [[통계적추론,statistical_inference]], 추론통계학 [[추정,estimation]] [[검정,test]] [[가설검정,hypothesis_test]] [[통계량,statistic]] { 데이터에 의해 값이 정해지는 수치량 http://www.ktword.co.kr/abbr_view.php?m_temp1=1639 [[검정통계량,test_statistic]] - [[가설검정,hypothesis_test]]에 쓰이는 - curr at [[귀무가설,null_hypothesis]] 페이지 밑부분 mentioned in https://mathworld.wolfram.com/HypothesisTesting.html 에서 단계 2. [[충분통계량,sufficient_statistic]] { WpEn:Sufficient_statistic ... Google:sufficient+statistic Naver:sufficient+statistic Google:충분통계량 Naver:충분통계량 } } [[모수,parameter]] [[모집단,population]]의 특성을 나타내는 수치. 모집단의 특성을 수치로 나타낸 것. B(n, p)에서 n과 p [[평균,mean,average]], [[분산,variance]], [[표준편차,standard_deviation]], 분위수([[사분위수,quartile]], [[백분위수,percentile]]), 모비율 등 [[https://terms.naver.com/entry.nhn?docId=4125278&cid=60207&categoryId=60207 수학백과: 모수]] 모집단 전체 데이터를 얻을 수 없다면, 모집단의 특성을 나타내는 모수를 파악하여 모집단의 특성을 파악해볼 수 있다. ||[[모집단,population]]의 특성을 수치로 나타낸 것 ||[[모수,parameter]] ||모평균 μ나 모분산 σ^^2^^ 등 || ||[[표본,sample]]의 특성을 수치로 나타낸 것 ||[[통계량,statistic]] ||표본평균 $\bar{X}$ , 표본분산 S^^2^^ 등 || 모집단은 유일하게 존재, 표본은 여러 개 존재. || ||[[모집단,population]] ||[[표본,sample]] || ||[[평균,mean,average]] ||[[모평균,population_mean]] μ ||[[표본평균,sample_mean]] X̅ || ||[[분산,variance]] ||[[모분산,population_variance]] σ^^2^^ ||[[표본분산,sample_variance]] S^^2^^ || ||[[표준편차,standard_deviation]] ||[[모표준편차,population_standard_deviation]] σ ||[[표본표준편차,sample_standard_deviation]] S || [[모집단과_표본,population_and_sample]] { 모집단과 표본에 대해 일반적으로 쓰는 문자. || ||개체(자료) 수 ||확률변수 ||평균 ||표준편차 ||분산 || ||모집단 ||$N$ ||$X$ ||$\mu$ ||$\sigma$ ||$\sigma^2$ || ||표본 ||$n$ ||$X_i$ ||$\bar{X}$ ||$s$ ||$s^2$ || ## via https://drive.google.com/file/d/1_4uIEhj6x89Fcbp1MSyM51XfVn7NwvQS/view } // from Ross p.20 표본평균(sample mean) - See [[평균,mean,average]] { $\bar{x}=\sum_{i=1}^{n}\frac{x_i}{n}$ [[빈도,frequency|빈도]] $f_1, f_2, \cdots, f_k$ 를 갖는 $k$ 개의 서로 다른 값 $v_1, v_2, \cdots, v_k$ 에 대한 '''표본평균'''은 가중평균(weighted average) $\bar{x}=\sum_{i=1}^{k}\frac{v_if_i}{n}$ } // from Ross p.22 표본중앙값(sample median): 크기 n인 데이터 집합을 작은 것부터 나열하여서, n이 홀수일 때 (n+1)/2 위치의 값 n이 짝수일 때 n/2 위치의 값과 n/2+1 위치의 값의 평균 // from Ross p.23 표본최빈값(sample mode): 가장 높은 빈도로 발생하는 값 최빈값들(modal values): 가장 높은 빈도로 발생하는 모든 값들 (단일값이 존재하지 않을 때) [[표본분산,sample_variance]] $s^2=\sum_{i=1}^{n}\frac{(x_i-\bar{x})^2}{n-1}$ 표본평균과 표본분산 - 표본 페이지로.. { $n$ 개의 [[표본,sample]]에서 [[표본평균,sample_mean]] $\bar{X}=\frac1n\sum_{i=1}^n X_i$ [[표본분산,sample_variance]] $s^2=\frac1{n-1}\sum_{i=1}^n (X_i - \bar{X})^2$ 이것들은 [[모집단,population]]의 특성인 [[모평균,population_mean]]과 [[모분산,population_variance]]을 추정할 때 쓰임. } [[계급,class]] { '''계급''': [[자료,data]]를 몇 개의 동등한 폭으로 나눈 [[구간,interval]] 계급값: 각 계급의 중앙값 ---- 몇 개의 계급을 나누어 도수분포표를 만듦 그룹의 개수를 구하는 방법은 여러가지가 있는데, n=전체 자료의 수, k=그룹의 수라 할 때, ||제곱근 방법 ||$k=\lceil\sqrt{n}\rceil$ || ||Sturges 공식 ||$k=\lceil\log_2n+1\rceil$ || ||Rice 공식 ||$k=\lceil2n^{1/3}\rceil$ || 화면이 흐려 ceil기호인지 확실하지 않음, CHK ---- // from Ross 값들을 여러 개의 그룹, 즉 계급구간(class interval)로 나누고 각 계급구간에 속하는 값의 개수를 표기. 계급구간의 양 끝점들을 계급경계(class boundary)라 함. 계급 데이터에 대한 막대그래프는 [[히스토그램,histogram]]. 같은 영단어: CS에서 class는 [[클래스,class]]. } 누적빈도(또는 누적상대빈도) [[누적빈도그래프,ogive]] { '''오자이브''' } [[변수,variable]] [[변량,variate]] (이하 plot/diagram/[[그래프,graph]]) [[도수분포표,frequency_table]] { 자료를 [[계급,class]]으로 나누고 각 계급의 도수(빈도수 frequency)를 조사하여 분포 상태를 나타낸 표. Up: [[표,table]] / 도수분포표는 변량이 1개일 때. 2개 이상이면 밑 참조 } [[분할표,contingency_table]], [[교차표,cross_tabulation]] { Up: [[표,table]] / 2개 이상의 변수에 대해 교차시켜 빈도를 표시한 표 } [[산점도,scatter_plot]] scatterplot { $(x_1,\,y_1),\,\cdots,\,(x_n,\,y_n)$ 을 2차원 평면에 그림 } 산점도 행렬 scatter_matrix 시계열그림 time series plot - [[시계열,time_series]] [[줄기-잎_그림,stem-and-leaf_plot]] ''페이지명으로는 간단히 stemplot 정도가 나을듯'' { AKA '''줄기-잎 도표''' 중소규모의 데이터 집합 구성에 적합함. } [[히스토그램,histogram]] { [[계급,class]]을 가로로 하고 그 계급의 도수(빈도수 frequency - [[빈도,frequency]])를 세로로 하는 직사각형으로 나타낸 [[그래프,graph]]. 히스토그램의 각 직사각형의 윗변의 중점을 차례대로 선분으로 연결하면 도수분포다각형이 된다. 주의: 상자의 면적이 상대도수임 (높이가 아님) 부드럽게 하면 [[분포,distribution]]... [[확률분포,probability_distribution]]... tbw Up: [[자료,data]]의 [[시각화,visualization]] } [[상자그림,box_plot]] [[산포도,dispersion]] [[편차,deviation]] [[잔차,residual]] [[오차,error]] [[추론,inference]] [[통계적추론,statistical_inference]] [[신뢰구간,confidence_interval]] [[귀무가설,null_hypothesis]] [[중심극한정리,central_limit_theorem,CLT]] [[왜도,skewness]] [[첨도,kurtosis]] [[분포,distribution]] - see [[확률분포,probability_distribution]] [[통계량,statistic]] - 자료들로부터 계산되는 값 [[측도,measure]] 표준측도(Z-score) { from http://www.kocw.net/home/search/kemView.do?kemId=1162312 2장. 자료의 표현_변동성 $z=\frac{x-\bar{x}}{s}$ s: [[표준편차,standard_deviation]] 그러면 z의 평균 $\bar{z}=0$ 이고 분산=1 } [[변동계수,variation_coefficient]] (기타 각종 알파벳으로 시작하는것들) z-test { 두 집단의 평균비교를 통한 가설을 검증하는 분석기법 // 가설검증이란 [[가설검정,hypothesis_test]]? chk } [[p-value]] p값 { //from mathworld { "The probability that a variate would assume a value greater than or equal to the observed_value strictly by chance : P(z≥z,,observed,,) -> [[변량,variate]], [[관찰,observation]], [[observed_value]], [[값,value]] rel. significance https://mathworld.wolfram.com/Significance.html rel. alpha_value https://mathworld.wolfram.com/AlphaValue.html } rel. [[귀무가설,null_hypothesis]], .. https://mathworld.wolfram.com/P-Value.html [[https://terms.naver.com/entry.nhn?cid=58944&docId=3580638&categoryId=58970&mobile 수학산책: P-value]] [[WpEn:P-value]] [[WpKo:유의_확률]] Up: [[값,value]](이름), [[확률,probability]] } R제곱 R_square R_squared? R^^2^^ { 회귀 직선의 방정식이 얼마나 원래의 자료를 잘 설명하는지 나타내는 수치 Google:r+square } i.i.d., iid { // [[RR:i.i.d.]] * independent and identically distributed * 각 확률변수([[확률변수,random_variable]])가 독립이며 같은 확률분포함수([[확률함수,probability_function]])를 갖는 것 } [[네이먼-피어슨_보조정리,Neyman-Pearson_lemma]] { Using Bayes' theorem and the Neyman-Pearson Lemma to decide https://everything2.com/title/Using+Bayes%2527+theorem+and+the+Neyman-Pearson+Lemma+to+decide rel. [[베이즈_정리,Bayes_theorem]]. [[결정,decision]]? [[WpEn:Neyman–Pearson_lemma]] https://mathworld.wolfram.com/Neyman-PearsonLemma.html Up: [[통계,statistics]] [[보조정리,lemma]] } [[TableOfContents]] = 평균, 분산, 표준편차 = 이산확률변수 X의 기댓값 또는 평균([[평균,mean,average]]): $E(X)=x_1p_1+x_2p_2+\cdots+x_np_n=\sum x_i p_i $ 이산확률변수 X의 [[분산,variance]]: $V(X)=E((X-m)^2)=\sum (x_i-m)^2 p_i$ 분산을 구하는 다른 방법(증명은 아래에): $V(X)=E(X^2)-(E(X))^2=\sum x_i^2 p_i-m^2$ 이산확률변수 X의 [[표준편차,standard_deviation]]: $\sigma(x)=\sqrt{V(X)}$ == 증명 == * $V(X)=\sum(x_i-m)^2p_i$ 뿐만 아니라 $V(X)=\sum(x_i^2p_i)-m^2$ 인 이유 * $V(X)=E((X-m)^2)$ 뿐만 아니라 $V(X)=E(X^2)-(E(X))^2$ 인 이유 먼저 $\sum p_i = 1$ $\sum x_i p_i = m$ 이다. $V(X)= \sum(x_i-m)^2p_i$ $=\sum(x_i^2-2mx_i+m^2)p_i$ $=\sum x_i^2p_i - 2m\sum x_i p_i + m^2\sum p_i$ $=\sum x_i^2p_i - 2m^2 + m^2$ $=\sum x_i^2p_i - m^2$ $=E(X^2)-(E(X))^2$ = 상관 correlation = [[상관,correlation]] [[표본분산,sample_variance]] - moved to [[분산,variance#s-5]] [[공분산,covariance]] Cov(X, Y) [[상관계수,correlation_coefficient]] Corr(X, Y) [[고른분포,uniform_distribution]] $\operatorname{Corr}(X,Y)=\frac{\operatorname{Cov}(X,Y)}{\sqrt{\operatorname{Var}(X)\operatorname{Var}(Y)}}$ = tmp links ko = blog postings https://blog.naver.com/gogocj2012/ - 알기쉬운 통계학 https://hsm-edu.tistory.com/ = See also = [[이항분포,binomial_distribution]] [[정규분포,normal_distribution]] 등 여러 [[확률분포,probability_distribution]] 과학(esp 물리, 화학)에서: [[통계역학,statistical_mechanics]] Up: [[수학,math]] [[확률과_통계,probability_and_statistics]] Twins: http://www.aistudy.com/math/statistics.htm ~~AKA: 통계학~~ (wikiadmin) [[통계학,statistics]]을 분리할지 말지...