TBW: descriptive vs inferential / bayesian vs frequentist / ...
확률,probability
확률변수,random_variable
모집단,population: 통계적 관찰의 대상이 되는 집단 전체
전수조사(census):
모집단,population 전체를 대상으로 조사하는 것
추정하다(to estimate)라는 뜻의 라틴어 censere에서 유래
매우 힘들므로 보통
표본,sample을 뽑아 일부를 조사함
표본,sample: 모집단에서 뽑은 것
표본공간,sample_space: 랜덤 현상의 모든 가능한
결과,outcome의 집합
사건,event: 표본공간의
부분집합,subset
표본추출,sampling //
sampling 표본추출 표집
{
표본추출, 표집, 샘플링
복원추출(sampling with replacement) (추출할 때 마다 원래 상태로 돌려놓음)
비복원추출(sampling without replacement)
임의추출(random sampling; 확률적 추출) 무작위 추출 random_sampling
비임의추출(nonrandom sampling; 비확률적 추출)
표본추출오차(sampling error) = 통계량(statistic) - 모수(parameter) ...
// (노부호 p9-12)
{
표본오차(sampling error)란 모집단의 일부인 표본의 결과를 근거로 모집단 전체의 특성을 추론하는 과정에서 발생하는 오차를 말한다. 따라서 전수조사의 경우 표본오차는 발생하지 않는다. 표본오차는 일반적으로 표본의 크기가 증가함에 따라 감소한다.
표본추출 방법
- 판단 표본추출(judgement sampling) - 전문가가 주관적으로 하는 샘플링
- 확률 표본추출(probability sampling) - 표본 추출 전, 모집단을 구성하는 기본단위가 표본으로 추출될 확률을 일정하게 할당하는 방법, 판단표본추출보다 객관적
- 단순 무작위 표본추출(simple random sampling) - 일정 크기의 모든 표본조합(sample combination)이 표본으로 추출될 확률을 같게 놓으며, 모집단의 기본단위가 표본에 포함될 확률을 같게 하여 표본추출하는 방법 - 이것의 무작위성,randomness을 확실히 하기 위해서는 난수발생기RNG를 사용 (일반적으로 난수,random_number는 고른분포,uniform_distribution로부터 만든 숫자로, 각 숫자가 발생할 확률은 동일)
- 층화 표본추출(stratified sampling) - 각 층,stratum(writing) { 몇 개의 동질적인 집단으로 모집단,population을 구분해 놓은 것. (노부호 p11) } 에 가중값,weight을 적용하여 모집단 특성에 대한 추정치를 계산하는 방법
- 군집 표본추출(clustered sampling) - 모집단을 군(cluster)으로 불리는 여러 집단으로 나누어 모집단을 대표하는 군을 표본으로 추출하는 방법
- 1단계추출(single-stage sampling)
- 2단계추출(two-stage sampling)
- 다단계추출(multi-stage sampling)
- 체계적 표본추출(systematic sampling) - 표본추출간격(sampling interval)(rel. 구간,interval)을 이용 - (대충) 그래서 (등차수열 비슷한 방식으로) 일정 간격으로 일부를 뽑아내는 - 다만 모집단의 순서,order에 따른 주기성,periodicity이 표본추출간격과 일치하는 경우 문제 발생
}
}
}
모수,parameter
모집단,population의 특성을 나타내는 수치.
모집단의 특성을 수치로 나타낸 것.
B(n, p)에서 n과 p
평균,mean,average,
분산,variance,
표준편차,standard_deviation, 분위수(
사분위수,quartile,
백분위수,percentile), 모비율 등
수학백과: 모수(https://terms.naver.com/entry.nhn?docId=4125278&cid=60207&categoryId=60207)
모집단 전체 데이터를 얻을 수 없다면, 모집단의 특성을 나타내는 모수를 파악하여 모집단의 특성을 파악해볼 수 있다.
모집단은 유일하게 존재, 표본은 여러 개 존재.
| 모집단,population | 표본,sample |
평균,mean,average | 모평균,population_mean μ | 표본평균,sample_mean X̅ |
분산,variance | 모분산,population_variance σ2 | 표본분산,sample_variance S2 |
표준편차,standard_deviation | 모표준편차,population_standard_deviation σ | 표본표준편차,sample_standard_deviation S |
모집단과_표본,population_and_sample
{
모집단과 표본에 대해 일반적으로 쓰는 문자.
| 개체(자료) 수 | 확률변수 | 평균 | 표준편차 | 분산 |
모집단 | | | | | |
표본 | | | | | |
}
// from Ross p.20
표본평균(sample mean) - See
평균,mean,average
{
빈도 를 갖는
개의 서로 다른 값
에 대한
표본평균은 가중평균(weighted average)
}
// from Ross p.22
표본중앙값(sample median): 크기 n인 데이터 집합을 작은 것부터 나열하여서,
n이 홀수일 때 (n+1)/2 위치의 값
n이 짝수일 때 n/2 위치의 값과 n/2+1 위치의 값의 평균
// from Ross p.23
표본최빈값(sample mode): 가장 높은 빈도로 발생하는 값
최빈값들(modal values): 가장 높은 빈도로 발생하는 모든 값들 (단일값이 존재하지 않을 때)
표본분산,sample_variance
표본평균과 표본분산 - 표본 페이지로..
{
개의
표본,sample에서
표본평균,sample_mean
표본분산,sample_variance
이것들은
모집단,population의 특성인
모평균,population_mean과
모분산,population_variance을 추정할 때 쓰임.
}
몇 개의 계급을 나누어 도수분포표를 만듦
그룹의 개수를 구하는 방법은 여러가지가 있는데,
n=전체 자료의 수, k=그룹의 수라 할 때,
제곱근 방법 | |
Sturges 공식 | |
Rice 공식 | |
화면이 흐려 ceil기호인지 확실하지 않음, CHK
// from Ross
값들을 여러 개의 그룹, 즉 계급구간(class interval)로 나누고 각 계급구간에 속하는 값의 개수를 표기.
계급구간의 양 끝점들을 계급경계(class boundary)라 함.
계급 데이터에 대한 막대그래프는
히스토그램,histogram.
중소규모의 데이터 집합 구성에 적합함.
산포도,dispersion
편차,deviation
잔차,residual
오차,error
추론,inference
통계적추론,statistical_inference
신뢰구간,confidence_interval
귀무가설,null_hypothesis
중심극한정리,central_limit_theorem,CLT
왜도,skewness
첨도,kurtosis
분포,distribution - see
확률분포,probability_distribution
통계량,statistic - 자료들로부터 계산되는 값