대표값,평균값,중앙값,최빈값



1. 여러 대표값들

중에서 세 개만 특별한가? 왜? 아무튼 이 세 개가 중요한가보다.

미인메디안모드
meanmedianmode
평균중앙최빈


중심위치
$n$ 개의 수치형 자료 $x_1,x_2,\cdots,x_n$
$x_i$$i$ 번째 표본의 값
$n$ 은 표본크기(sample size)

중심위치로 가장 많이 사용되는 통계값은 표본평균
대체 통계값으로 중앙값, 절사평균, 최빈값 등

1.1. 평균값(mean)

Trivial.
$\bar{x}=\frac{x_1+x_2+x_3+\cdots+x_n}{n}=\frac{1}{n}\sum_{i=1}^{n}x_i$
$=\sum_{i=1}^{n}\frac{x_i}{n}$

단점: 극단적인 값이 있으면 왜곡(자료,data의 특징이 제대로 반영되지 못함)

...이건 평균,mean,average중에서 산술평균만 해당???

그럼 기하평균 조화평균(등)도 대표값인가?
산술평균,arithmetic_mean AKA average <----------- CHK wPEn
기하평균,geometric_mean
조화평균,harmonic_mean

1.2. 중앙값(median)

$\tilde{x}$
작은 것부터 정렬,sort한 후 그 중앙에 있는 값
개수가 짝수인 경우는 중앙부분 2개의 평균
이유?

분포가 대칭이 아닌 경우, 더 좋은 대표값임.
이유?

AKA 중위수, 메디안, middle number

1.3. 최빈값(mode)

가장 빈번하게 등장하는 값 - 頻(자주 빈)자를 씀
이산형 자료에서 주로 사용
존재하지 않을 수도 있음
범주형 자료에서 사용할 수 있음

AKA 최빈수, 모드

2. 비교

평균,mean,average은 편차의 제곱의 합을 최소화 (See also 제곱평균제곱근,root_mean_square,RMS)
중앙값,median은 차의 절대값,absolute_value의 합을 최소화

3. 관련 개념

확률분포,probability_distribution
도수분포표,frequency_table
{
빈도 = 빈도수 = 도수(frequency)
: 어떤 범주에 속하는 개체의 수

각 범주마다 몇 개의 개체가 있는지 정리한 표


}
분산,variance
{
$n$ 개의 변량
$x_1,\,x_2,\,\cdots,\,x_n$
평균,mean,average$m$ 이라고 하면, 각 변량의 편차는
$x_1-m,\,x_2-m,\,\cdots,\,x_n-m$
이고 분산
$\frac{1}{n}\left{(x_1-m)^2+(x_2-m)^2+\cdots+(x_n-m)^2\right}$
표준편차,standard_deviation
$\sqrt{bunsan}$
}
산포도,dispersion
{
AKA 산포
자료가 얼마나 흩어져있는가에 대한 대표값 (See 대표값,평균값,중앙값,최빈값)

Sub:
분산,variance, 평균편차, 표준편차 등
(편차) = (변량) - (평균)


tmp ref links:
http://ko.origin.wikia.com/wiki/자료의_퍼짐을_나타내는_척도
}

4. TOCLEANUP

 평균, 중앙값, 최빈값 : 대표값(분포의 중심)
 분산, 범위, 평균편차 : 산포도(분포의 퍼짐성)
 왜도(skewness, 비대칭도) : 분포의 대칭성 측정
 첨도(kurtosis) : 분포의 뾰족한 정도 측정


AKA 기댓값(표준어), EV, expectation
}


AKA
대푯값(표준어)
representative value, 위치 측도(measure of location) - namuwiki says. CHK.
영어 representative value는 그냥 한국어 대표값의 번역인 듯.
영어권에서는 mean media mode (+range)를 묶는 특별한 단어는 없는 듯. 중심경향(See WpEn:Central_tendency, 한국어 위키백과에 없음)이 비슷한 개념인 듯.
Twins:
Up: 통계,statistics