본문 바로가기
고등 수학/확률과 통계 개인학습 노트

적합도검정(카이제곱 검정), 비모수검정, 다변량분석 소개 - 15주차 정리

by 배고픈 대학원생 2021. 12. 10.
반응형

적합도검정(카이제곱 검정)


 

적합도 검정에서는 예제문제를 통한 풀이로 이해하도록 한다.

 

예제 1. 주사위를 120 회 굴렸을 때 나온 결과이다. 각 숫자가 나올 확률은 동일한지 유의수준 5% 에서 가설검정하라

 

 

위의 결과를 보고 가설 검정을 해보도록 한다.

 

1) 주사위 눈금 1에서부터 6이 나올 확률이 동일하게 1/6이 맞는가 H0

 

 

2) 아니면 H1, 적어도 하나의 확률은 다르다

 

그렇다면 이 주사위는 평등한 주사위가 아닌 것이다 이러한 가설에 대해 가설검정을 할때 

 

실제 주사위를 굴려서 나온 관측한 값을 o_i 라고 하고 만약에 귀무가설이 맞다면 기대되는 값은 ei 라고 한다.

 

 

만약 귀무가설이 맞다면 20회씩 나온다 실제 관측값과 그 다음 기댓값이 얼마나 차이가 나는지, 그 차이를 구해서 그 값을 X^2이라 구하고 X^2은 카이제곱 분포를 따르기 때문에 카이제곱 검정이라고도 말을 한다.

 

이 때 검정통계량의 값은 어떻게 계산하느냐

 

 

이것을 각 셀마다 계산을 해서 더하는 것이다. 검정통계량의 값은 2.9이다.

 

이 때 검정통계량에 대한 자유도는 셀의 수가 6개고 자유도는 그중에 하나를 뺀 5가 된다. 유의 수준이 5%이기 때문에 그리고 다르다 이기 때문에 양 측 검정으로해서 카이제곱 자유도 5, 다음에 2분의 알파 0.025하면 그 값이 12.8325가 나온다.

 

그래서 검정 통계량 값이 기각역에 속하지 못하므로 우리는 귀무가설을 기각하지 못한다.

 

실제 관측을 통해 똑같은 1/6이 아닌 불평등한 주사위가 아닌가 하는 의심이 있었지만 적합도 검정을 해보니까 이정도의 차이는 1/6이 아니다라고 할 수 없다는 것이다. 이럴때 적합도 검정을 활용한다.

 

예제 2 적합도 검정이며 예제2 같은 경우는 독립성 검정이라고도 한다.

 

훈련기간 중 직원들의 성적과 실제 자기 직무의 성공여부가 서로 독립이라는 귀무가설을 유의수준 1% 로 사용하여 검정하라 .

 

 

분할표인 contingency table이 있다.

 

따라서 

 

훈련 성적과 직무 성공은 독립이다(H0), 훈련 성적과 직무 성공은 독립이 아니다(H1)

 

1) 각 셀에 대한 기댓값 구하기

 

결합 확률 함수에서, 확률변수 X 와 Y 가 서로 독립이 되기 위해서는 𝐟(𝐱,𝐲)=𝐠(𝐱)𝐡(𝐲)

귀무가설이 맞다는 전제하에 성적이 평균 미만인 사람이 60명 그 다음에 성공여부 미달이 112명 그랬을 때 이 비율이 서로 독립이라면 (112*60)/400과 같이 구한다. 

 

e13,e21,e22,e23 ... e33 까지 각각의 셀에 대한 기댓값을 구할 수 있다. o_i는 주어져 있고 ei는 방금 우리가 구했던 e11 ... e33까지의 값들이 ei이다.

 

검정통계량의 값은 (o_i - ei)^2/ei 을 모든 셀에 대해서 다 더하는 것이 된다.

 

 

카이제곱 분포를 따르는 자유도는 컬럼의 수 -1, row의 수 -1 이므로 자유도는 x,y 축 각각 3개가 되며 (3-1)(3-1)=4이고

양측검정을 하기 위해 2분의 알파 0.005를 하니까 그 값은 14.86 즉 기각역이 14.86 이상이 되는 격이므로 그래서 검정 통계량의 값 20.179는 기각역에 속하므로 귀무가설을 기각한다.

 

훈련성적은 직무의 성공여부와는 독립이 아니다(성적 좋은 사람이 직무 성공할 확률도 더 높다는 의미) 


비모수검정(Non-Parametic Test)


추정 가설 검정에서 했던 내용들은 다 parametric이다.

 

모수 추정과 가설 검정(parametric test)

 

모집단의분포는 일반적으로 평균이 µ 이고 분산이 σ^2 인 정규분포를 따른다
‣ 표본 개체들은 모집단의 분포와 동일한 분포를 따르고 있음

 

표본평균 X(bar)는 평균이 µ이고 분산이  σ^2/n인 정규 분포를 따른다.

 

 

 

 

 

σ 제곱을 모를 경우에는 s를 대입하고 그 때 t분포를 따른다.

 

 

모든 것들이 정규분포를 따르는 모집단으로부터 출발함

 

비모수 검정이 적합한 경우

 

 

비모수 검정의 단점

 

모수적 검정보다 검정력이 낮음

 

𝛽 : 귀무가설이 틀릴 때 귀무가설을 기각하지 않는 확률

1−𝛽 : 귀무가설이 틀릴 때 귀무가설을 기각하는 확률

 

모평균에 대한 비모수 검정

 

표본이 한 개인 경우 : Sign test, Wilcoxon signed ranks test

 

표본이 두 개인 경우 : Mann Whitney test(Mann Whitney Wilcoxon test)

 

표본이 세 개 이상 : Kruskal Wallis test

 

부호 검정(Sign Test)

 

부호 검정은 분포의 중앙값에 대하여 검정하는 기법

 

귀무가설: 모평균=중앙값

 

‣ 표본자료 값이 중앙값보다 크면 +, 작으면 – 부호를 부여
‣ +의 개수와 –의 개수가 비슷하면 귀무가설을 기각하지 못함, 차이가 나면 귀무가설을 기각
‣ + 값이 나오는 개수를 X 라 하면 X ~ Bin(n,p) 귀무가설이 맞다면 p=1/2
‣ 따라서 X=x 라면 이항분포의 확률을 구하고, 유의수준과 비교하여 판정

 

Wilcoxon rank sum test

 

표본의 크기 𝒏𝟏 과 𝒏𝟐 가 작을 때 적용

 

Step 1 : 순서대로 나열, 등수 매기기

 

 

Step 2 : 표본의 크기가 다른 경우 , T=크기가 작은 집단의 순위 합계 (T=95)

 

Step 3 : Wilcoxson rank sum test 를 위한 하한 경계치 𝑇_0.025값을 찾 는다. (T_0.025=53)

 

Step 4 : 상한치는 𝑛1(𝑛1+𝑛2+1)−𝑇_0.025=8(8+10+1)−53=99

 

‣ 𝑛1은작은집단의크기,𝑛2는큰집단의크기 

 

결론

 

‣ 검정통계량의 값이 53 과 99 사이에 있음
‣ 귀무가설을 기각할 수 없다 즉 두 약의 효과에는 차이가 없다고 말할 수 있다

 

Mann Whitney Wilcoxon test

 

Step 1 : 순서대로 나열, 등수 매기기(1 : Wilcoxon rank sum test 와 동일)

 

Step 2 : 𝜒2값을 구해서 자유도가 1인 카이제곱 분포의 기준과 비교를 하고 판정을 하는 방식

 

 

 

 

결론

 

‣ 검정통계량의 값이 기각역에 속하지 않음
‣ 귀무가설을 기각하지 못함 

 

Wilcoxon rank sum test 와 Mann Whitney Wilcoxon test 의 결론 같음

 

Kruskal-Wallis test

표본이 모집 단위 3개인 경우 모수적 방법인 일원분산분석 대신 사용하는 방법

 

‣ 일원분산분석은 모수적 방법
‣ 그러나 집단이 여러 개가 있는데 정규분포를 따른다는 가정을 할 수 없는 경우 Kruskal-Wallis test를 사용

 

귀무가설 : 모든 모집단의 중앙값이 동일함
대립가설 : 최소한 하나의 중앙값이 다름

가정 : 서로 다른 모집단에서 추출한 표본 , 독립적 , 동일한 연속형 분포 자료가 정규분포를 따르지 않는다고 가정

 


다변량 분석소개


다차원의 확률변수에 대해서 데이터를 수집해서 어떤 상호 간의 관계 유무들을 파악하는 것

 

 

주성분분석 (Principal component analysis; PCA)

 

고차원의 데이터를 낮은 차원의 데이터로 환원시키는 기법

 

요인분석 (Factor analysis)

 

여러 개의 서로 관련이 있는 변수들로 측정된 자료에서 그 변수들을 설명할 수 있는 새로운 공통변수를 파악하는 분석 방법

 

‣ 차원수를 낮추는 목적은 주성분분석과 같음
‣ 주성분분석은 어떤 선형결합을 통해 단순히 차원만 낮추지만
요인분석은 새로운 변수를 찾아내어 차원을 낮춤

 

판별분석 (Discriminant Analysis)

 

개체들에 대해 측정된 특성(변수) 값을 이용하여 개체를 판별하는 식을 유도하여 새로운 개체의 집단을 판별하는 방법

여러 가지 개체들이 섞여 있을 때 유사한 것들을 찾아내서 구분하는 것

 

군집 분석 (Clustering Analysis)

 

개체의 유사성을 계산하여 유사한 개체끼리 군집화 하는 방법

반응형

댓글