주어진 데이터(n=50)
95, 96, 85, 68, 58, 90, 95, 70, 70, 50,
90, 90, 90, 83, 82, 95, 95, 90, 65, 76,
86, 100, 70, 90, 56, 95, 93, 60, 55, 59,
85, 95, 81, 71, 41, 95, 95, 91, 73, 65,
93, 75, 90, 60, 68, 90, 93, 83, 58, 29
1. data 입력
data1=c(95, 96, 85, 68, 58, 90, 95, 70, 70, 50, 90, 90, 90, 83, 82, 95, 95, 90, 65, 76, 86, 100, 70, 90, 56, 95, 95, 93, 60, 55, 59, 85, 95, 81, 71, 41, 95, 91, 73, 65, 93, 75, 90, 60, 68, 90, 93, 83, 58, 29)
아래의 13개 항목에 대해 나온 결과는 아래 표 1과 같다. 결과값에 적혀진 함수이름과 결과에 대해 적혀있다.
Summary의 기능은 최소, 1부터 3사분위 최대값을 한번에 보여주는 기능이다.
(Q2=median 이다.)
절사평균의 기능 trim=0.1 즉 10%로 상하위를 제외한 값이다 따라서 0.1은 10% 제외값이다.
아래 BoxPlot, stem and leaf, 등 결과를 표현하기 위한 data
Box Plot
함수 이름은 아래와 같다
명령어 : boxplot(data)
*data : 내가 기입한 데이터임
박스 플롯 : 5개의 값으로 만들어지며, 첫째 최상단은 최대값, 하단은 최소값 박스의 하단부는 q1 가운데는 q2 마지막 윗 선은 q3이다
박스의 길이에 다라 50%들의 데이터들이 얼마나 흩어져있는지, 변동성이 크거나 작은지 볼 수 있다. 범위도 알수 있고 산포의 크기를 나타내는 값으로 활용할 수 있다.
stem and leaf
- 지역 그림표라고도 이야기한다. 전체의 데이터를 최소부터 최대까지의 값을 표현한다.
stem : 앞 두자리 수 줄기(stem)
leaf : 끝 숫자만 표기 잎사귀(leaf)
명령어 : stem(data)
*data : 내가 기입한 데이터임
위 결과는 300 - 500 내에 적혀진 값을 순서대로 표기한 것이라 보면된다. 보게 되면
앞에 "30" 이란 표현은 300 ~ 319까지의 범위를 뜻하는 것이다. 뒷쪽( "|" 우측에 있는 숫자)은 한자릿수를 이야기 한 것이다. 뒷자리의 표현은 302, 304 305 306 310 311 312 319를 순서대로 표기한 한자릿 수 임을 확인하자.
히스토그램
데이터의 분포를 파악하기 위해 사용한다. 데이터가 구간별로 빈도가 얼마나 차이나는지 히스토그램을 사용한다.
사용하는 주된 이유는 추론통계학에서 추정과 검정을 할 때 모집단이 정규분포를 따른다고 가정하기 때문에 모집단으로 부터 표본을 구했을 때도 해당 데이터도 정규분포를 따를 것이라고 예상한다.
눈으로 정규분포를 따르는지 확인하기 위해 히스토그램을 사용한다.
정규분포는 "종의 모양"을 따른다.
위에 예시에는 종의 모양을 따르지 않아 정규분포를 따르지 않는다라고 생각할 수 있고 정확하게 판단을 하기 위햐서 정규성 검정을 합니다.
정규성 검정은
shapiro.test(data)
*data : 내가 기입한 데이터임
샤피로 윌크 통계량이 W, 정규 분포로 따를 수 있는가에 대한 판단은 P-Value로 볼 수 있다 P-value가 0.05 이상이나 더 큰 값이 나오면 정규분포를 따른다라고 말할 수 있지만
위와 같이 작은 값이 나오면 정규분포를 따르지 않는다라고 확신할 수 있다.
감사의 글
소정의 지식을 쌓는데에 도움이 되셨다면 광고 클릭을 하여 불쌍한 대학원 노예에게 10원의 기부를 부탁드립니다.
'Tools(시뮬레이션, 코딩, 프로그램들) > R, ezSPC' 카테고리의 다른 글
R을 이용한 14주차 예제 문제풀이 (0) | 2021.12.02 |
---|---|
ezSPC 2.0, R을 이용한 13주차 예제 풀이 (0) | 2021.12.01 |
댓글