추정
용어
• 통계적 추론
– 모수에 대한 판단을 내리기 위하여 모집단에서 표본을
추출하여 데이터를 얻고 이 데이터를 기초로 하여 통
계이론에 의한 결론을 내리게 되는 과정

• 통계적 추론의 두 분야
– 추정
• 표본을 이용하여 모집단의 미지의 모수를 추측하는 과정

– 가설검정
• 표본을 이용하여 모집단에 대한 어떤 예상 또는 주장의 옳고
그름을 판정하거나, 주장의 채택 또는 기각을 결정하는 과정

한림대학교 이윤환(http://fb.com/yoonani72)
용어
• 점추정
– 모수를 하나의 값으로 추정

• 구간추정
– 모수에 대한 추정으로 하나의 점이 아닌 구간으로 추정

• 추정량(estimator)
– 모수의 추정에 사용되는 통계량
– 예 : 모평균에 대한 추정량은 표본평균
• 𝑋=

𝑋1 +𝑋2 +⋯+𝑋 𝑛
𝑛

=

𝑛
𝑖=1

𝑋𝑖

𝑛

• 추정값(estimate)
– 추정량에 실제 관측값을 대입하여 얻은 값
한림대학교 이윤환(http://fb.com/yoonani72)
점추정
• 모평균의 추정량 : 표본평균
– 𝑋=

𝑋1 +𝑋2 +⋯+𝑋 𝑛
𝑛

=

𝑛
𝑖=1

𝑋𝑖

𝑛

– 무한모집단의 경우 모집단의 평균이 𝜇이고 분산이 𝜎 2
일 때 표본평균 𝑋는 다음과 같은 성질을 갖는다.
• 𝐸 𝑋 = 𝜇
• 𝑉𝑎𝑟 𝑋 =

𝜎2
𝑛

– 불편추정량
• 모수 𝜃의 추정량 𝜃에 대하여 𝐸 𝜃 = 𝜃 가 성립할 때 𝜃을 𝜃의
불편추정량이라 한다.
• 𝑋는 𝜇의 불편추정량
한림대학교 이윤환(http://fb.com/yoonani72)
점추정
• 좋은 추정량…
– 추정량의 표준편차가 작을수록 좋은 추정량
– 불편추정량 𝜃1 과 𝜃2 이 있을때 이 둘중 더 좋은 추정량
은 표준편차가 작은 추정량

• 표준오차(Standard Error, SE)
– 추정량의 표준편차를 표준오차라고 한다.
– 추정량의 정밀도를 나타냄
– 표본평균 𝑋의 표준오차
• 𝑆𝐸 𝑋 =

𝜎
𝑛

한림대학교 이윤환(http://fb.com/yoonani72)
점추정
• 표준오차(계속)
– 일반적으로 표본평균의 표준오차에서 𝜎는 모수로 알
지 못함.
– 표본표준편차 (𝑆)를 𝜎 대신 사용
• 𝑆=

𝑛
𝑖=1

𝑋 𝑖 −𝑋 2

(𝑛−1)

– 따라서 𝑆𝐸 𝑋 의 추정값 𝑆𝐸 𝑋 =

𝑆

𝑛

– 즉, 일반적으로 사용하는 것은 표준오차의 추정값

한림대학교 이윤환(http://fb.com/yoonani72)
점추정
• 모분산과 모표준편차의 추정

𝑛
– 편차의 합 𝑖=1 𝑥 𝑖 − 𝑥 = 0
– 편차에 제곱 하여 모두 더한 것을 기억하나요?
𝑛
• 𝑖=1 𝑥 𝑖 − 𝑥 2
• 이를 통계에서는 제곱합(Sum of squares)이라 부릅니다.

– 자유도
• 편차의 합은 0이므로 전체 자료 n 중에 (n-1)개의 편차만 알
면 나머지 하나는 저절로 결정

– 산포의 측도는 제곱합을 자유도로 나눈다.
• 표본분산에서 분모가 n-1 인 이유입니다.

–E

𝑆2

=

𝜎 2,

𝑆2

=

𝑛
𝑖=1

𝑋 𝑖 −𝑋 2

(𝑛−1)

한림대학교 이윤환(http://fb.com/yoonani72)
구간추정
• 신뢰구간
– 모수의 구간추정을 위하여 제시한 하한값과 상한값을
각각 L과 U라고 할 때 범위 (L, U)

• 신뢰수준
– 신뢰구간에 모수의 참값이 포함되는 것을 얼마나 신뢰
할 수 있는 가를 나타내는 정도
– 1 − 𝛼로 나타내며 일반적으로 𝛼를 0.10, 0.05,
0.001 등을 사용한다.

한림대학교 이윤환(http://fb.com/yoonani72)
구간추정
• 신뢰구간의 올바른 이해
여러 표본을 통해
신뢰구간을 구할 경우
실제 모평균이 전체에서 (1-𝛼)%
정도는 포함될 것으로 기대
절대!!!
우리가 구한 신뢰구간이
실제 모평균을
포함할 확률이 아님

한림대학교 이윤환(http://fb.com/yoonani72)
구간추정
• 모평균의 구간추정 : 대표본
– 중심극한정리를 다시 생각해 볼까요?
• 표본의 크기가 클 경우 𝑋 ~ 𝑁 𝜇,

𝜎2
𝑛

• 표본평균 𝑋가 정규분포를 따르므로 표준정규분포로 변환가능

–Z =

𝑋−𝜇
𝜎

~ 𝑁(0, 1)

𝑛

– 모평균 𝜇에 대한 95% 신뢰수준(1 − 𝛼, 𝛼 = 0.05)
• P −𝑧0.025 ≤
• P 𝑋 − 𝑧0.025

𝑋−𝜇
𝜎

𝜎

𝑛

≤ 𝑧0.025 = 0.95

≤ 𝜇 ≤ 𝑋 + 𝑧0.025
𝑛

𝜎

𝑛

= 0.95

한림대학교 이윤환(http://fb.com/yoonani72)
구간추정

1 - 𝛼 = 0.95

−𝑧0.025 =1.96

𝜎
𝑛

𝜇

𝑧0.025 =1.96

한림대학교 이윤환(http://fb.com/yoonani72)

𝜎
𝑛
구간추정
• 모평균의 구간추정
– 대표본인 경우 중심극한정리를 통해 𝜎 대신 s를 사용
해도 되나 소표본의 경우는 문제 발생
– t-분포
𝑋1 , 𝑋2 , … , 𝑋 𝑛 이 𝑁 𝜇, 𝜎 2 에서의 랜덤표본일 때,
𝑋− 𝜇
t=
𝑆
𝑛
는 자유도 n-1인 t분포를 따른다.

한림대학교 이윤환(http://fb.com/yoonani72)
t분포와 정규분포
• 자유도가 3인 t분포와 정규분포

한림대학교 이윤환(http://fb.com/yoonani72)
t분포와 정규분포
• 자유도 증가(표본 수) 증가와 정규분포

한림대학교 이윤환(http://fb.com/yoonani72)
t분포와 정규분포
• R Code
>
>
>
>

x <- seq(-3, 3, by=0.01)
z <- dnorm(x)
plot(x, z, type="l")
lines(x, dt(x, df=3), col="red")

>
>
>
>
>
>

x <- seq(-3, 3, by=0.01)
z <- dnorm(x)
plot(x, z, type="l")
lines(x, dt(x, df=3), col="red")
lines(x, dt(x, df=10), col="blue")
lines(x, dt(x, df=30), col="yellow", lwd=2)

한림대학교 이윤환(http://fb.com/yoonani72)
구간추정
• 모평균의 구간추정 : 소표본
–t =

𝑋−𝜇
𝑆

𝑛

– 모평균 𝜇에 대한 95% 신뢰수준(1 − 𝛼, 𝛼 = 0.05)
• P −𝑡0.025 ≤
• P 𝑋 − 𝑡0.025

𝑋−𝜇
𝑆

𝑆

𝑛

𝑛

≤ 𝑡0.025 = 0.95
≤ 𝜇 ≤ 𝑋 + 𝑡0.025

𝑆

𝑛

= 0.95

– 자유도가 3일 경우 −𝑡0.025 : qt(0.025, df=3)

한림대학교 이윤환(http://fb.com/yoonani72)
모비율의 추정과 표본의 수 결정
모비율의 구간추정
• 범주형자료에 대한 추정은 모평균 대신 모비율(p)
에 대한 추정 실시
– 80세 이상 노인의 비율, 불량률, 남학생의 비율 등

• 모비율의 추정량 : 𝑝
– 확률변수 X가 관심이 되는 대상의 수라 하면
𝑋
𝑝= ,
n은 표본의 크기
𝑛

– 모집단으로부터 추출된 표본비율 𝑝은 𝑛𝑝와 𝑛(1 − 𝑝)가
5이상일 경우 근사적으로 정규분포를 따른다.
• 𝒑~𝑵(𝒑,

𝒑 𝟏−𝒑
𝒏

)

한림대학교 이윤환(http://fb.com/yoonani72)
모비율의 구간추정
– 또한 모든 정규분포는 표준정규분포로 바꿀 수 있으므
로
𝑝−𝑝
𝑝(1−𝑝)
𝑛

~ 𝑁(0, 12 )

– 모비율 p의 신뢰구간

𝑝− 𝑧𝛼 2

𝑝 1−𝑝
𝑛

, 𝑝+ 𝑧𝛼 2

𝑝 1−𝑝
𝑛

로 구한다.

한림대학교 이윤환(http://fb.com/yoonani72)
모비율의 구간추정
• 예제) 어떤 종합병원에서 입원환자들의 불만율을 조사하
고자 한다. 입원한 환자들중 임의로 500명을 뽑아 조사
한 결과 불만있는 환자가 20명으로 나타났다. 이 병원 환
자들의 불만율 p의 95% 신뢰구간을 구하여라.
– 𝑝=

20
500

– 𝑝− 𝑧

𝛼

2

= 0.04 이고 대표본(𝑛𝑝와 𝑛(1 − 𝑝)가 5이상)
𝑝 1−𝑝
𝑛

∶ 0.04 − 1.96 ×

0.04 0.96
500

≈ 0.04 − 0.017 = 0.023
–

𝑝+ 𝑧

𝛼

2

𝑝 1−𝑝
𝑛

≈ 0.04 + 0.017 = 0.057

– 신뢰구간은 (0.023(2.3%), 0.057(5.7%))
한림대학교 이윤환(http://fb.com/yoonani72)
표본의 크기 결정
• 모수들의 신뢰구간 추정시 1 − 𝛼를 지나치게 넓
히는 것은 모수 추정에 좋지 않다.
• 이를 위해 적당한 표본의 크기를 결정하여야 한
다.
• 표본의 크기 결정
– 측정할 모수 결정 (𝜇 또는 p)
– 신뢰구간을 구할 신뢰수준(1 − 𝛼) 결정
– 측정할 모수에 따라 추정오차의 한계의 크기 결정
(𝑧 𝛼 2

𝜎
𝑛

, 𝑧𝛼 2

𝑆
𝑛

, 𝑧𝛼 2

𝑝 1−𝑝
𝑛

)

한림대학교 이윤환(http://fb.com/yoonani72)
표본의 크기 결정
• 모평균을 추정하기 위한 표본의 크기
– 추정오차의 한계는 TS 이고 모표준편차를 알때
𝜎
𝑧𝛼
≤ 𝑇𝑆
2
𝑛
𝜎
𝑧𝛼
≤ 𝑛
2 𝑇𝑆
𝜎 2
(𝑧 𝛼
) ≤ 𝑛
2 𝑇𝑆
– 모표준편차를 모를 경우에는 𝜎 대신 표본표준편차 S
사용

한림대학교 이윤환(http://fb.com/yoonani72)
표본의 크기 결정
• 보건소에서 환자 1명당 진료시간의 평균을 추정하려고
한다. 이전 자료를 보면 진료시간의 표준편차는 3분 정도
로 알려져 있을 때 95% 신뢰수준에서 평균진료시간의
오차의 한계를 1분 이내로 유지하려면 환자 몇 명을 표본
으로 하여야 하는가?
– 진료시간의 표준편차는 3분
– 오차의 한계는 1분
– 신뢰수준은 0.95 → 𝑧0.025 = 1.96
3
𝑛 ≥ (1.96 )2 ≈ 34.6
1
즉, 35명 이상

한림대학교 이윤환(http://fb.com/yoonani72)
표본의 크기 결정
• 모평균을 추정하기 위한 표본의 크기
– 추정오차의 한계는 TS 이고 𝑝을 알면
𝑝 1− 𝑝
𝑧𝛼
≤ 𝑇𝑆
2
𝑛
𝑧𝛼
𝑝 1 − 𝑝 ( 2 )2 ≤ 𝑛
𝑇𝑆
– 𝑝을 모를 경우에는𝑝 1 − 𝑝 을 최대로 하는 𝑝 = 0.5 사
용
1 𝑧𝛼2 2
(
) ≤ 𝑛
4 𝑇𝑆
한림대학교 이윤환(http://fb.com/yoonani72)
표본의 크기 결정
• 보건소에서는 다시 내원할 가능성이 있는 내원객의 비율
을 추정하기 위해 표본조사를 하려고 한다. 신뢰수준
95%를 가지고 추정오차의 한계를 10% 이내로 모비율
을 추정하려고 할 때 적당한 표본의 크기는 얼마인가?
– 𝑝을 모르는 상황
– 오차의 한계는 0.1
– 신뢰수준은 0.95 → 𝑧0.025 = 1.96
1 𝑧𝛼2 2
1 1.96 2
n ≥ (
) ≡ (
) ≈ 96.04
4 𝑇𝑆
4 0.1

97명 이상의 환자를 표본으로 추출한다.

한림대학교 이윤환(http://fb.com/yoonani72)

More Related Content

DOCX
Симетрични и асиметрични алгоритми за криптиране на информация
PPTX
bitcoin prediction
PDF
07.표본분포
PDF
09.통계적가설검정
PDF
02.자료다루기
PDF
10.단일표본 평균 모비율
PDF
06.확률분포
PDF
03.기술통계 자료의 중심과 퍼진정도
Симетрични и асиметрични алгоритми за криптиране на информация
bitcoin prediction
07.표본분포
09.통계적가설검정
02.자료다루기
10.단일표본 평균 모비율
06.확률분포
03.기술통계 자료의 중심과 퍼진정도

Viewers also liked (20)

PDF
13.상관과 회귀
PDF
05.확률
PDF
R 기초 : R Basics
PDF
00.통계학입문
PPTX
04.r 기초 유의성 검증
PDF
14.범주형자료분석
PDF
12.세표본 이상의 평균비교
PDF
11.두표본의 평균비교
PPTX
R 기초 Part. 01
PPTX
R과 기초통계 : 01.자료다루기
PPTX
통계자료 분석을 위한 R
PDF
TOC무료세미나 (KTA 110716)
PDF
R 기초교안 (페북 api까지)
PPT
practice2
PPTX
R 기초 II
PPTX
기술통계 - 자료의 중심과 퍼진정도
PPTX
[오픈콘텐츠랩/Boc] 소셜 데이팅 특강 강의자료
PDF
2016 크라우드펀딩대회 사전설명회
PDF
01.r 기초
PDF
Head first statistics14
13.상관과 회귀
05.확률
R 기초 : R Basics
00.통계학입문
04.r 기초 유의성 검증
14.범주형자료분석
12.세표본 이상의 평균비교
11.두표본의 평균비교
R 기초 Part. 01
R과 기초통계 : 01.자료다루기
통계자료 분석을 위한 R
TOC무료세미나 (KTA 110716)
R 기초교안 (페북 api까지)
practice2
R 기초 II
기술통계 - 자료의 중심과 퍼진정도
[오픈콘텐츠랩/Boc] 소셜 데이팅 특강 강의자료
2016 크라우드펀딩대회 사전설명회
01.r 기초
Head first statistics14
Ad

Similar to 08.추정 (20)

PPT
표집
PDF
11_통계 자료분석 입문
PPT
Spc개요
PPTX
연구학교 데이터분석
PDF
확률변수와 분포함수
PPTX
Statistics Study for Computer Scientists
PDF
Rdatamining
KEY
Hfs ch11
PPTX
통계 기초 용어1
PDF
R_datamining
PDF
Deep Learning from scratch 4장 : neural network learning
PDF
RUCK 2017 빅데이터 분석에서 모형의 역할
PPTX
Statistics for psychology, Inferential Statistics and Hypothesis Testing
PDF
Decision tree
PPTX
07. PCA
PPTX
0307 2 hypothesis_testing
PDF
[확률통계]04모수추정
PDF
실무에서 활용하는 A/B테스트
PDF
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 2장. 머신러닝 프로젝트 처음부터 끝까지
PPTX
Probability with MLE, MAP
표집
11_통계 자료분석 입문
Spc개요
연구학교 데이터분석
확률변수와 분포함수
Statistics Study for Computer Scientists
Rdatamining
Hfs ch11
통계 기초 용어1
R_datamining
Deep Learning from scratch 4장 : neural network learning
RUCK 2017 빅데이터 분석에서 모형의 역할
Statistics for psychology, Inferential Statistics and Hypothesis Testing
Decision tree
07. PCA
0307 2 hypothesis_testing
[확률통계]04모수추정
실무에서 활용하는 A/B테스트
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 2장. 머신러닝 프로젝트 처음부터 끝까지
Probability with MLE, MAP
Ad

More from Yoonwhan Lee (14)

PPTX
Smart work 자료 1
PDF
통계자료분석을 ㅇ
PDF
PHP를 이용한 간단한 방명록 만들기
PDF
Class10
PPTX
MySQL과 PHP
PPTX
MySQL 기초
PPTX
추정
PPTX
쿠키를 통해 구현해보는 간단한 로그인 과정
PPTX
에버노트와 드롭박스 설치
PPTX
PHP에서 객체와 데이터 연결 유지
PDF
표본들의 분포
PPTX
HTML Form과 배열
PDF
Android 기초 앱 사용
PPTX
기초 확률 관련
Smart work 자료 1
통계자료분석을 ㅇ
PHP를 이용한 간단한 방명록 만들기
Class10
MySQL과 PHP
MySQL 기초
추정
쿠키를 통해 구현해보는 간단한 로그인 과정
에버노트와 드롭박스 설치
PHP에서 객체와 데이터 연결 유지
표본들의 분포
HTML Form과 배열
Android 기초 앱 사용
기초 확률 관련

08.추정

  • 2. 용어 • 통계적 추론 – 모수에 대한 판단을 내리기 위하여 모집단에서 표본을 추출하여 데이터를 얻고 이 데이터를 기초로 하여 통 계이론에 의한 결론을 내리게 되는 과정 • 통계적 추론의 두 분야 – 추정 • 표본을 이용하여 모집단의 미지의 모수를 추측하는 과정 – 가설검정 • 표본을 이용하여 모집단에 대한 어떤 예상 또는 주장의 옳고 그름을 판정하거나, 주장의 채택 또는 기각을 결정하는 과정 한림대학교 이윤환(http://fb.com/yoonani72)
  • 3. 용어 • 점추정 – 모수를 하나의 값으로 추정 • 구간추정 – 모수에 대한 추정으로 하나의 점이 아닌 구간으로 추정 • 추정량(estimator) – 모수의 추정에 사용되는 통계량 – 예 : 모평균에 대한 추정량은 표본평균 • 𝑋= 𝑋1 +𝑋2 +⋯+𝑋 𝑛 𝑛 = 𝑛 𝑖=1 𝑋𝑖 𝑛 • 추정값(estimate) – 추정량에 실제 관측값을 대입하여 얻은 값 한림대학교 이윤환(http://fb.com/yoonani72)
  • 4. 점추정 • 모평균의 추정량 : 표본평균 – 𝑋= 𝑋1 +𝑋2 +⋯+𝑋 𝑛 𝑛 = 𝑛 𝑖=1 𝑋𝑖 𝑛 – 무한모집단의 경우 모집단의 평균이 𝜇이고 분산이 𝜎 2 일 때 표본평균 𝑋는 다음과 같은 성질을 갖는다. • 𝐸 𝑋 = 𝜇 • 𝑉𝑎𝑟 𝑋 = 𝜎2 𝑛 – 불편추정량 • 모수 𝜃의 추정량 𝜃에 대하여 𝐸 𝜃 = 𝜃 가 성립할 때 𝜃을 𝜃의 불편추정량이라 한다. • 𝑋는 𝜇의 불편추정량 한림대학교 이윤환(http://fb.com/yoonani72)
  • 5. 점추정 • 좋은 추정량… – 추정량의 표준편차가 작을수록 좋은 추정량 – 불편추정량 𝜃1 과 𝜃2 이 있을때 이 둘중 더 좋은 추정량 은 표준편차가 작은 추정량 • 표준오차(Standard Error, SE) – 추정량의 표준편차를 표준오차라고 한다. – 추정량의 정밀도를 나타냄 – 표본평균 𝑋의 표준오차 • 𝑆𝐸 𝑋 = 𝜎 𝑛 한림대학교 이윤환(http://fb.com/yoonani72)
  • 6. 점추정 • 표준오차(계속) – 일반적으로 표본평균의 표준오차에서 𝜎는 모수로 알 지 못함. – 표본표준편차 (𝑆)를 𝜎 대신 사용 • 𝑆= 𝑛 𝑖=1 𝑋 𝑖 −𝑋 2 (𝑛−1) – 따라서 𝑆𝐸 𝑋 의 추정값 𝑆𝐸 𝑋 = 𝑆 𝑛 – 즉, 일반적으로 사용하는 것은 표준오차의 추정값 한림대학교 이윤환(http://fb.com/yoonani72)
  • 7. 점추정 • 모분산과 모표준편차의 추정 𝑛 – 편차의 합 𝑖=1 𝑥 𝑖 − 𝑥 = 0 – 편차에 제곱 하여 모두 더한 것을 기억하나요? 𝑛 • 𝑖=1 𝑥 𝑖 − 𝑥 2 • 이를 통계에서는 제곱합(Sum of squares)이라 부릅니다. – 자유도 • 편차의 합은 0이므로 전체 자료 n 중에 (n-1)개의 편차만 알 면 나머지 하나는 저절로 결정 – 산포의 측도는 제곱합을 자유도로 나눈다. • 표본분산에서 분모가 n-1 인 이유입니다. –E 𝑆2 = 𝜎 2, 𝑆2 = 𝑛 𝑖=1 𝑋 𝑖 −𝑋 2 (𝑛−1) 한림대학교 이윤환(http://fb.com/yoonani72)
  • 8. 구간추정 • 신뢰구간 – 모수의 구간추정을 위하여 제시한 하한값과 상한값을 각각 L과 U라고 할 때 범위 (L, U) • 신뢰수준 – 신뢰구간에 모수의 참값이 포함되는 것을 얼마나 신뢰 할 수 있는 가를 나타내는 정도 – 1 − 𝛼로 나타내며 일반적으로 𝛼를 0.10, 0.05, 0.001 등을 사용한다. 한림대학교 이윤환(http://fb.com/yoonani72)
  • 9. 구간추정 • 신뢰구간의 올바른 이해 여러 표본을 통해 신뢰구간을 구할 경우 실제 모평균이 전체에서 (1-𝛼)% 정도는 포함될 것으로 기대 절대!!! 우리가 구한 신뢰구간이 실제 모평균을 포함할 확률이 아님 한림대학교 이윤환(http://fb.com/yoonani72)
  • 10. 구간추정 • 모평균의 구간추정 : 대표본 – 중심극한정리를 다시 생각해 볼까요? • 표본의 크기가 클 경우 𝑋 ~ 𝑁 𝜇, 𝜎2 𝑛 • 표본평균 𝑋가 정규분포를 따르므로 표준정규분포로 변환가능 –Z = 𝑋−𝜇 𝜎 ~ 𝑁(0, 1) 𝑛 – 모평균 𝜇에 대한 95% 신뢰수준(1 − 𝛼, 𝛼 = 0.05) • P −𝑧0.025 ≤ • P 𝑋 − 𝑧0.025 𝑋−𝜇 𝜎 𝜎 𝑛 ≤ 𝑧0.025 = 0.95 ≤ 𝜇 ≤ 𝑋 + 𝑧0.025 𝑛 𝜎 𝑛 = 0.95 한림대학교 이윤환(http://fb.com/yoonani72)
  • 11. 구간추정 1 - 𝛼 = 0.95 −𝑧0.025 =1.96 𝜎 𝑛 𝜇 𝑧0.025 =1.96 한림대학교 이윤환(http://fb.com/yoonani72) 𝜎 𝑛
  • 12. 구간추정 • 모평균의 구간추정 – 대표본인 경우 중심극한정리를 통해 𝜎 대신 s를 사용 해도 되나 소표본의 경우는 문제 발생 – t-분포 𝑋1 , 𝑋2 , … , 𝑋 𝑛 이 𝑁 𝜇, 𝜎 2 에서의 랜덤표본일 때, 𝑋− 𝜇 t= 𝑆 𝑛 는 자유도 n-1인 t분포를 따른다. 한림대학교 이윤환(http://fb.com/yoonani72)
  • 13. t분포와 정규분포 • 자유도가 3인 t분포와 정규분포 한림대학교 이윤환(http://fb.com/yoonani72)
  • 14. t분포와 정규분포 • 자유도 증가(표본 수) 증가와 정규분포 한림대학교 이윤환(http://fb.com/yoonani72)
  • 15. t분포와 정규분포 • R Code > > > > x <- seq(-3, 3, by=0.01) z <- dnorm(x) plot(x, z, type="l") lines(x, dt(x, df=3), col="red") > > > > > > x <- seq(-3, 3, by=0.01) z <- dnorm(x) plot(x, z, type="l") lines(x, dt(x, df=3), col="red") lines(x, dt(x, df=10), col="blue") lines(x, dt(x, df=30), col="yellow", lwd=2) 한림대학교 이윤환(http://fb.com/yoonani72)
  • 16. 구간추정 • 모평균의 구간추정 : 소표본 –t = 𝑋−𝜇 𝑆 𝑛 – 모평균 𝜇에 대한 95% 신뢰수준(1 − 𝛼, 𝛼 = 0.05) • P −𝑡0.025 ≤ • P 𝑋 − 𝑡0.025 𝑋−𝜇 𝑆 𝑆 𝑛 𝑛 ≤ 𝑡0.025 = 0.95 ≤ 𝜇 ≤ 𝑋 + 𝑡0.025 𝑆 𝑛 = 0.95 – 자유도가 3일 경우 −𝑡0.025 : qt(0.025, df=3) 한림대학교 이윤환(http://fb.com/yoonani72)
  • 18. 모비율의 구간추정 • 범주형자료에 대한 추정은 모평균 대신 모비율(p) 에 대한 추정 실시 – 80세 이상 노인의 비율, 불량률, 남학생의 비율 등 • 모비율의 추정량 : 𝑝 – 확률변수 X가 관심이 되는 대상의 수라 하면 𝑋 𝑝= , n은 표본의 크기 𝑛 – 모집단으로부터 추출된 표본비율 𝑝은 𝑛𝑝와 𝑛(1 − 𝑝)가 5이상일 경우 근사적으로 정규분포를 따른다. • 𝒑~𝑵(𝒑, 𝒑 𝟏−𝒑 𝒏 ) 한림대학교 이윤환(http://fb.com/yoonani72)
  • 19. 모비율의 구간추정 – 또한 모든 정규분포는 표준정규분포로 바꿀 수 있으므 로 𝑝−𝑝 𝑝(1−𝑝) 𝑛 ~ 𝑁(0, 12 ) – 모비율 p의 신뢰구간 𝑝− 𝑧𝛼 2 𝑝 1−𝑝 𝑛 , 𝑝+ 𝑧𝛼 2 𝑝 1−𝑝 𝑛 로 구한다. 한림대학교 이윤환(http://fb.com/yoonani72)
  • 20. 모비율의 구간추정 • 예제) 어떤 종합병원에서 입원환자들의 불만율을 조사하 고자 한다. 입원한 환자들중 임의로 500명을 뽑아 조사 한 결과 불만있는 환자가 20명으로 나타났다. 이 병원 환 자들의 불만율 p의 95% 신뢰구간을 구하여라. – 𝑝= 20 500 – 𝑝− 𝑧 𝛼 2 = 0.04 이고 대표본(𝑛𝑝와 𝑛(1 − 𝑝)가 5이상) 𝑝 1−𝑝 𝑛 ∶ 0.04 − 1.96 × 0.04 0.96 500 ≈ 0.04 − 0.017 = 0.023 – 𝑝+ 𝑧 𝛼 2 𝑝 1−𝑝 𝑛 ≈ 0.04 + 0.017 = 0.057 – 신뢰구간은 (0.023(2.3%), 0.057(5.7%)) 한림대학교 이윤환(http://fb.com/yoonani72)
  • 21. 표본의 크기 결정 • 모수들의 신뢰구간 추정시 1 − 𝛼를 지나치게 넓 히는 것은 모수 추정에 좋지 않다. • 이를 위해 적당한 표본의 크기를 결정하여야 한 다. • 표본의 크기 결정 – 측정할 모수 결정 (𝜇 또는 p) – 신뢰구간을 구할 신뢰수준(1 − 𝛼) 결정 – 측정할 모수에 따라 추정오차의 한계의 크기 결정 (𝑧 𝛼 2 𝜎 𝑛 , 𝑧𝛼 2 𝑆 𝑛 , 𝑧𝛼 2 𝑝 1−𝑝 𝑛 ) 한림대학교 이윤환(http://fb.com/yoonani72)
  • 22. 표본의 크기 결정 • 모평균을 추정하기 위한 표본의 크기 – 추정오차의 한계는 TS 이고 모표준편차를 알때 𝜎 𝑧𝛼 ≤ 𝑇𝑆 2 𝑛 𝜎 𝑧𝛼 ≤ 𝑛 2 𝑇𝑆 𝜎 2 (𝑧 𝛼 ) ≤ 𝑛 2 𝑇𝑆 – 모표준편차를 모를 경우에는 𝜎 대신 표본표준편차 S 사용 한림대학교 이윤환(http://fb.com/yoonani72)
  • 23. 표본의 크기 결정 • 보건소에서 환자 1명당 진료시간의 평균을 추정하려고 한다. 이전 자료를 보면 진료시간의 표준편차는 3분 정도 로 알려져 있을 때 95% 신뢰수준에서 평균진료시간의 오차의 한계를 1분 이내로 유지하려면 환자 몇 명을 표본 으로 하여야 하는가? – 진료시간의 표준편차는 3분 – 오차의 한계는 1분 – 신뢰수준은 0.95 → 𝑧0.025 = 1.96 3 𝑛 ≥ (1.96 )2 ≈ 34.6 1 즉, 35명 이상 한림대학교 이윤환(http://fb.com/yoonani72)
  • 24. 표본의 크기 결정 • 모평균을 추정하기 위한 표본의 크기 – 추정오차의 한계는 TS 이고 𝑝을 알면 𝑝 1− 𝑝 𝑧𝛼 ≤ 𝑇𝑆 2 𝑛 𝑧𝛼 𝑝 1 − 𝑝 ( 2 )2 ≤ 𝑛 𝑇𝑆 – 𝑝을 모를 경우에는𝑝 1 − 𝑝 을 최대로 하는 𝑝 = 0.5 사 용 1 𝑧𝛼2 2 ( ) ≤ 𝑛 4 𝑇𝑆 한림대학교 이윤환(http://fb.com/yoonani72)
  • 25. 표본의 크기 결정 • 보건소에서는 다시 내원할 가능성이 있는 내원객의 비율 을 추정하기 위해 표본조사를 하려고 한다. 신뢰수준 95%를 가지고 추정오차의 한계를 10% 이내로 모비율 을 추정하려고 할 때 적당한 표본의 크기는 얼마인가? – 𝑝을 모르는 상황 – 오차의 한계는 0.1 – 신뢰수준은 0.95 → 𝑧0.025 = 1.96 1 𝑧𝛼2 2 1 1.96 2 n ≥ ( ) ≡ ( ) ≈ 96.04 4 𝑇𝑆 4 0.1 97명 이상의 환자를 표본으로 추출한다. 한림대학교 이윤환(http://fb.com/yoonani72)