2. Overview
âĒ INFERENTIAL statistics is the branch of statistics that allow us
to draw conclusions about the data or to test hypothesizes.
âStatistical inference is the act of reaching conclusions
about the world based on a set of data, and then
evaluating the reliability of those conclusions.â
! ! āļŠāļāļīāļāļīāļïāļēāļāļāļīāļāđāļïāļāļ§āļīāļāļĩāļāļēāļĢāđāļāļāļēāļĢāđāļïāļïāļāļŦāļēāļāļĩāđāļāļ°āļāļĒāļēāļĒāļēāļĄ āļïāļēāļ (infer)
āļāļļāļāļŠāļĄāļāļąāļāļīāļāļāļāļāļĨāļļïāļĄāļïāļāļĄāļđāļĨāļāļēāļāļāļĨāļļïāļĄāļāļąāļ§āļāļĒïāļēāļāđāļāļĒāļąāļāļāļĢāļ°āļāļēāļāļĢ
! ! āļāļļāļāļŦāļĄāļēāļĒāļāļāļāļŠāļāļīāļāļīāļïāļēāļāļāļīāļāļĄāļĩāļāļļāļāļŦāļĄāļēāļĒāđāļāļ·āđāļāļāļģāļāļēāļĒāļŦāļĢāļ·āļāļāļĢāļ°āļĄāļēāļ
āļĨāļąāļāļĐāļāļ°āļāļāļāļāļĢāļ°āļāļēāļāļĢāļāļēāļāļïāļāļĄāļđāļĨāļĨāļąāļāļĐāļāļ°āļāļāļāļāļĨāļļïāļĄāļāļąāļ§āļāļĒïāļēāļ āđāļĨāļ°
āļāļĢāļ°āđāļĄāļīāļāļāļ§āļēāļĄāļïāļēāđāļāļ·āđāļāļāļ·āļāļāļāļāļāļĨ
4. Z - test
T â test
F â test
Ï2 test
rxy
āļāļāļŠāļāļāļïāļēāđāļāļĨāļĩāđāļĒāļāļāļāļāļĨāļļïāļĄāļāļąāļ§āļāļĒïāļēāļāđāļāļĢāļĩāļĒāļāđāļāļĩāļĒāļāļāļąāļāļāļĨāļļïāļĄ
āļāļĢāļ°āļāļēāļāļĢāđāļĄāļ·āđāļāļāļĨāļļïāļĄāļāļąāļ§āļāļĒïāļēāļāļĄāļĩāļāļāļēāļāđāļāļīāļ 30
āđāļāļĢāļĩāļĒāļāđāļāļĩāļĒāļāļïāļēāđāļāļĨāļĩāđāļĒāļāļāļāļāļĨāļļïāļĄāļāļąāļ§āļāļĒïāļēāļ 2 āļāļĨāļļïāļĄ āđāļĄāļ·āđāļāļāļĨāļļïāļĄ
āļāļąāļ§āļāļĒïāļēāļāļĄāļĩāļāļāļēāļāđāļĄïāđāļāļīāļ 30
āđāļāļĢāļĩāļĒāļāđāļāļĩāļĒāļāļïāļēāđāļāļĨāļĩāđāļĒāļāļāļāļāļĨāļļïāļĄāļāļąāļ§āļāļĒïāļēāļ 3 āļāļĨāļļïāļĄāļāļķāđāļāđāļ
āļāļāļŠāļāļāļāļ§āļēāļĄāđāļïāļāļāļīāļŠāļĢāļ°āļïāļāļāļąāļ āļĢāļ°āļŦāļ§ïāļēāļāļāļļāļāļĨāļąāļāļĐāļāļ°āļāļāļāļïāļāļĄāļđāļĨ
āļāļĩāđāđāļïāļāļāļģāļāļ§āļāļŦāļĢāļ·āļāļāļ§āļēāļĄāļāļĩāđ
āļāļāļŠāļāļāļāļ§āļēāļĄāļŠāļąāļĄāļāļąāļāļïāļĢāļ°āļŦāļ§ïāļēāļāļāļļāļāļĨāļąāļāļĐāļāļ°āļāļāļāļïāļāļĄāļđāļĨāļāļĩāđāđāļïāļ
āļĢāļ°āļāļąāļāļïāļ§āļāļŦāļĢāļ·āļāļŠāļąāļāļŠïāļ§āļ
āļŠāļāļīāļāļīāļïāļēāļāļāļīāļāļāļĩāđāļāļĩāđāđāļïāđāļāļāļēāļĢāļŦāļēāļïāļāļŠāļĢāļļāļāļāļēāļāļāļĨāļļïāļĄāļāļąāļ§āļāļĒïāļēāļ
5. ConïŽdence Intervals
âĒ Central Limit Theorem:
âĒ āļŦāļĄāļēāļĒāļāļķāļ āļāļĨāļļïāļĄāļāļąāļ§āļāļĒïāļēāļāļāļ°āļāļĢāļ°āļāļēāļĒāļāļąāļ§āļāļĒāļđïāļāļēāļ sample mean āđāļāļĢāļđāļāļāļāļāđāļïāļ
āļāļāļāļī Normal curve ("N") āļāļĩāđāļĄāļĩāļïāļē mean āđāļïāļēāļāļąāļāļïāļē true mean (mu)
āđāļĨāļ° standard deviation āđāļïāļēāļāļąāļ âstandard errorâ (sigma āļŦāļēāļĢ
āļïāļ§āļĒ square root of n, āđāļāļĒ n āđāļïāļāļāļģāļāļ§āļāļāļĨāļļïāļĄāļāļąāļ§āļāļĒïāļēāļ (sample size))
āļāļąāļāļāļąāđāļ standard deviation āļāļāļāļāļēāļĢāļāļĢāļ°āļāļēāļĒāļāļąāļ§āļāļāļāļāļĨāļļïāļĄāļāļąāļ§āļāļĒïāļēāļāđāļïāļ
āļāļąāļ§āđāļāļĢāļāļēāļ sample size.
7. âZ-valuesâ
âĒ āļïāļē âz-valueâ āļŦāļĢāļ·āļ âāļïāļēāļĄāļēāļāļĢāļāļēāļâ āđāļïāļāļāļ°āđāļāļāļāļĩāđāđāļāļĨāļāļĢāļđāļāļĄāļēāļāļēāļāļāļ°āđāļāļāļāļīāļ
āđāļāļ·āđāļāđāļŦïāļĄāļĩāļāļ§āļēāļĄāļŦāļĄāļēāļĒāļāļąāļāđāļāļāļĒāļīāđāļāļāļķāđāļ āđāļāļĒāļāļąāđāļ§āđāļāļāļēāļĢāđāļāļĨāļāļāļ°āđāļāļāļāļīāļāđāļŦïāđāļïāļ
āļāļ°āđāļāļāļĄāļēāļāļĢāļāļēāļ
âĒ āđāļïāļāļāļēāļĢāđāļāļĨāļāļāļ°āđāļāļāļāļīāļāđāļŦïāđāļïāļāļāļ°āđāļāļ āļĄāļēāļāļĢāļāļēāļāđāļāļĒāļāļēāļĻāļąāļĒāļ§āļīāļāļĩāļāļēāļĢāļāļēāļāļŠāļāļīāļāļī
āđāļĨāļ°āļĢāļąāļāļĐāļēāđāļïāļāļāļēāļĢāđāļāļāđāļāļāđāļāļīāļĄāđāļ§ïāđāļĄïāđāļāļĨāļĩāđāļĒāļāđāļāļĨāļ
âĒ āļāļēāļĢāļāļēāļāļ§āļāļŦāļēāļāļ°āđāļāļāļĄāļēāļāļĢāļāļēāļ Z āļāļēāļĻāļąāļĒāļāļ°āđāļāļāđāļāļĨāļĩāđāļĒāļĨāļ°āļïāļēāđāļāļĩāđāļĒāļāđāļāļ
āļĄāļēāļāļĢāļāļēāļāļāļāļ āļāļ°āđāļāļāđāļïāļĨāļ°āļāļļāļ āđāļāļĒāđāļïāļŠāļđāļāļĢāļāļąāļāļāļĩāđāļŠāļđāļāļĢ
(X-X)/SD
âĒ āđāļĄāļ·āđāļ Z āđāļāļ āļāļ°āđāļāļāļĄāļēāļāļĢāļāļēāļāļāļāļāđāļïāļĨāļ°āļāļ
âĒ X āđāļāļāļāļ°āđāļāļāļāļīāļāļāļāļāđāļïāļĨāļ°āļāļ
âĒ X āđāļāļ āļāļ°āđāļāļāđāļāļĨāļĩāđāļĒāļāļāļāļïāļāļĄāļđāļĨāđāļāđāļïāļĨāļ°āļāļąāđāļ
âĒ SD āđāļāļ āļāļ§āļēāļĄāđāļāļĩāđāļĒāļāđāļāļāļĄāļēāļāļĢāļāļēāļāļāļāļāļāļ°āđāļāļāļāļļāļāļāļąāđāļ
9. āļāļēāļĢāļāļģāļāļ§āļāļïāļē âCritical Valuesâ
âĒ By definition: Îą = 1 - p or p = 1 - Îą
âĒ Thus if we want to find the central 95 percent of a standard normal curve,
we define p = 0.95 and Îą = 0.05
âĒ If we define p = 0.95 and hence Îą = 0.05, we want 95 percent of the
probability to be within our area, and 5 percent to be outside.
âĒ Since a normal curve is symmetrical, having 5 percent of the value in the
tails means having 2.5 percent of the value in each tale. That is, we just
take the value of alpha and divided by 2 for each of the value points.
âĒ āļāļģāļāļąāļāļāļ§āļēāļĄāđāļāļĒ: Îą = 1 - p or p = 1 - Îą
âĒ āļāļąāļāļāļąāđāļāļïāļēāđāļĢāļēāļïāļāļāļāļēāļĢāļŦāļēāļāļ·āđāļāļāļĩāđ 95 āđāļāļāļĢïāđāļāđāļāļï āļāļĢāļāļāļĨāļēāļāļāļāļ standard normal curve āđāļĢāļē
āļāļģāļŦāļāļāļïāļē p = 0.95 āđāļĨāļ° Îą = 0.05
âĒ āļïāļēāļāļģāļŦāļāļ p = 0.95 āļāļ°āđāļïāļïāļē Îą = 0.05 āđāļĄāļ·āđāļāđāļĢāļēāļïāļāļāļāļēāļĢāļŦāļēāļāļ§āļēāļĄāđāļïāļāđāļāđāļïāļāļĩāđ 95
āđāļāļāļĢïāđāļāđāļāļïāļāļāļāļāļĢāļ°āļāļēāļāļĢāļāļĩāđāļāļĒāļđïāļāļĢāļāļāļĨāļēāļ āđāļāļĒāļĄāļĩ 5 āđāļāļāļĢïāđāļāđāļāļïāļāļĒāļđïāļāļāļāļāļāļāđāļāļ.
âĒ āļāļēāļ normal curve āļāļĩāđāļŠāļĄāļĄāļēāļāļĢ 5 āđāļāļāļĢïāđāļāđāļāļïāļāļāļāļāļĢāļ°āļāļēāļāļĢāļāļĩāđāļāļĒāļđïāļāļāļāļāļāļāđāļāļ āļāļ°āđāļï 2.5
āđāļāļāļĢïāđāļāđāļāļïāļāļĩāđāļāļĒāļđïāļāļĩāđāļŦāļēāļāļāļāļ normal curve āđāļïāļĨāļ°āļïāļēāļ.
10. ConïŽdence Intervals
âĒ āđāļĄāļ·āđāļāļāļīāļāļēāļĢāļāļēāļŦāļēāļāļāļāļāđāļïāļāļāļāļāļīāļŠāļāļāļŦāļēāļ âtwo-sidedâ āđāļïāļāļāļēāļĢāļāļīāļāļēāļĢāļāļē
percent āļāļāļāļāļēāļĢāļāļĢāļ°āļāļēāļĒāļāļąāļ§āļĢāļ°āļŦāļ§ïāļēāļāļïāļē 2 āļïāļē āļāļąāđāļāđāļïāļāļāļēāļĢāļāļģāļŦāļāļ
CONFIDENCE INTERVAL.
âĒ āļāļąāļāļāļąāđāļāļïāļēāđāļĢāļēāļŠāļāđāļāļïāļē CONFIDENCE INTERVAL āļāļēāļāļïāļē true mean (Ξ)
āđāļĢāļēāļŠāļēāļĄāļēāļĢāļāļāļāļīāļāļēāļĒāļïāļ§āļĒāļŠāļĄāļāļēāļĢāļāļąāļāļāļĩāđ:
The Probability
that the mean
is between these 2 values
is 1-alpha
11. Sample Sizes and ConïŽdence Intervals
âĒ KEY POINT: As the sample size increases, the interval (in
which we are p percent âconfidentâ that the true sample
mean lies) gets thinner and thinner. CONFIDENCE INTERVALS
ARE SAMPLE SIZE DEPENDENT!
12. ConïŽdence Intervals
âĒ āļïāļ§āļāļāļ§āļēāļĄāļĄāļąāđāļāđāļ (confidence interval) 95 percent āļŦāļĄāļēāļĒāļāļķāļāļāļ°āđāļĢ?
āļŦāļĄāļēāļĒāļāļķāļāļïāļēāđāļĢāļēāļāļģāļāļ§āļāļïāļēāđāļāļĨāļĩāđāļĒāļāļāļāļāļĨāļļïāļĄāļāļąāļ§āļāļĒïāļēāļ sample average
āđāļïāļāļāļēāļĢāļāļĢāļ°āļĄāļēāļāļāļēāļĢāļïāļē true population mean āļāļģāļāļ§āļ100 āļāļĢāļąāđāļ āđāļĢāļēāļĄāļĩ
āļāļ§āļēāļĄāļĄāļąāđāļāđāļāļ§ïāļē 95 āļāļĢāļąāđāļāļāļēāļ 100 āļāļĢāļąāđāļ āđāļĢāļēāļāļ°āļŠāļēāļĄāļēāļĢāļāđāļïāļïāļēāđāļāļĩāļĒāļ§āļāļąāļ true
value of Ξ (âtrueâ population mean)
âĒ āđāļĢāļēāđāļïāļāļ§āļēāļĄāļĢāļđïāļāļēāļāļŠāļāļīāļāļīāļāļĩāđāđāļāļāļēāļĢāđāļŠāļāļāļāļ§āļēāļĄāļĄāļąāđāļāđāļāļ§ïāļēāđāļĢāļēāļāļĢāļ°āļĄāļēāļāļïāļēāļāļāļ
āļāļĢāļ°āļāļēāļāļĢāđāļïāļāļĒïāļēāļāļĄāļĩāļāļ§āļēāļĄāđāļĄïāļāļĒāļģ āđāļāļĒāđāļĄïāļïāļāļāļāļģāļāļēāļĢāļāļāļŠāļāļāļāļĨāļļïāļĄāļāļąāļ§āļāļĒïāļēāļ 100
āļāļĢāļąāđāļ!
17. Normal Distribution
âĒ āđāļïāļāļĢāļ°āļāļąāļāļāļ§āđāļģ āļŦāļĢāļ·āļāļāļĩāđāđāļĢāļĩāļĒāļāļ§ïāļē Normal Curve āļŦāļĢāļ·āļ Gaussian
Curve (āļāļēāļĄāļāļ·āđāļāļāļāļāļāļąāļāļ§āļīāļāļĒāļēāļĻāļēāļŠāļāļĢïāļāļēāļ§āđāļĒāļāļĢāļĄāļąāļ Karl
Friedrick Gauss, 1777-1855)
18. Standard Normal Distribution
âĒ āļāļēāļĢāļāļĢāļ°āļāļēāļĒāļāļąāļ§āđāļāļ Normal āļĄāļĩāļïāļēāđāļĢāļĩāļĒāļāļ§ïāļē Z value
âĒ āđāļïāļāļāļēāļĢāļāļĢāļ°āļāļēāļĒāļāļąāļ§āļāļēāļāļïāļēāđāļāļĨāļĩāđāļĒāļāļĨāļēāļ āļāļĩāđ
āđāļāļĒāļŦïāļēāļāļāļēāļāļïāļēāļāļĨāļēāļāļāļēāļĄāļïāļē Standard Deviation
āđāļïāļ āļïāļē Z = 1.5 āļŦāļĄāļēāļĒāļāļķāļ āļāļļāļāļāļĩāđāļŦïāļēāļāļāļēāļāļïāļēāļāļĨāļēāļ 1.5 āļŦāļïāļ§āļĒ
āļāļāļ Standard Deviation
âĒ Each Z value is the number of standard deviations
away from the mean.
!
âŽ
Âĩ = 0
!
âŽ
Ï =1
25. âĒ The critical value X = 74 differs from its
mean = 69 and = 3.
Z Value
!
âŽ
Z =
X â Âĩ
Ï
!
âŽ
Âĩ !
âŽ
Ï
!
Z =
74 â 69
3
=
5
3
=1.67
âĒ Pr(Z>1.67) = 0.47 = 5%
26. Example
âĒ Suppose the yearling trout in a lake have
lengths that are approximately normally
distributed, about a mean = 9.5â with a
standard deviation = 1.4â. What
proportion of them:
a. Exceeding 12â (the length for keeping a
catch)?
b. Exceeding 10â (the newly proposed legal
length)?
!
âŽ
Âĩ
!
âŽ
Ï
27. !
âŽ
Z =
X â Âĩ
Ï
!
âŽ
Z =
12.0 â 9.5
1.4
=
2.5
1.4
=1.79
Thus
Pr(X>12) = Pr(Z>1.79)
= 0.037 = 4%
a.
28. !
âŽ
Z =
X â Âĩ
Ï
Thus
Pr(X>10) = Pr(Z>0.36)
= 0.359 = 36%
b.
!
âŽ
Z =
10.0 â 9.5
1.4
=
0.5
1.4
= 0.36
Z=0.36
30. CORRELATION and REGRESSION.
âĒ Correlation: correlation measures the strength of
the relationship between variables or the degree
to which two variables are correlated (co-
related). Another way to think of it is that is a
measure of the extent to which two variables
"move together" â as one changes, how does the
other one change? The correlation measure is a
"dimensonless" number, and can therefore be
used to compare "apples" and "oranges" or
variables measured in different units.
32. CORRELATION and REGRESSION.
âĒ āļïāļē | r | āļĄāļĩāļïāļēāļĄāļēāļ āļŦāļĄāļēāļĒāļāļķāļ x āđāļĨāļ° y āļĄāļĩāļāļ§āļēāļĄāļŠāļąāļĄāļāļąāļāļïāļāļąāļāļĄāļēāļ
âĒ r = 0 āļŦāļĄāļēāļĒāļāļķāļ x āđāļĨāļ° y āđāļĄïāļĄāļĩāļāļ§āļēāļĄāļŠāļąāļĄāļāļąāļāļïāļāļąāļ
âĒ r > 0 āļŦāļĄāļēāļĒāļāļķāļ x āļĄāļĩāļïāļēāđāļāļīāđāļĄāļāļķāđāļ āđāļĨïāļ§ y āļāļ°āļĄāļĩāļïāļēāđāļāļīāđāļĄāļāļķāđāļ āļŦāļĢāļ·āļ āļïāļē x
āļĄāļĩāļïāļēāļĨāļāļĨāļāđāļĨïāļ§ y āļāļ°āļĄāļĩāļïāļēāļĨāļāļĨāļ
âĒ r < 0 āļŦāļĄāļēāļĒāļāļķāļ x āļĄāļĩāļïāļēāđāļāļīāđāļĄāļāļķāđāļ āđāļĨïāļ§ y āļāļ°āļĄāļĩāļïāļēāļĨāļāļĨāļ āļŦāļĢāļ·āļ āļïāļē x āļĄāļĩ
āļïāļēāļĨāļāļĨāļāđāļĨïāļ§ y āļāļ°āļĄāļĩāļïāļēāđāļāļīāđāļĄāļāļķāđāļ
âĒ āļïāļē b āđāļĨāļ° r āļāļ°āļĄāļĩāđāļāļĢāļ·āđāļāļāļŦāļĄāļēāļĒāđāļŦāļĄāļ·āļāļāļāļąāļ
33. REGRESSION.
âĒ What is a regression? Informally, it is a line fitted between two
variables to estimate the (linear) relationship between the two
variables. In the case where we have more than one "predictor"
variable, it is multi-dimensional plane describing the relationship
between the variables.
âĒ One way to think about regression is that it is a way to test the
statistical effect of one variable on another variable, holding all
other variables constant.
âĒ āđāļïāļāļāļēāļĢāļŦāļēāļāļ§āļēāļĄāļŠāļąāļĄāļāļąāļāļïāđāļāļīāļāđāļŠïāļāļāļĢāļāļĢāļ°āļŦāļ§ïāļēāļāļāļąāļ§āđāļāļĢāļŠāļāļāļāļąāļ§ āđāļāļāļĢāļāļĩāļāļĩāđāļĄāļĩ
āļāļąāļ§āđāļāļĢāļïāļāļĄāļēāļāļāļ§ïāļē 1 āļāļąāļ§āđāļāļĢ āļāļ§āļēāļĄāļŠāļąāļĄāļāļąāļāļïāļāļ°āđāļïāļāļĢāļ°āļāļēāļāļŦāļĨāļēāļĒāļĄāļīāļāļī
âĒ āļāļ§āļēāļĄāļŠāļąāļĄāļāļąāļāļïāđāļāļīāļāđāļŠïāļāļāļāļāļāļīāļāļāļīāļāļĨāđāļāļāļēāļ°āļāļāļāļāļąāļ§āđāļāļĢāļïāļāļïāļāļāļąāļ§āđāļāļĢāļāļēāļĄ
āđāļāļĩāļĒāļāļāļđïāđāļāļĩāļĒāļ§ āđāļāļĒāđāļĄïāļāļģāļāļķāļāļāļķāļāļāļąāļ§āđāļāļĢāļāļ·āđāļ (āļāļ·āļāļ§ïāļēāļāļāļāļĩāđ)
34. āđāļāļ·āļāļ 1 2 3 4 5 6 7 8 9 10 11 12
āļāļļāļāļŦāļ āļđāļĄāļī 18 24 33 37 34 28 32 27 28 27 21 19
āļāļđïāļāļļāļĄāļāļļāļĄ 43 38 32 37 5 0 0 0 0 8 23 49
āđāļïāļāļāļīāļāļēāļĒāļāļ§āļēāļĄāļŠāļąāļĄāļāļąāļāļïāļĢāļ°āļŦāļ§ïāļēāļāļïāļāļĄāļđāļĨ 2 āļāļļāļāļāļĩāđāļĄāļĩāļāļīāļāļāļīāļāļĨāļïāļāļāļąāļ (regression) āđāļĨāļ°
āļïāļāļĄāļđāļĨ 2 āļāļļāļāļāļĩāđāļĄāļĩāļāļ§āļēāļĄāđāļāļĩāđāļĒāļ§āļāļąāļāļāļąāļ (correlation)
āđāļï āļŠāļĄāļāļēāļĢ y = a + bx
āđāļāļĒ Y y = āđāļŠïāļāļāļēāļĢāļāļāļāļāļĒ āļāļģāļāļ§āļāđāļïāļāļēāļāļāļļāļāļïāļēāļāļāļ x āļāļĩāđāļāļģāļŦāļāļāđāļŦï Y
Y a = āļāļļāļāļāļąāļāļāļāđāļāļ y (Intercept)
Y b = āļāļ§āļēāļĄāļāļąāļāļāļāđāļŠïāļāļāļĢāļēāļ āļŦāļĢāļ·āļāļŠāļąāļĄāļāļĢāļ°āļŠāļīāļāļïāļāļēāļĢāļāļāļāļāļĒ (Regression CoefïŽcient)
āļāļąāļ§āļāļĒïāļēāļāļïāļāļĄāļđāļĨ
x = āļāļąāļ§āđāļāļĢāļāļīāļŠāļĢāļ° (Independent Variable)
y = āļāļąāļ§āđāļāļĢāļāļēāļĄ (Dependent Variable)
CORRELATION and REGRESSION.
35. CORRELATION and REGRESSION.
X Variable 1 Line Fit Plot
0
10
20
30
40
50
60
0 10 20 30 40
X Variable 1
Y
Y
Predicted Y