秋秋小事
平凡,努力,成长,做最好的自己
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
总体比率的区间估计
应用场景:美国对900名高尔夫球员进行了一项全国性的调查,以便掌握女子高尔夫运动员如何看待她们在高尔夫球场所受到的待遇。调查显示有396名女子高尔夫运动球员对开球时间的合理性感到满意。 应用场景:美国对900名高尔夫球员进行了一项全国性的调查,以便掌握女子高尔夫运动员如何看待她们在高尔夫球场所收到的待遇。调查显示有396名女子# 高尔夫运动球员对开球时间的合理性感到满意。# 总体比率...原创 2018-09-20 15:28:11 · 6672 阅读 · 0 评论 -
描述统计学(二):汇总两个变量数据间关系
一 用表格方式汇总两个变量的数据1 交叉分组表 常用于一个变量为分类型变量,一个变量为数量型变量 下面是由洛杉矶300家饭店组成的一个样本,其质量等级与参加数据的应用。 质量等级是一个分类变量,等级类别:好,很好,优秀 餐价是一个数量变量,变化的范围:10~49,被分为四个组:10~19, 20~29, 30~39, 40~49 绘制的交叉...原创 2019-06-19 18:27:22 · 8031 阅读 · 0 评论 -
一元线性回归(二) ----模型的评估与判定系数
判定系数:用于估计回归方程是否很好的拟合了样本的数据,判定系数为估计的回归方程提供了一个拟合优度的度量1 误差平方和---SSE对于样本中的第i次的观测值,应变量的观测值和应变量的预测值之间的离差为第i个残差,第i个残差表示用去估计的误差,于是,对于第i次观测值,它的残差是-,这些残差或误差的平方和是一个用最小二乘来极小化的量。这个量就是误差平方和,记作SSE简单总结为:实际...原创 2019-04-29 19:01:01 · 18354 阅读 · 1 评论 -
一元线性回归(一)----简单线性回归与最小二乘法
一 理论与基础自变量:样本的特征数值因变量:需要预测的样本的预测值1 简单线性回归(simple linear regression)y:样本的预测值,即回归模型中的应变量x:样本的特征数值,即回归模型中的自变量:回归模型中的误差项,误差项说明了包含在y里面,但不能被x与y之间线性关系解释的变异性2 线性回归方程,可以看到它是一条直线:回归直线y轴的截...原创 2019-04-16 14:27:24 · 44151 阅读 · 3 评论 -
两个变量的相关性- - - 协方差与皮尔逊基相关系数
应用场景:在实际应用中,我们常常会想了解两个变量之间的关系这里举一个简单的例子:一个商店的经理想确定,周末电视广告播放的次数与下周商店销售额之间的关系我们使用:协方差和相关系数,作为衡量两个变量关系的方法一 协方差的一些解释:在坐标轴中,使用x_u、y_u画两条直线,会使数据分布在四个象限当s_xy为正时,表示变量x、y是正的线性关系,即x增加,y增加当s_xy为负时,表示变量...原创 2018-10-18 11:09:25 · 7994 阅读 · 0 评论 -
假设检验的理论
一 写在前面的一些基础知识 在数理统计中,会经常看到随机变量的概念。 随机变量又分为:离散随机变量,连续随机变量。 举个简单的例子:一个停车场里停靠的车辆数量,属于离散随机变量,因为我们可以准确的说出数值来描述结果。一天中的每个小时里,停车场出入的车辆数目,因为这个变量是在不断变化的,不能很好的用一个确定的数值来描述这个问题,这个变量就是连续随机变量。...原创 2018-09-28 17:10:55 · 1957 阅读 · 0 评论 -
假设检验---p临界值法
应用场景:美国联邦贸易委员会(FTC)定期设计统计调查,用以检验制造商的说明。例如:大号听装Hilltop咖啡的标签上标明装有3磅咖啡,FTC知道HillTop的生产线不可能精确的在每罐中放入3磅咖啡,甚至无法保证所有听装咖啡重量的总体均值为3磅/听。当然,只要听装总体重量的均值至少为3磅/听消费者的权益将得到保障假设检验-p临界值法:第一步,为检验提供原假设和备择假设:如果罐内装入咖...原创 2018-09-28 15:16:28 · 5960 阅读 · 0 评论 -
点估计与抽样分布
import numpy as np# 场景问题:一个公司中有2500个新员工,他们入职后3个月内有一部分人参加了公司的培训,现有数据为2500个员工的薪资,以及是否参加培训的状态,# 但因为公司的数据权限,不能给出所有2500个用户的数据,但可以给出50个员工的数据,现需要推断新员工的平均薪资,以及参加培训的比例# 知识点:# 有限总体的简单随机抽样:在上边的例子中,新员工的总体个...原创 2018-08-14 13:12:50 · 1104 阅读 · 0 评论 -
概率密度函数的求解
应用的场景:现有10000新员工入职,公司的hr想知道新员工的参训人数的比例,而由于某些原因,不能公开所有新员工的信息,现给出了2500个用户的数据,让你计算下新员工的参训人数的比例。这里我们使用概率密度函数,来解决这个问题,hr给了个限定标准,作为她可以接受的一个计算结果的预期值:如果计算的结果的概率,在总体点估计量:概率P的[-0.65, +0.65]区间内,就可以接受这个求得的结...原创 2018-08-30 14:54:15 · 20832 阅读 · 0 评论 -
置信区间与置信水平
# 技术场景:在总体的标准差已知的情况下,使用边际误差与区间估计,预测总体的参数# 应用场景:现有过去1 ~ 12月的销售数据,并且每个月的销售数据的变动幅值不太大,现在有了100条当月销售数据,求取当月可能的销售额度# 注:这里的前提条件:1 ~ 12个月的销售额度波动不算太大,我们把过去12个月的销售额度相关参数的均值,作为当月总的销售额度相关参数的值,# 使用这些值,去做一次统计推...原创 2018-08-31 14:28:37 · 2374 阅读 · 0 评论 -
t - 分布的区间估计
在只给出了n个样本数据的情况下,推测总体均值的区间估计应用场景:给出n个家庭信用卡债务的数据,来估计美国家庭信用卡债务的总体均值原理说明:对于任何数据集,设:均值为 x_mean, 则所有的 x_i - x_mean的平方和都等于 0, 因此(x_i - x_mean)中只有 n - 1 项是独立的,即:如果我们知道了n - 1个值,则由所有(x_i - x_mean)的值之和为 0...原创 2018-09-05 15:29:50 · 3537 阅读 · 0 评论 -
区间估计 --- 样本容量的求解
应用场景:对于美国汽车租赁已有的市场发现,租赁一辆中型汽车的租赁费用大约每天约55美元,假定该项研究的组织者想要进行一项新的调查,对在美国一辆中型汽车的租赁费用的总体均值进行估计。当新研究的设计中,当项目负责人估计每天租赁费用的总体均值时,设定的置信水平为95%,边际误差为2美元求:所需的样本容量的大小数据符合正态分布特征技术场景:E值是使用者能接受的边际误差,z 值可以直接由区间...原创 2018-09-05 17:31:53 · 4292 阅读 · 0 评论 -
描述统计学(一):表格法和图形法
数据:分类型数据,数量型数据一 汇总分类变量的数据1 频数分布: 定义:频数分布是一种数据表格汇总,表示在几个互补重叠组别中的每一组项目个数 可以使用表格法,把每个类型样本在数据集中出现的次数汇总求和计算后,列入表格中2 相对频数分布和百分数频数分布 定义:组的相对频数 = 组的频数 / n ...原创 2019-06-04 23:22:12 · 2058 阅读 · 0 评论