1 如果抖音增加内容付费功能(付费查看内容),如何在该功能上线前评估该功能是否应该上线?
1. 先做ABtest,通过小流量实验看看该功能是否有显著收益(平台收入、核心指标的变化)
ABtest流程:
a. 确认abtest的目的:为了提升收入,假设原来人均内容付费3rmb,现在希望通过该功能上线达到人均付费3.5rmb;
b. 流量分配
要确保实验组对照组用户量,用户特征较相同(均衡分配);
确定实验所需样本量,通过公式计算;样本量太大,可能导致流量浪费;样本量太小,可能导致结论不显著;
c.实验结果
分别看一下实验组/对照组的相关核心指标变化情况,不单单收入指标,同时要注意一些核心指标(如留存率、人均时长等),对比两组;
通过假设检验看一下是否存在显著性差异;
这里假设检验可以以用户为维度,以用户为单位计算均值、方差,并计算出相关的z检验统计量,根据p值判断是否显著;
也可以以天为维度,计算每天的均值、方差,样本量小于30,用t检验较好;
如果看到实验组中,核心指标无明显变好,且人均收入确实有显著性上涨,则认为该功能改动是合理有效的,可以上线;如果核心指标有一定下降,或人均收入无显著性上涨,则认为该功能改动是无意义的。
2. 如何在功能上线后评估该功能的效果?
这里需要长期的反转实验监控相关指标情况。
看一下主要的核心指标变化情况及显著性。
收益:人均收入、arpu等
成本:留存率、人均时长等
尽量确保成本对应的相关指标没有显著性下降,同时提升了收入。
3. 该功能上线可能会存在哪些风险?
对用户:可能造成用户对产品的喜爱度下降,现在部分内容需要付费才能查看;影响用户的其他相关指标,留存、时长、互动、内容发布等;
对平台:可能造成对外的一些负面影响,媒体上可能会广泛传播抖音付费的情况,造成品牌名誉度下降;
对公司:短期可能确实可以帮助公司提升盈利收入,但长期看来,该策略会影响用户的积极性,起码广告类收入可能降低,长期不一定有好的效果。
还需要长期的反转实验进行收益监控。
2 怎么建立抖音APP的指标体系?
- 运用增长黑客模型AARRR建立指标体系
1. 用户获取
首先用户获取,主要拆分维度是不同渠道,看一下哪个渠道效果好:获得的用户价值、花费、渠道转化率;
获客价值:新用户注册数、新用户1日/7日留存率、新用户1日、7日消费/发帖/互动情况;
获客花费:CPM、CPC单次点击计费、CPA单次数获客花费;
渠道转化率:下载总量/该渠道曝光总量。
2. 活跃(Activation)
活跃用户数:DAU、MAU、DAU/MAU(反映用户活跃度,Facebook带火的指标)
消费者测-时长:分不同Tap场景的在线时长(发现页、直播页、附近等);用户单日APP听力路总时长;
消费者测-互动:点赞渗透、评论渗透、私聊渗透、千次曝光点赞、千次曝光评论、uv、pv、完播率;
创作者测-发布:发布渗透、当日发布曝光量;
3. 留存(Retention)
活跃用户/新增用户,留存率1日、7日、30日;
流失率:统计周期内登录APP,下一周期未登录用户的占比;
4. 转化(Revenue)
拆分不同场景(直播、小视频、小游戏等),去看对应的付费用户数、付费率、arpu(人均收入)
5. 传播(Referral)
邀请率、邀请接受率、K因子 = 邀请率*邀请接受率
3 异动指标分析—单一指标分析(DAU、订单量、销售额...)
1. 数据校验
一是校验数据的准确性:校验数据的准确性需要检查数据获取的渠道,判断是否是由于SQL有误或是数据看板没有及时更新导致数据错误。
二是校验数据属于异常而不是正常波动:
① 从业务角度:可以拉长时间轴看观测日的数据是否存在明显的下降,可以一定程度上看出属于异常还是波动;
② 从统计学角度:可以对一定周期的数据取分位数,工作中更多认为数据应该在95分位数或90分位数之内,若超出了这个范围,数据大概率处于异常情况。
若发现数据准确且属于异常之后才需要进行后续的维度拆解与分析。
2. 维度拆解
① 用户维度:新/老、用户角色(学生、教师等)、性别、年龄等;
由于用户本身不会主动产生某种行为,因此发生在用户维度上的拆解一般用于用户定位和人群圈选,通过数据判断是否存在某个群体发生异常,而不是直接从给用户身上找原因。
② 产品维度:新老版本迭代、新系统上线等;
互联网产品一直都在快速迭代,新版本上线时也是bug高发期,所以如果数据异常与产品上线呈现时间上的高度一致性,那么大概率是版本上线出了问题。
③ 运营维度:是都有相关运营活动;
对于互联网用户而言,运营活动大多是烧钱买用户或者烧钱引流,在活动期间必然会吸引更多用户或者刺激用户提前消费,该时期的数据也会呈现良好的上涨趋势,但是活动之后,没了刺激和奖励,数据必然会呈现下降趋势。
④ 竞品动作:竞品是否有动作
由于市场上的用户是有限的,若竞品开展较大力度的活动,必然会对自己的产品造成一定的影响。比如,假设注册一个抖音给你20块钱,注册一个快手没有任何收入,那么大多数人会选择注册抖音。
⑤ 其他维度
环境因素:例如河南郑州暴雨导致快递无法送达该地区,造成该地区的下单量和成交量下降。
产品策略调整:短视频类和电商商品类用户很容易受到产品策略本身的影响,因此如果观测指标和产品策略调整呈现时间上的一致性,那么可能是由于新的产品策略带来的影响。
4 异动指标分析—合成指标分析(广告ctr<点击/曝光>、下单率<下单量/浏览量>...)
1. 数据校验
一是校验数据的准确性:校验数据的准确性需要检查数据获取的渠道,判断是否是由于SQL有误或是数据看板没有及时更新导致数据错误。
二是校验数据属于异常而不是正常波动:
① 从业务角度:可以拉长时间轴看观测日的数据是否存在明显的下降,可以一定程度上看出属于异常还是波动;
② 从统计学角度:可以对一定周期的数据取分位数,工作中更多认为数据应该在95分位数或90分位数之内,若超出了这个范围,数据大概率处于异常情况。
若发现数据准确且属于异常之后才需要进行后续的维度拆解与分析。
2. 维度拆解(以ctr下降为例)
①点击下降,曝光增加
②点击下降,曝光不变
③点击不变,曝光增加
④曝光和点击同时增加,但曝光增加的幅度大
⑤曝光和点击同时下降,但点击下降的幅度大
分析如下:
①②③可以归为一个原因:点击下降,此时需要关注按钮设计是否有问题,如点击按钮是否出现bug等这些产品本身的问题。
④两个同时增加其实是好的情况,说明广告本身是有吸引力的,只是吸引力还不够;
⑤属于一个比较严重的问题,曝光和点击同时下降,这时候需要格外关注是不是广告投放的不够精准,需要更深层次地拆分人群,定位出现问题的人群(即单一指标的用户维度),从而针对特定的人群用特定的广告方案,来提高整体的ctr。
参数估计
参数估计、点估计和区间统计的概念
- 参数估计:用样本统计量去估计总体的参数。比如,用样本均值去估计总体均值,用样本方差去估计总体方差。
- 点估计:用样本统计量的某个取值,直接作为总体参数的估计值。
- 区间估计:在点估计的基础之上,给出总体参数估计值的一个区间范围,该区间通常由样本统计量加减估计误差得到。
点估计有点简单粗暴,容易受到随机抽样的影响,很难保证结果的准确性。但是,点估计也不是一无是处,样本值是来自总体的一个抽样,在一定程度上还是可以反映出总体的一部分特征。同时,样本容量越接近总体容量,点估计值也会越准确。
中心极限定理的概念
设从均值为μ,方差为σ²的任意一个总体中,抽取样本量为n的样本。当n充分大的时候,样本均值X拔近似服从均值为μ,方差为σ²/n的正态分布。
由中心极限定理得出的几个结论
- 不管进行多少次抽样,每次抽样都会得到一个均值。当每次抽取的样本容量n足够大时,样本均值总会围绕总体均值附近,呈现正态分布。
- 当样本容量n足够大时,样本均值构成正态分布,样本均值近似等于总体均值μ,而样本方差等于总体方差σ²除以n,即σ²/n。
- 样本均值分布的标准差,我们称之为标准误差,简称“标准误”。
什么是小概率事件?
- “小概率事件”指的就是在一次随机试验中,几乎不可能发生。
置信水平1-α的解释
对总体样本进行反复抽样(每次抽取到的样本容量都为n),那么每个样本均值都会确定一个区间(a,b),每个这样的区间要么包含总体参数,要么不包含总体参数,不能说成“以多大的概率包含总体的参数”。其中包含总体参数的区间有1-α个,而只有α个区间不包含总体参数,如下图所示(红色表示该样本构成的区间估计不包含总体参数,白色表示该样本构成的区间估计包含总体参数)。
用一个详细的案例说明:如果对总体返回抽样10000次,每次抽样的样本量都是n,每个样本都会得到一个区间估计,那么10000次抽样,就会得到10000个区间。当置信水平1-α=95%时,那么就表示10000个区间中包含总体参数的有9500个抽样样本,只有500个样本不包含总体参数,这个不包含总体参数的样本就相当于我们估计错误。这个概率只有5%。这个5%在统计学中,就叫做小概率事件,也就是说在一次随机试验中,这个小概率事件不可能发生。
即:当我们随机抽取一个样本容量为n的抽样样本,并且利用这个样本构造总体参数的置信区间,当指定了置信水平1-α=95%时,那么这个样本,基本就可以认为是包含了总体参数,也就是说,总体参数就在这个置信区间内。
假设检验的概念
假设检验,也称为显著性检验,指通过样本的统计量,来判断与总体参数之间是否存在差异(差异是否显著)。我们事先对总体参数进行一定的假设,然后通过收集到的数据,来验证我们之前作出的假设(总体参数)是否合理。
在假设检验中,我们会建立两个完全对立的假设,分别为原假设H0与备择假设H1。然后根据样本信息进行分析判断,是选择接受原假设,还是拒绝原假设(接受备择假设)。假设检验基于“反证法”。首先,我们会假设原假设为真,如果在此基础上,得出了违反逻辑与常理的结论,则表明原假设是错误的,我们就接受备择假设。否则,我们就没有充分的理由推翻原假设,此时我们选择去接受原假设。
假设检验的理论依据(小概率事件)
在假设检验中,违反逻辑与常规的结论,就是小概奉事件。我们认为,小概率事件在一次试验中是不会发生的。我们首先认为原假设为真,如果在此基础上,小概率事件发生,则我们就拒绝原假设,否则,我们就选择去接受原假设。
假设检验遵循“疑罪从无”的原则,接受原假设,并不代表原假设一定是正确的,只是我们没有充分的证据,去证明原假设是错误的,因此只能维持原假设。那么,假设检验中的小概率事件是怎么得出的呢?想想之前讲到的置信区间,是不是一切都验然开朗了?
“疑罪从无”很形象的说明的假设检验向我们传达的含义。也就是说,当我们没有充分的理由拒绝原假设,就必须接受原假设,即使原假设是错误的,但是你找不到证据证明原假设是错误的,你就只能认为原假设是对的。反之,经过一次随机试验,你如果找到了某个理由拒绝了原假设,那么原假设肯定就是错误的,这个是一定的。
P-Value值与显著性水平
假设检验,用来检验样本的统计量与总体参数,是否存在显著性差异。那么如何才算显著呢?我们就可以计算一个概率值(P-Value),该概率值可以认为就是支持原假设的概率,因为在假设检验中,通常原假设为等值假设,因此,P-Value也就表示样本统计量与总体参数无差异的概率。然后,我们再设定一个阈值,这个阈值叫做“显著性水平 ” (使用α表示),通常α的取值为0.05(1-α叫做置信度)。当P-Value的值大于α时,接受原假设。当P-Value的值小于α时,拒绝原假设。简单记为:p值越小越拒绝原假设。软件中一般都会展示这个p值,那里的p值,指的就是我们这里所叙述的p值。
假设检验和参数估计是推断统计的两个组成部分,都是利用样本对总体进行某种推断,但是两者进行推断的角度不同。参数估计讨论的是用样本统计量估计总体参数的一种方法,总体参数在估计前是未知的。而假设检验,则是对总体参数先提出一个假设,然后用样本信息去检验这个假设是否成立。
假设检验的步骤
- ① 根据实际问题的要求,提出原假设和备择假设。
- ② 给出显著性水平α以及样本容量n。
- ③ 确定检验统计量和拒绝域。
- ④ 计算出检验统计量的值,并作出决策。
单个正态总体均值的假设检验法(Z检验:方差已知)
Z检验用来判断样本均值是否与总体均值具有显著性差异。Z检验是通过正态分布的理论来推断差异发生的概率,从而比较两个均值的差异是否显著。Z检验适用于:
- 总体呈正态分布。
- 总体方差已知。
- 样本容量较大。
单个正态总体均值的假设检验法(t检验:方差未知)
t检验,与Z检验类似,用来判断样本均值是否与总体均值具有显替性差异。不过,t检验是基于t分布的。检验适用于:
- 总体呈正态分布。
- 总体方差未知。
- 样本容量较小。