【面试】数分面经整理

1 如果抖音增加内容付费功能(付费查看内容),如何在该功能上线前评估该功能是否应该上线?

        1. 先做ABtest,通过小流量实验看看该功能是否有显著收益(平台收入、核心指标的变化)

        ABtest流程:

        a. 确认abtest的目的:为了提升收入,假设原来人均内容付费3rmb,现在希望通过该功能上线达到人均付费3.5rmb;

        b. 流量分配

        要确保实验组对照组用户量,用户特征较相同(均衡分配);

        确定实验所需样本量,通过公式计算;样本量太大,可能导致流量浪费;样本量太小,可能导致结论不显著;

        c.实验结果

        分别看一下实验组/对照组的相关核心指标变化情况,不单单收入指标,同时要注意一些核心指标(如留存率、人均时长等),对比两组;

        通过假设检验看一下是否存在显著性差异;

        这里假设检验可以以用户为维度,以用户为单位计算均值、方差,并计算出相关的z检验统计量,根据p值判断是否显著;

        也可以以天为维度,计算每天的均值、方差,样本量小于30,用t检验较好;

        如果看到实验组中,核心指标无明显变好,且人均收入确实有显著性上涨,则认为该功能改动是合理有效的,可以上线;如果核心指标有一定下降,或人均收入无显著性上涨,则认为该功能改动是无意义的。

        2. 如何在功能上线后评估该功能的效果?

        这里需要长期的反转实验监控相关指标情况。

        看一下主要的核心指标变化情况及显著性。

                收益:人均收入、arpu等

                成本:留存率、人均时长等

        尽量确保成本对应的相关指标没有显著性下降,同时提升了收入。

        3. 该功能上线可能会存在哪些风险?

        对用户:可能造成用户对产品的喜爱度下降,现在部分内容需要付费才能查看;影响用户的其他相关指标,留存、时长、互动、内容发布等;

        对平台:可能造成对外的一些负面影响,媒体上可能会广泛传播抖音付费的情况,造成品牌名誉度下降;

        对公司:短期可能确实可以帮助公司提升盈利收入,但长期看来,该策略会影响用户的积极性,起码广告类收入可能降低,长期不一定有好的效果。

        还需要长期的反转实验进行收益监控。

2 怎么建立抖音APP的指标体系?

  • 运用增长黑客模型AARRR建立指标体系

        63e3509af8168f447a524fcc2d06773c.png

        1. 用户获取

        首先用户获取,主要拆分维度是不同渠道,看一下哪个渠道效果好:获得的用户价值、花费、渠道转化率;

        获客价值:新用户注册数、新用户1日/7日留存率、新用户1日、7日消费/发帖/互动情况;

        获客花费:CPM、CPC单次点击计费、CPA单次数获客花费;

        渠道转化率:下载总量/该渠道曝光总量。

ee1d1c177ef6e31f5311202375cbc2e5.jpeg

        2. 活跃(Activation)

        活跃用户数:DAU、MAU、DAU/MAU(反映用户活跃度,Facebook带火的指标)

        消费者测-时长:分不同Tap场景的在线时长(发现页、直播页、附近等);用户单日APP听力路总时长;

        消费者测-互动:点赞渗透、评论渗透、私聊渗透、千次曝光点赞、千次曝光评论、uv、pv、完播率;

        创作者测-发布:发布渗透、当日发布曝光量;

        3. 留存(Retention)

        活跃用户/新增用户,留存率1日、7日、30日;

        流失率:统计周期内登录APP,下一周期未登录用户的占比;

        4. 转化(Revenue)

        拆分不同场景(直播、小视频、小游戏等),去看对应的付费用户数、付费率、arpu(人均收入)

        5. 传播(Referral)

        邀请率、邀请接受率、K因子 = 邀请率*邀请接受率

3 异动指标分析—单一指标分析(DAU、订单量、销售额...)

        1. 数据校验

        一是校验数据的准确性:校验数据的准确性需要检查数据获取的渠道,判断是否是由于SQL有误或是数据看板没有及时更新导致数据错误。

        二是校验数据属于异常而不是正常波动

        ① 从业务角度:可以拉长时间轴看观测日的数据是否存在明显的下降,可以一定程度上看出属于异常还是波动;

        ② 从统计学角度:可以对一定周期的数据取分位数,工作中更多认为数据应该在95分位数或90分位数之内,若超出了这个范围,数据大概率处于异常情况。

        若发现数据准确且属于异常之后才需要进行后续的维度拆解与分析。

        2. 维度拆解

        ① 用户维度:新/老、用户角色(学生、教师等)、性别、年龄等;

        由于用户本身不会主动产生某种行为,因此发生在用户维度上的拆解一般用于用户定位和人群圈选,通过数据判断是否存在某个群体发生异常,而不是直接从给用户身上找原因。

        ② 产品维度:新老版本迭代、新系统上线等;

        互联网产品一直都在快速迭代,新版本上线时也是bug高发期,所以如果数据异常与产品上线呈现时间上的高度一致性,那么大概率是版本上线出了问题。

        ③ 运营维度:是都有相关运营活动;

        对于互联网用户而言,运营活动大多是烧钱买用户或者烧钱引流,在活动期间必然会吸引更多用户或者刺激用户提前消费,该时期的数据也会呈现良好的上涨趋势,但是活动之后,没了刺激和奖励,数据必然会呈现下降趋势。

        ④ 竞品动作:竞品是否有动作

        由于市场上的用户是有限的,若竞品开展较大力度的活动,必然会对自己的产品造成一定的影响。比如,假设注册一个抖音给你20块钱,注册一个快手没有任何收入,那么大多数人会选择注册抖音。

        ⑤ 其他维度

        环境因素:例如河南郑州暴雨导致快递无法送达该地区,造成该地区的下单量和成交量下降。

        产品策略调整:短视频类和电商商品类用户很容易受到产品策略本身的影响,因此如果观测指标和产品策略调整呈现时间上的一致性,那么可能是由于新的产品策略带来的影响。

4 异动指标分析—合成指标分析(广告ctr<点击/曝光>、下单率<下单量/浏览量>...)

        1. 数据校验

        一是校验数据的准确性:校验数据的准确性需要检查数据获取的渠道,判断是否是由于SQL有误或是数据看板没有及时更新导致数据错误。

        二是校验数据属于异常而不是正常波动

        ① 从业务角度:可以拉长时间轴看观测日的数据是否存在明显的下降,可以一定程度上看出属于异常还是波动;

        ② 从统计学角度:可以对一定周期的数据取分位数,工作中更多认为数据应该在95分位数或90分位数之内,若超出了这个范围,数据大概率处于异常情况。

        若发现数据准确且属于异常之后才需要进行后续的维度拆解与分析。

        2. 维度拆解(以ctr下降为例)

        ①点击下降,曝光增加

        ②点击下降,曝光不变

        ③点击不变,曝光增加

        ④曝光和点击同时增加,但曝光增加的幅度大

        ⑤曝光和点击同时下降,但点击下降的幅度大

        分析如下:

        ①②③可以归为一个原因:点击下降,此时需要关注按钮设计是否有问题,如点击按钮是否出现bug等这些产品本身的问题。

        ④两个同时增加其实是好的情况,说明广告本身是有吸引力的,只是吸引力还不够;

        ⑤属于一个比较严重的问题,曝光和点击同时下降,这时候需要格外关注是不是广告投放的不够精准,需要更深层次地拆分人群,定位出现问题的人群(即单一指标的用户维度),从而针对特定的人群用特定的广告方案,来提高整体的ctr。

参数估计

参数估计、点估计和区间统计的概念

  • 参数估计:用样本统计量去估计总体的参数。比如,用样本均值去估计总体均值,用样本方差去估计总体方差。
  • 点估计:用样本统计量的某个取值,直接作为总体参数的估计值。
  • 区间估计:在点估计的基础之上,给出总体参数估计值的一个区间范围,该区间通常由样本统计量加减估计误差得到。

        点估计有点简单粗暴,容易受到随机抽样的影响,很难保证结果的准确性。但是,点估计也不是一无是处,样本值是来自总体的一个抽样,在一定程度上还是可以反映出总体的一部分特征。同时,样本容量越接近总体容量,点估计值也会越准确。

中心极限定理的概念

  设从均值为μ,方差为σ²的任意一个总体中,抽取样本量为n的样本。当n充分大的时候,样本均值X拔近似服从均值为μ,方差为σ²/n的正态分布。

由中心极限定理得出的几个结论

  • 不管进行多少次抽样,每次抽样都会得到一个均值。当每次抽取的样本容量n足够大时,样本均值总会围绕总体均值附近,呈现正态分布。
  • 当样本容量n足够大时,样本均值构成正态分布,样本均值近似等于总体均值μ,而样本方差等于总体方差σ²除以n,即σ²/n。
  • 样本均值分布的标准差,我们称之为标准误差,简称“标准误”。

什么是小概率事件?

  • “小概率事件”指的就是在一次随机试验中,几乎不可能发生。

置信水平1-α的解释

  对总体样本进行反复抽样(每次抽取到的样本容量都为n),那么每个样本均值都会确定一个区间(a,b),每个这样的区间要么包含总体参数,要么不包含总体参数,不能说成“以多大的概率包含总体的参数”。其中包含总体参数的区间有1-α个,而只有α个区间不包含总体参数,如下图所示(红色表示该样本构成的区间估计不包含总体参数,白色表示该样本构成的区间估计包含总体参数)。
  用一个详细的案例说明:如果对总体返回抽样10000次,每次抽样的样本量都是n,每个样本都会得到一个区间估计,那么10000次抽样,就会得到10000个区间。当置信水平1-α=95%时,那么就表示10000个区间中包含总体参数的有9500个抽样样本,只有500个样本不包含总体参数,这个不包含总体参数的样本就相当于我们估计错误。这个概率只有5%。这个5%在统计学中,就叫做小概率事件,也就是说在一次随机试验中,这个小概率事件不可能发生。
  即:当我们随机抽取一个样本容量为n的抽样样本,并且利用这个样本构造总体参数的置信区间,当指定了置信水平1-α=95%时,那么这个样本,基本就可以认为是包含了总体参数,也就是说,总体参数就在这个置信区间内。

假设检验的概念

  假设检验,也称为显著性检验,指通过样本的统计量,来判断与总体参数之间是否存在差异(差异是否显著)。我们事先对总体参数进行一定的假设,然后通过收集到的数据,来验证我们之前作出的假设(总体参数)是否合理。
  在假设检验中,我们会建立两个完全对立的假设,分别为原假设H0与备择假设H1。然后根据样本信息进行分析判断,是选择接受原假设,还是拒绝原假设(接受备择假设)。假设检验基于“反证法”。首先,我们会假设原假设为真,如果在此基础上,得出了违反逻辑与常理的结论,则表明原假设是错误的,我们就接受备择假设。否则,我们就没有充分的理由推翻原假设,此时我们选择去接受原假设。

假设检验的理论依据(小概率事件)

  在假设检验中,违反逻辑与常规的结论,就是小概奉事件。我们认为,小概率事件在一次试验中是不会发生的。我们首先认为原假设为真,如果在此基础上,小概率事件发生,则我们就拒绝原假设,否则,我们就选择去接受原假设。
  假设检验遵循“疑罪从无”的原则,接受原假设,并不代表原假设一定是正确的,只是我们没有充分的证据,去证明原假设是错误的,因此只能维持原假设。那么,假设检验中的小概率事件是怎么得出的呢?想想之前讲到的置信区间,是不是一切都验然开朗了?
  “疑罪从无”很形象的说明的假设检验向我们传达的含义。也就是说,当我们没有充分的理由拒绝原假设,就必须接受原假设,即使原假设是错误的,但是你找不到证据证明原假设是错误的,你就只能认为原假设是对的。反之,经过一次随机试验,你如果找到了某个理由拒绝了原假设,那么原假设肯定就是错误的,这个是一定的。

P-Value值与显著性水平

  假设检验,用来检验样本的统计量与总体参数,是否存在显著性差异。那么如何才算显著呢?我们就可以计算一个概率值(P-Value),该概率值可以认为就是支持原假设的概率,因为在假设检验中,通常原假设为等值假设,因此,P-Value也就表示样本统计量与总体参数无差异的概率。然后,我们再设定一个阈值,这个阈值叫做“显著性水平 ” (使用α表示),通常α的取值为0.05(1-α叫做置信度)。当P-Value的值大于α时,接受原假设。当P-Value的值小于α时,拒绝原假设。简单记为:p值越小越拒绝原假设。软件中一般都会展示这个p值,那里的p值,指的就是我们这里所叙述的p值。
  假设检验和参数估计是推断统计的两个组成部分,都是利用样本对总体进行某种推断,但是两者进行推断的角度不同。参数估计讨论的是用样本统计量估计总体参数的一种方法,总体参数在估计前是未知的。而假设检验,则是对总体参数先提出一个假设,然后用样本信息去检验这个假设是否成立。

假设检验的步骤

  • ① 根据实际问题的要求,提出原假设和备择假设。
  • ② 给出显著性水平α以及样本容量n。
  • ③ 确定检验统计量和拒绝域。
  • ④ 计算出检验统计量的值,并作出决策。

单个正态总体均值的假设检验法(Z检验:方差已知)

  Z检验用来判断样本均值是否与总体均值具有显著性差异。Z检验是通过正态分布的理论来推断差异发生的概率,从而比较两个均值的差异是否显著。Z检验适用于:

  • 总体呈正态分布。
  • 总体方差已知。
  • 样本容量较大。

单个正态总体均值的假设检验法(t检验:方差未知)

  t检验,与Z检验类似,用来判断样本均值是否与总体均值具有显替性差异。不过,t检验是基于t分布的。检验适用于:

  • 总体呈正态分布。
  • 总体方差未知。
  • 样本容量较小。

5 逻辑回归

6 如何评价模型?(ROC曲线怎么画)

7 置信区间的计算方法?

8 样本量对置信区间的影响

9 p-value是否显著和置信区间的关系

10 假设检验、p值、显著性水平是什么?

11 就快手而言,如何分析在没有营销手段拉动的情况下,什么样的作者/作品类型/作品内容自然增长是具有快速增长增量的?找到这类内容后,如何观察他的受众生态?

12 怎么看短视频用户的消费?对短视频整个行业的理解?

13 快手和抖音在业务层面有什么不同?你觉得两个产品在内容上或消费上的感受有什么不同呢?

14 短视频产品最关注的三个指标?

15 如果今天短视频留存分用户都是上涨的,但是整体留存下降,是什么原因?

16 什么是辛普森悖论?

17 对内容生态的理解

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一只喵喵豚

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值