- 博客(263)
- 资源 (3)
- 收藏
- 关注
原创 什么是RFM模型
三个黄金维度,高效地将母婴用户划分为不同价值等级(如 VIP、需挽留、潜力用户等),为后续的精准营销(如 VIP 专属服务、流失用户召回、潜力用户转化)提供了最基础也是最关键的决策依据。在面试中阐述清楚 RFM 的原理、应用过程和你的优化点,会是非常有力的加分项。RFM 模型是客户价值分析中一种经典且实用的量化模型,它通过三个关键维度评估用户价值,帮助企业识别最有价值的客户群体。RFM 模型是你简历中“用户价值分层模型构建”职责的核心工具。(注:↑表示得分高/值优,↓表示得分低/值差)
2025-07-07 14:51:18
343
原创 数字营销中衡量广告效果的核心指标
将广告平台数据(如CTR/CPC)与业务数据(如复购率/ROAS)打通,结合归因模型评估真实贡献。尤其在零售媒体中,遵循IAB/MRC标准可避免“数据黑箱”,实现跨平台对比。用好这些指标的关键在于。
2025-07-03 16:18:35
581
原创 数据分析常用指标名词解释及计算公式
类别指标名称 (英文缩写)核心解释基本计算公式流量规模页面浏览量 (PV)页面被加载的总次数∑(页面加载次数)独立访客数 (UV)不同用户的数量访问/会话次数 (Visit/Session)用户连续互动的次数∑(新会话次数)日/周/月活跃用户 (DAU/WAU/MAU)特定时间段内有互动的用户数Count(DISTINCT 活跃用户标识)用户行为人均页面浏览量 (Pages/Visit)每次访问平均浏览页面数总PV / 总访问次数平均访问时长每次访问平均停留时间。
2025-07-03 14:57:02
846
原创 07 | 查询最近一笔有效订单
目标:为每个用户查询最近一笔有效订单(非取消状态且最近完成)。核心需求排除(取消状态)的订单返回每个用户最近一笔成功订单的详细信息无有效订单时返回NULL业务场景:电商订单追溯、风控系统交易校验、用户行为分析。
2025-06-30 17:17:53
597
原创 06 | 使用共同IP地址问题
目标:识别共同使用过3个及以上相同IP地址的用户对,用于检测潜在的黑产团伙或账号共享行为。核心需求找出共享至少3个相同IP地址的用户对统计共享的IP数量列出共享的具体IP地址业务场景金融风控:识别养号团伙社交平台:检测账号买卖行为游戏反作弊:打击工作室多开企业安全:监控异常账号关联。
2025-06-27 17:03:21
26
原创 大数据面试真题_M
实时任务一旦延迟该怎么快速解决延迟,如何确保数据不重复,不丢数据,如何知道延迟。数据治理该怎么治理,比如模型治理,运行效率,和任务合理性以及跨层很多问题。kafka分区和写入该怎么设计,怎么能确保下游消费数据不延迟,不丢数据。对于olap引擎知道哪一些,哪个更好,后续推荐用哪一款来批流一体。flink任务优化可以从哪些方面入手,对于效率问题该怎么操作。离线数仓怎么确保任务及时性,任务产生了dqc告警怎么解决。干的数据开发技术组件和模型以及数据治理说一下。实时数仓如何做到指标实时,并且数据不会算错,
2025-06-26 17:31:28
312
原创 Hive中map、reduce数量如何调整
当某些 Key 的数据量超过阈值时,Hive 会启动额外的 Reduce 任务处理倾斜数据。由不同的策略和参数共同决定,直接影响作业的并行度和性能。:一个 1GB 的未压缩文本文件,
2025-06-26 16:55:52
957
原创 Hive优化方案与实践总结
了解数据规模、分布、倾斜情况、访问模式是优化的基础。ANALYZE收集统计信息至关重要。分区和分桶是最基础也是最高效的优化手段。ORC/Parquet 列式存储 + 压缩是标配。从源头和运维两端入手。牢记列剪裁、谓词下推、分区剪裁。优先使用 Map Join / SMB Join。避免笛卡尔积和低效的DISTINCT。根据集群规模、数据量、任务特点调整 Map/Reduce 数量、内存、并行度、Join 相关参数。从 MapReduce 迁移到 Tez 或 Spark 通常能获得显著性能提升。
2025-06-26 15:27:16
928
原创 Hive 支持的核心开窗函数分类及常用函数
熟练掌握可高效实现复杂业务逻辑(如排名、滑动平均、趋势分析),避免冗长的多步子查询!在 Hive 中,开窗函数(Window Functions)允许在数据集的。上执行计算,同时保留原始行明细。定义窗口范围是开窗函数的核心,通过。在窗口内执行标准聚合操作,但。
2025-06-26 14:43:24
353
原创 大数据面试真题_J
九章数据那边暂时能想起来的就这么几个点,反正就是看你的简历下菜 ,一直给你需求,还有很多需求想不起来了,就一直问你需求怎么实现 看你的随机应变能力了。
2025-06-25 17:38:25
417
原创 【数据仓库】核心概念(二)
在划分数据域时,既能涵盖当前所有的业务需求,又能让新业务在进入时可以被包含进已有的数据域或扩展新的数据域。主要完成数据加工与整合,建立一致性的维度,构建可复用的面向分析和统计的明细事实表,以及汇总公共粒度的指标。数据仓库一般分为三层,自下而上为:数据接入层(ODS,Operation Data Store)、数据公共层(CDM,Common Data Model)和数据应用层(ADS,Application Data Service)。进而,可以进行跨源的主题域合并,跨源梳理出整个企业的数据域。
2025-06-25 14:55:39
1057
原创 【数据仓库】核心概念(一)
在维度建模中,将度量称为事实,将环境描述为维度。度量通常为数值型数据。例如店铺每个月的销售额、库存情况,访客情况就是度量。维度是用于分析事实所需要的多样环境。例如,在分析交易过程中,可以通过买家、卖家、商品和时间等维度来描述交易发生的环境。事实表: 像一本流水账或动词。它记录发生了什么(销售、点击、访问)以及发生的程度(数量、金额)。核心是“数字”。维度表: 像一本字典或形容词/名词。它提供描述谁做的、对什么做的、什么时候做的、在哪里做的等背景信息。核心是“描述”。
2025-06-25 14:21:31
290
原创 05 | 相互关注问题
目标:在社交网络数据中识别相互关注(互粉)的用户对,即用户A关注了用户B,同时用户B也关注了用户A核心需求识别双向关注关系(互粉)排除单向关注关系统计互粉用户对数量应用场景社交网络好友推荐系统(如微博、抖音)社区关键用户识别(KOL发现)社交关系强度分析虚假关注检测高频考点海量数据处理:如何优化10亿+关注关系的互粉查询?动态互粉检测:如何实时更新互粉状态?虚假关注识别:如何检测异常互粉模式?避坑指南空值处理:使用COALESCE处理可能的NULL值数据倾斜。
2025-06-24 14:49:54
34
原创 04 | 用户行为轨迹分析
目标:分析用户在应用内的连续行为序列(如页面浏览、功能点击),识别特定行为路径模式(如“A→B→C”)。核心需求相邻行为验证:统计完成相邻动作的用户(如签到后立刻抽奖)。非连续路径匹配:识别行为序列中存在中间步骤的路径(如A→任意页面→B→非C页面→D)。应用场景漏斗转化分析(如购物车→支付流程)用户流失点定位(如注册后未完成新手引导)运营活动效果追踪(如优惠券领取→使用路径)核心方法对比方法适用场景时间复杂度优势窗口函数(LEAD)相邻行为验证O(n log n)代码简洁。
2025-06-24 14:28:09
136
原创 03 | 直播间最大在线人数
目标:统计每个直播间在任意时刻的最大同时在线人数。数据特征用户进入直播间时记录,离开时记录。同一用户可能多次进出同一直播间(需独立计算)。应用场景:直播流量监控、服务器资源分配、主播绩效评估。核心方法UNION ALL合并事件 +累积计算是最高效的解法。面试陷阱事件同时性处理;用户快速进出时的去重逻辑(样例数据中user_id=100在直播间1进出两次)。真题参考:字节跳动、阿里等大厂高频考题,扩展问题常涉及“实时在线人数曲线”。
2025-06-24 14:21:09
262
原创 02 | 波峰波谷问题
目标:从股票每日收盘价中识别价格波峰(Peak)和波谷(Trough)的日期及价格。定义波峰:当日价格严格高于前一天且高于后一天。波谷:当日价格严格低于前一天且低于后一天。核心方法LAG()LEAD()窗口函数是波峰波谷问题的标准解法,避免自连接的低效操作。lag()函数:LAG(col, n, DEFAULT) 用于统计窗口内往上第 n 行。参数 1 为列名,参数 2 为往上第 n 行(可选,默认为1),参数 3 为默认值(当往上第 n 行为 NULL 时,取默认值,如不指定,则为NULL)
2025-06-24 14:17:35
530
原创 00 | 写在前面
你好,如果你正在学习数据仓库、数据分析,或者正在准备这类岗位的面试,可能遇到过:题目太多不知从哪开始,或者理解概念但遇到实际问题还是不会解。这份专栏就是帮助你解决这类困难,。
2025-06-24 14:03:54
112
原创 MySQL LAG和LEAD函数用法详解
在 MySQL 中,LAG()和LEAD()是窗口函数(Window Functions),用于。它们常用于计算差值、趋势分析或时间序列比较。
2025-06-23 11:29:24
473
原创 SQL在线平台推荐
快速测试/分享→ 选SQL Fiddle或db<>fiddle团队协作→ 用DB FiddleOracle专项→系统学习+练习→SQLZoo或LeetCode部分工具(如DbSchema、SQLPrompt)虽强大但需安装,未列入纯在线平台。若需高级功能(如可视化建模),可参考Guru99 的评测列表。
2025-06-20 12:08:06
654
原创 Spark比Hive快的原因分析
Hive on MapReduce 的磁盘密集型多阶段模型是其性能的主要限制。Spark 比 Hive 快的主要原因在于其。Spark 的核心优势在于。
2025-06-19 17:01:43
379
原创 JVM垃圾回收器及策略详解
垃圾回收器目标年轻代算法老年代算法线程模式主要特点/适用场景STW 时间碎片JDK 状态Serial单核简单标记-复制 (单)标记-整理 (单)单线程 STW客户端模式, 资源受限长无可用高吞吐量标记-复制 (并)标记-整理 (并)多线程并行 STW后台计算, 批处理, JDK8 默认中等无可用, JDK8 默认ParNew配合CMS年轻代标记-复制 (并)需搭配 CMS多线程并行 STWCMS 的年轻代搭档年轻代短废弃 (JDK9+)CMS。
2025-06-19 16:11:03
602
原创 MySQL主键与唯一索引区别总结
主键 = 唯一 + 非空 + 聚簇索引(InnoDB)+ 表级唯一标识;唯一索引 = 唯一约束 + 允许NULL + 普通索引结构。(InnoDB),决定数据物理存储顺序;唯一索引是非聚簇索引,仅保证数据唯一性。定义主键时自动创建同名唯一索引;唯一索引:强制唯一但。唯一索引需显式创建。
2025-06-19 15:29:05
279
原创 一条SQL查询语句是如何执行的
一条 SQL 查询语句的执行是一个复杂的过程,涉及数据库管理系统的多个核心组件协同工作。以 MySQL(使用 InnoDB 存储引擎)为例,其核心流程大致可分为以下几个阶段:核心步骤分解:连接管理 (连接器)解析与验证 (解析器)查询优化 (优化器)执行阶段 (执行器 + 存储引擎)结果返回关键点总结:一个简单的 SELECT 例子:连接器验证你的连接权限。解析器检查语法,生成解析树。优化器看到 :发现 列有主键索引(或唯一索引)。决定使用该索引进行快速查找(成本最低)。生成计划:。
2025-06-19 14:38:24
757
MySQL官方测试数据集 test-db-master.zip
2025-06-13
Spark快速大数据分析(清晰文字版)
2018-04-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人