自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

走过冬季

Stay focused and work hard.

  • 博客(263)
  • 资源 (3)
  • 收藏
  • 关注

原创 什么是RFM模型

三个黄金维度,高效地将母婴用户划分为不同价值等级(如 VIP、需挽留、潜力用户等),为后续的精准营销(如 VIP 专属服务、流失用户召回、潜力用户转化)提供了最基础也是最关键的决策依据。在面试中阐述清楚 RFM 的原理、应用过程和你的优化点,会是非常有力的加分项。RFM 模型是客户价值分析中一种经典且实用的量化模型,它通过三个关键维度评估用户价值,帮助企业识别最有价值的客户群体。RFM 模型是你简历中“用户价值分层模型构建”职责的核心工具。(注:↑表示得分高/值优,↓表示得分低/值差)

2025-07-07 14:51:18 343

原创 数字营销中衡量广告效果的核心指标

将广告平台数据(如CTR/CPC)与业务数据(如复购率/ROAS)打通,结合归因模型评估真实贡献。尤其在零售媒体中,遵循IAB/MRC标准可避免“数据黑箱”,实现跨平台对比。用好这些指标的关键在于。

2025-07-03 16:18:35 581

原创 数据分析常用指标名词解释及计算公式

类别指标名称 (英文缩写)核心解释基本计算公式流量规模页面浏览量 (PV)页面被加载的总次数∑(页面加载次数)独立访客数 (UV)不同用户的数量访问/会话次数 (Visit/Session)用户连续互动的次数∑(新会话次数)日/周/月活跃用户 (DAU/WAU/MAU)特定时间段内有互动的用户数Count(DISTINCT 活跃用户标识)用户行为人均页面浏览量 (Pages/Visit)每次访问平均浏览页面数总PV / 总访问次数平均访问时长每次访问平均停留时间。

2025-07-03 14:57:02 846

原创 07 | 查询最近一笔有效订单

目标:为每个用户查询最近一笔有效订单(非取消状态且最近完成)。核心需求排除(取消状态)的订单返回每个用户最近一笔成功订单的详细信息无有效订单时返回NULL业务场景:电商订单追溯、风控系统交易校验、用户行为分析。

2025-06-30 17:17:53 597

原创 06 | 使用共同IP地址问题

目标:识别共同使用过3个及以上相同IP地址的用户对,用于检测潜在的黑产团伙或账号共享行为。核心需求找出共享至少3个相同IP地址的用户对统计共享的IP数量列出共享的具体IP地址业务场景金融风控:识别养号团伙社交平台:检测账号买卖行为游戏反作弊:打击工作室多开企业安全:监控异常账号关联。

2025-06-27 17:03:21 26

原创 Hive SQL执行流程详解

在 Apache Hive 中,一条 SQL 查询(HiveQL)的执行会经过多个步骤,涉及。

2025-06-27 15:41:36 540

原创 大数据面试真题_W

2025-06-26 17:35:02 273

原创 大数据面试真题_T

2025-06-26 17:33:54 140

原创 大数据面试真题_P

2025-06-26 17:32:36 239

原创 大数据面试真题_M

实时任务一旦延迟该怎么快速解决延迟,如何确保数据不重复,不丢数据,如何知道延迟。数据治理该怎么治理,比如模型治理,运行效率,和任务合理性以及跨层很多问题。kafka分区和写入该怎么设计,怎么能确保下游消费数据不延迟,不丢数据。对于olap引擎知道哪一些,哪个更好,后续推荐用哪一款来批流一体。flink任务优化可以从哪些方面入手,对于效率问题该怎么操作。离线数仓怎么确保任务及时性,任务产生了dqc告警怎么解决。干的数据开发技术组件和模型以及数据治理说一下。实时数仓如何做到指标实时,并且数据不会算错,

2025-06-26 17:31:28 312

原创 Hive中map、reduce数量如何调整

当某些 Key 的数据量超过阈值时,Hive 会启动额外的 Reduce 任务处理倾斜数据。由不同的策略和参数共同决定,直接影响作业的并行度和性能。:一个 1GB 的未压缩文本文件,

2025-06-26 16:55:52 957

原创 Hive优化方案与实践总结

了解数据规模、分布、倾斜情况、访问模式是优化的基础。ANALYZE收集统计信息至关重要。分区和分桶是最基础也是最高效的优化手段。ORC/Parquet 列式存储 + 压缩是标配。从源头和运维两端入手。牢记列剪裁、谓词下推、分区剪裁。优先使用 Map Join / SMB Join。避免笛卡尔积和低效的DISTINCT。根据集群规模、数据量、任务特点调整 Map/Reduce 数量、内存、并行度、Join 相关参数。从 MapReduce 迁移到 Tez 或 Spark 通常能获得显著性能提升。

2025-06-26 15:27:16 928

原创 Hive 支持的核心开窗函数分类及常用函数

熟练掌握可高效实现复杂业务逻辑(如排名、滑动平均、趋势分析),避免冗长的多步子查询!在 Hive 中,开窗函数(Window Functions)允许在数据集的。上执行计算,同时保留原始行明细。定义窗口范围是开窗函数的核心,通过。在窗口内执行标准聚合操作,但。

2025-06-26 14:43:24 353

原创 大数据面试真题_L

一面二面

2025-06-25 17:40:21 279

原创 大数据面试真题_K

2025-06-25 17:39:16 145

原创 大数据面试真题_J

九章数据那边暂时能想起来的就这么几个点,反正就是看你的简历下菜 ,一直给你需求,还有很多需求想不起来了,就一直问你需求怎么实现 看你的随机应变能力了。

2025-06-25 17:38:25 417

原创 大数据面试真题_F

2025-06-25 17:36:57 184

原创 大数据面试真题_C

问的离线,实时没问。

2025-06-25 17:36:00 192

原创 大数据面试真题_A

招全栈,需要会java,大数据两个技术面试官。

2025-06-25 17:34:34 372

原创 大数据面试真题_S

没有问业务。

2025-06-25 17:12:23 464

原创 大数据面试真题_Y

总结:面试官知识面是真全面....我吹得也很全面,因为是电话面,边面边看资料,整体还好。

2025-06-25 17:09:29 301

原创 大数据面试真题_Z

中软国际(华为外包)

2025-06-25 16:52:55 462

原创 大数据面试真题_H

这家公司做的银行的项目,只做离线。

2025-06-25 16:47:45 270

原创 大数据面试真题_B

一面一面离线实时

2025-06-25 16:37:51 379

原创 大数据面试真题_D

技术一面(20min)HR二面(约15min) 风格比较刨根问底一面一面

2025-06-25 16:30:49 87

原创 【数据仓库】核心概念(二)

在划分数据域时,既能涵盖当前所有的业务需求,又能让新业务在进入时可以被包含进已有的数据域或扩展新的数据域。主要完成数据加工与整合,建立一致性的维度,构建可复用的面向分析和统计的明细事实表,以及汇总公共粒度的指标。数据仓库一般分为三层,自下而上为:数据接入层(ODS,Operation Data Store)、数据公共层(CDM,Common Data Model)和数据应用层(ADS,Application Data Service)。进而,可以进行跨源的主题域合并,跨源梳理出整个企业的数据域。

2025-06-25 14:55:39 1057

原创 【数据仓库】核心概念(一)

在维度建模中,将度量称为事实,将环境描述为维度。度量通常为数值型数据。例如店铺每个月的销售额、库存情况,访客情况就是度量。维度是用于分析事实所需要的多样环境。例如,在分析交易过程中,可以通过买家、卖家、商品和时间等维度来描述交易发生的环境。事实表: 像一本流水账或动词。它记录发生了什么(销售、点击、访问)以及发生的程度(数量、金额)。核心是“数字”。维度表: 像一本字典或形容词/名词。它提供描述谁做的、对什么做的、什么时候做的、在哪里做的等背景信息。核心是“描述”。

2025-06-25 14:21:31 290

原创 专栏地图索引

2025-06-25 12:19:27 131

原创 05 | 相互关注问题

目标:在社交网络数据中识别相互关注(互粉)的用户对,即用户A关注了用户B,同时用户B也关注了用户A核心需求识别双向关注关系(互粉)排除单向关注关系统计互粉用户对数量应用场景社交网络好友推荐系统(如微博、抖音)社区关键用户识别(KOL发现)社交关系强度分析虚假关注检测高频考点海量数据处理:如何优化10亿+关注关系的互粉查询?动态互粉检测:如何实时更新互粉状态?虚假关注识别:如何检测异常互粉模式?避坑指南空值处理:使用COALESCE处理可能的NULL值数据倾斜。

2025-06-24 14:49:54 34

原创 04 | 用户行为轨迹分析

目标:分析用户在应用内的连续行为序列(如页面浏览、功能点击),识别特定行为路径模式(如“A→B→C”)。核心需求相邻行为验证:统计完成相邻动作的用户(如签到后立刻抽奖)。非连续路径匹配:识别行为序列中存在中间步骤的路径(如A→任意页面→B→非C页面→D)。应用场景漏斗转化分析(如购物车→支付流程)用户流失点定位(如注册后未完成新手引导)运营活动效果追踪(如优惠券领取→使用路径)核心方法对比方法适用场景时间复杂度优势窗口函数(LEAD)相邻行为验证O(n log n)代码简洁。

2025-06-24 14:28:09 136

原创 03 | 直播间最大在线人数

目标:统计每个直播间在任意时刻的最大同时在线人数。数据特征用户进入直播间时记录,离开时记录。同一用户可能多次进出同一直播间(需独立计算)。应用场景:直播流量监控、服务器资源分配、主播绩效评估。核心方法UNION ALL合并事件 +累积计算是最高效的解法。面试陷阱事件同时性处理;用户快速进出时的去重逻辑(样例数据中user_id=100在直播间1进出两次)。真题参考:字节跳动、阿里等大厂高频考题,扩展问题常涉及“实时在线人数曲线”。

2025-06-24 14:21:09 262

原创 02 | 波峰波谷问题

目标:从股票每日收盘价中识别价格波峰(Peak)和波谷(Trough)的日期及价格。定义波峰:当日价格严格高于前一天且高于后一天。波谷:当日价格严格低于前一天且低于后一天。核心方法LAG()LEAD()窗口函数是波峰波谷问题的标准解法,避免自连接的低效操作。lag()函数:LAG(col, n, DEFAULT) 用于统计窗口内往上第 n 行。参数 1 为列名,参数 2 为往上第 n 行(可选,默认为1),参数 3 为默认值(当往上第 n 行为 NULL 时,取默认值,如不指定,则为NULL)

2025-06-24 14:17:35 530

原创 01 | SQL统计连续问题

在SQL中,连续问题是一类比较常见的数据处理需求,核心是识别序列中连续出现的记录。如等场景都属于同类问题。

2025-06-24 14:12:33 175

原创 00 | 写在前面

你好,如果你正在学习数据仓库、数据分析,或者正在准备这类岗位的面试,可能遇到过:题目太多不知从哪开始,或者理解概念但遇到实际问题还是不会解。这份专栏就是帮助你解决这类困难,。

2025-06-24 14:03:54 112

原创 MySQL LAG和LEAD函数用法详解

在 MySQL 中,LAG()和LEAD()是窗口函数(Window Functions),用于。它们常用于计算差值、趋势分析或时间序列比较。

2025-06-23 11:29:24 473

原创 SQL在线平台推荐

快速测试/分享→ 选SQL Fiddle或db<>fiddle团队协作→ 用DB FiddleOracle专项→系统学习+练习→SQLZoo或LeetCode部分工具(如DbSchema、SQLPrompt)虽强大但需安装,未列入纯在线平台。若需高级功能(如可视化建模),可参考Guru99 的评测列表。

2025-06-20 12:08:06 654

原创 Spark比Hive快的原因分析

Hive on MapReduce 的磁盘密集型多阶段模型是其性能的主要限制。Spark 比 Hive 快的主要原因在于其。Spark 的核心优势在于。

2025-06-19 17:01:43 379

原创 JVM垃圾回收器及策略详解

垃圾回收器目标年轻代算法老年代算法线程模式主要特点/适用场景STW 时间碎片JDK 状态Serial单核简单标记-复制 (单)标记-整理 (单)单线程 STW客户端模式, 资源受限长无可用高吞吐量标记-复制 (并)标记-整理 (并)多线程并行 STW后台计算, 批处理, JDK8 默认中等无可用, JDK8 默认ParNew配合CMS年轻代标记-复制 (并)需搭配 CMS多线程并行 STWCMS 的年轻代搭档年轻代短废弃 (JDK9+)CMS。

2025-06-19 16:11:03 602

原创 MySQL主键与唯一索引区别总结

主键 = 唯一 + 非空 + 聚簇索引(InnoDB)+ 表级唯一标识;唯一索引 = 唯一约束 + 允许NULL + 普通索引结构。(InnoDB),决定数据物理存储顺序;唯一索引是非聚簇索引,仅保证数据唯一性。定义主键时自动创建同名唯一索引;唯一索引:强制唯一但。唯一索引需显式创建。

2025-06-19 15:29:05 279

原创 一条SQL查询语句是如何执行的

一条 SQL 查询语句的执行是一个复杂的过程,涉及数据库管理系统的多个核心组件协同工作。以 MySQL(使用 InnoDB 存储引擎)为例,其核心流程大致可分为以下几个阶段:核心步骤分解:连接管理 (连接器)解析与验证 (解析器)查询优化 (优化器)执行阶段 (执行器 + 存储引擎)结果返回关键点总结:一个简单的 SELECT 例子:连接器验证你的连接权限。解析器检查语法,生成解析树。优化器看到 :发现 列有主键索引(或唯一索引)。决定使用该索引进行快速查找(成本最低)。生成计划:。

2025-06-19 14:38:24 757

MySQL官方测试数据集 test-db-master.zip

MySQL官方测试数据集 test_db-master.zip MySQL官方测试数据集 test_db-master.zip MySQL官方测试数据集 test_db-master.zip

2025-06-13

数据结构与算法面试合集

1)近百道常见数据结构与算法面试真题 2)附带详细解读答案

2025-05-28

Spark性能优化指南

Spark性能优化指南

2018-04-25

Spark高级数据分析(清晰文字版)

Spark高级数据分析(清晰文字版) Spark高级数据分析(清晰文字版)

2018-04-25

Spark快速大数据分析(清晰文字版)

第 1 章 Spark 数据分析导论 ..........................................................................................................1 1.1 Spark 是什么...............................................................................................................................1 1.2 一个大一统的软件栈.................................................................................................................2 1.2.1 Spark Core ......................................................................................................................2 1.2.2 Spark SQL.......................................................................................................................3 1.2.3 Spark Streaming ..............................................................................................................3 1.2.4 MLlib ..............................................................................................................................3 1.2.5 GraphX............................................................................................................................3 1.2.6 集群管理器 ....................................................................................................................4 1.3 Spark 的用户和用途...................................................................................................................4 1.3.1 数据科学任务 ................................................................................................................4 1.3.2 数据处理应用 ................................................................................................................5 1.4 Spark 简史...................................................................................................................................5 1.5 Spark 的版本和发布...................................................................................................................6 1.6 Spark 的存储层次.......................................................................................................................6

2018-04-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除