自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

石榴姐yyds

数据开发与数据挖掘

  • 博客(745)
  • 资源 (43)
  • 收藏
  • 关注

原创 数仓高频面试题 Top 20(含参考答案)

📝 数据仓库面试精华摘要 基础篇核心点 分层架构:ODS→DWD→DWS→ADS→DIM,每层职责清晰(原始数据→明细→汇总→应用→维度)。 维度建模:星型模型(性能优)与雪花模型(存储省)的区别,事实表类型(事务/周期/累积快照)。 关键设计:缓慢变化维(SCD2常用拉链表)、数据血缘(故障排查与治理)、数据质量(完整性/一致性监控)。 进阶篇亮点 实时数仓:Flink+Kafka实现秒级处理,与离线(T+1)互补。 复用设计:DWS层按主题域聚合,保留原子指标支持灵活分析。 一致性保障:统一DWD层口

2025-08-01 10:00:00 1039

原创 面试提问:数据开发中如何通过指标拆解来指导SQL编写?(附拆解模板)

摘要:指标拆解是一种高效的数据分析方法,通过将复杂业务指标分解为可执行的原子指标,指导SQL查询的编写。核心步骤包括:明确指标定义、拆解原子指标、定位数据源、确定分组维度、构建中间表。文章提供了指标拆解模板和实际案例(如用户留存率计算),并总结了拆解带来的5大好处:逻辑清晰、易于调试、可复用、降低错误率、便于协作。最后强调"一定义、二拆解、三定位、四分步、五合并"的口诀,适用于数仓开发、BI报表等场景。

2025-07-31 10:00:00 23

原创 数仓新手开发如何撰写技术文档?

本文为数据仓库开发新手提供了一份简明技术方案写作指南。文章指出新手常遇到的三大痛点:不知从何下笔、术语难懂、文档要求高,并给出解决方案:聚焦"要做什么"、"怎么做"、"问题解决"和"时间规划"四个核心要素。指南包含7个模块:明确读者需求、数据需求梳理、简化架构设计、数据处理流程、技术选型建议、分阶段实施计划和风险预判,并附有可直接套用的模板。特别强调新手应避免追求复杂,而要用业务语言说明痛点,用SQL伪代码展示处理逻辑,提前识别

2025-07-31 09:00:00 22

原创 京东数据研发一面:用HiveSQL计算新用户近7日留存率(不允许使用JOIN)

本文分享了一种高效计算7日用户留存率的HiveSQL方法,通过集合函数替代传统JOIN操作。核心思路是将用户活跃日期聚合为数组,用array_contains判断留存状态,相比JOIN方式性能提升显著(百万级数据从12分钟降至1分钟)。方法要点包括:使用COLLECT_SET去重聚合活跃日期,通过date_add计算目标留存日,并兼容不同日期格式。该方案可灵活扩展至N日留存计算,体现了大数据处理中"用集合替代关联"的优化思维,为电商、外卖等业务场景的用户行为分析提供了高效解决方案。

2025-07-30 12:30:00 35

原创 JD物流运输面试SQL题:物流时效分析实战

本文基于HiveSQL,提出了一套完整的物流时效分析方案,用于计算三大核心指标:各线路平均运输时长、准时交付率和最常延误线路。方案采用CTE和窗口函数分层处理数据,通过一次表扫描完成多指标计算,保证了性能与准确性。SQL实现中详细解析了DATEDIFF函数计算运输时长、CASE WHEN判断准时订单以及DENSE_RANK进行延误排名的关键逻辑。示例数据执行结果显示,该方案能清晰识别高效线路(准时率100%)和问题线路(延误率100%),为物流优化提供数据支持。方案具有结构化查询、结果完整性强等特点,并可扩

2025-07-30 09:00:00 24

原创 AI时代:为什么我劝你从数仓工程师升级为提示词工程师?

《数据工程师向提示词工程师转型:AI时代的人机协同新范式》 摘要:随着生成式AI技术的快速发展,数据工程师正面临向提示词工程师转型的战略机遇。这一转型本质上是核心能力的延伸与升华:数据工程师凭借业务洞察力、逻辑思维和复杂问题拆解能力,成为连接业务需求与AI理解的关键"翻译官"。转型带来的价值跃迁体现在从代码编写转向意图架构,通过精准的提示词设计激活AI潜能,实现从个体产出到组织智能的升级。未来工作流将形成"需求翻译-AI执行-结果优化"的人机协同闭环,使数据工程师完成

2025-07-29 13:30:00 2006

原创 业务问:ChatBI和固定报表有什么区别、有什么业务价值?| ChatBI vs 固定报表

摘要:ChatBI与固定报表是企业数据应用的两种互补工具。固定报表提供标准化、预计算的数据展示,适合周期性监控和汇报,但灵活性较低;ChatBI通过自然语言交互实现动态数据分析,支持实时探索和个性化查询,大幅降低使用门槛。二者协同构建完整的数据驱动体系:固定报表确保核心数据监控,ChatBI赋能灵活分析。企业应结合业务场景合理应用,技术团队需理解ChatBI的交互特性,业务人员则可利用其快速获取数据洞察。

2025-07-29 09:00:00 704

原创 数仓里的“指标“和“标签“:我踩过的坑与终于想通的边界

【摘要】本文通过作者亲身经历的数据指标与标签混淆案例,揭示了数据仓库设计中指标和标签的本质区别:指标是量化业务结果的数值(如GMV、DAU),回答"多少"问题;标签是描述实体特征的分类标识(如高价值用户),回答"是什么"问题。文章从定义、用途、计算逻辑等维度对比两者差异,指出常见误区包括将标签直接当指标统计、口径不明确等,并给出SMART原则等解决方案。通过美妆电商提升复购率的案例,展示了如何用指标发现问题、标签定位对象、运营干预并验证效果的闭环方法。最后强调指标是业

2025-07-24 17:30:00 791

原创 面试提问:数据开发时,数据探查到底探查的是什么?应如何探查,探查的思路是什么?

数据探查是数仓开发中确保数据质量的关键环节。文章指出,跳过数据探查会导致数据不一致、异常值等问题。数据探查需从四方面入手:1)基础元数据检查表结构和字段属性;2)基于ICATT模型验证数据质量(完整性、准确性等);3)业务合理性检查;4)数据分布分析。实施时要分层递进,优先核心数据,结合业务场景,并建立常态化机制。通过自动化探查和监控,可避免建模返工,保障数据可靠性,赢得业务信任。合理的数据探查能有效预防数据问题,是数据工程师必备的核心能力。

2025-07-23 10:00:00 43

原创 数仓建设中,如何做基线管理?

摘要:数据仓库基线管理是保障数据"可用、可信、及时"的核心体系,解决规模化数仓的"失控"难题。文章提出五大基线管理要素:1)标准基线规范数据定义与口径;2)流程基线确保开发变更可控;3)质量基线通过自动化监控保障数据合格性;4)时效基线建立SLA机制确保及时产出;5)安全基线实现敏感数据保护。实践表明,基线管理需业务驱动、工具固化和持续迭代,通过"定义基准+监控偏差+持续校准",推动数据从"被动运维"到"主动治理&qu

2025-07-22 10:00:00 150

原创 SQL实战:如何精准计算用户页面停留时长(含连续访问合并与异常处理)

本文探讨了如何通过SQL精准计算用户在页面的停留时长,解决日志数据中常见的连续重复事件、事件缺失和连续访问合并三大问题。通过三步处理:1)过滤连续重复事件,保留有效enter/leave;2)为enter匹配最近的leave,缺失时用超时时间或下次事件时间填充;3)合并间隔≤30分钟的连续访问为同一会话。关键SQL技术包括窗口函数、时间函数和CTE,同时强调了业务规则(如超时阈值设定)的重要性。最终方案能有效处理脏数据,准确计算用户停留时长,为分析用户粘性提供可靠依据。

2025-07-21 13:30:00 41

原创 SQL面试提问:如何生成连续日期表并填充销售数据中缺失的日期?| 京东

本文介绍了Hive中生成连续日期序列并补全销售数据的两种方法。对于支持递归CTE的高版本Hive,可通过递归生成产品日期范围内的所有日期;低版本则需借助数字序列表和日期函数实现。核心步骤包括:确定产品销售日期范围、生成连续日期序列、关联销售数据补全缺失值(缺失日期销售额记为0)。文章详细解析了两种实现方式的SQL代码,并提供了使用示例和版本兼容性说明,帮助用户根据实际环境选择合适方案,确保销售数据分析的时间序列完整性。

2025-07-21 09:00:00 37

原创 SQL面试题:如何统计美团外卖骑手近30天配送数据?(订单数/时长/差评率全解析)

本文介绍了如何通过SQL统计外卖骑手近30天的核心配送数据,包括配送订单数、平均配送时长和差评率三个关键指标。重点解析了数据筛选规则(时间范围、订单状态、异常值处理)和指标计算方法,并提供了完整的SQL实现示例。文章还探讨了性能优化策略(索引设计、分区表)和业务扩展方向,解答了关于时间基准选择、异常值处理、差评率计算等常见问题。该案例展示了SQL在业务分析中的实际应用流程,包括需求拆解、数据清洗、指标计算和优化扩展等关键环节。

2025-07-18 09:00:00 123

原创 数仓建设中,系统数据录入错误或者延迟,如何对历史数据修复或补入?

本文系统介绍了数据仓库中历史数据问题的修复方案。首先阐述了数据错误(字段值错误、重复/缺失数据)和延迟问题的发现方法,包括数据质量监控和延迟监控体系的建立。接着详细说明了问题定位的溯源方法,并针对不同类型的数据错误提出了分层修复策略:对于数据录入错误需修正源数据并重跑链路;对于延迟问题采用增量补录、拉链表或侧输出流等技术处理。文章还强调了修复后的多维度验证流程、对上层数据的影响回溯以及预防措施(流程优化、加强测试和完善监控)。通过"发现-定位-修复-验证-回溯-预防"的闭环管理,可以确保

2025-07-17 13:00:00 62

原创 数仓晋升答辩:如何对数仓工作进行总结,凸显价值?

数仓是“数据的翻译官”——把业务问题翻译成数据模型,把数据资产翻译成业务洞察,让数据从“沉默的资源”变成“可驱动增长的生产力”。

2025-07-17 08:30:00 145

原创 面试灵魂拷问:SQL语句中where条件后为什么写上1=1?有什么作用?

摘要: WHERE 1=1是SQL中的一种动态条件拼接技巧,在数仓ETL和动态查询场景中具有重要作用。核心价值在于简化条件拼接逻辑,避免语法错误,提升脚本可维护性和灵活性。主要应用场景包括:1)动态分区加载,确保分区条件优先拼接;2)多条件报表查询,统一处理可选参数;3)调试测试,快速切换条件。数仓中需注意分区裁剪优化,避免性能影响,主流引擎(如Hive/SparkSQL)会忽略1=1的冗余条件。合理使用该技巧可提升工程效率,但需避免在固定条件场景中滥用以保持代码简洁性。

2025-07-16 10:00:00 50

原创 汽配行业数字化转型,MES技术架构、业务蓝图、实施路线规划方案

【PPT摘要】该方案采用微服务架构,以RFID技术为核心实现生产全流程追溯。系统包含智能排产、过程管控和数据可视化三大功能模块,分三阶段实施。预期可降低人工成本30%,提升效率40%,实现透明化管理。特色包括工业级低成本改造、标准化作业流程和防错机制。配套提供SQL实战案例,涵盖数仓分层设计、业务过程划分、数据回溯等典型问题解析,如员工部门层级查询、用户最爱商品统计等场景解决方案。

2025-07-15 15:00:00 1267

原创 数仓工程师 vs 数据分析师:职业如何选择?

数仓工程师与数据分析师是数据领域两大核心岗位,前者专注数据基建(ETL开发、数据建模),后者聚焦业务洞察(可视化、统计分析)。数仓工程师需精通SQL、大数据技术栈,强调技术深度;数据分析师则需业务敏感度与沟通能力。职业发展上,数仓可晋升为数据架构师,分析师可转向数据产品经理或业务负责人。选择时需考虑个人兴趣(技术实现vs业务影响)、现有技能及职业偏好(稳定深耕vs灵活跨界)。随着技术发展,两者界限逐渐模糊,复合型人才更受欢迎。无论选择哪条路径,持续学习和业务理解都是核心竞争力。

2025-07-15 09:00:00 608

原创 数仓应如何优化成本?

数仓成本优化需从存储、计算、人力和架构四大模块切入。存储优化采用数据分级(热/温/冷)、冗余清理和格式压缩(如Parquet)策略,可降本30%-50%。计算优化通过任务画像、结果复用(中间层)和引擎升级(Spark/Presto),提升资源利用率15%-50%。人力成本通过ETL模板化、自动化监控和自助BI降低10%-20%。长期建议迁移云原生架构实现弹性伸缩,采用精益建模减少冗余。实施路径建议分阶段推进:短期清理冗余,中期流程标准化,长期架构升级,最终实现总成本下降30%-50%的同时保障业务需求。

2025-07-14 13:00:00 766

原创 SQL表模型设计题目:员工部门父子级关系,要设计出一张表方便查询一级部门的员工人数?

【摘要】针对员工-部门父子级关系的表设计问题,提出两种高效解决方案: MySQL方案:采用邻接表模型,部门表存储层级关系(parent_dept_id),员工表关联部门ID。通过递归CTE查询一级部门及其子部门的员工总数,配合索引优化查询性能。 Hive方案:结合邻接表与路径枚举法,部门表新增dept_path字段(如"/1/2/")快速定位子部门。利用分区/分桶优化大数据查询,并建议预计算生成汇总表提升高频查询效率。 两种方案均支持统计一级部门总人数(含子部门),MySQL适合中小规模

2025-07-14 09:00:00 29

原创 数仓设计中,如果修饰词变成了业务过程中的一个维度,应怎么办?| 作业帮一面

摘要:在数据仓库维度建模中,当事实表的修饰词属性(如折扣类型)演变为需要独立分析、具有丰富属性的业务实体时,应将其升级为独立维度表。这种转变的核心步骤包括:识别维度实体、提取维度属性、修改事实表关联、处理缓慢变化维度、验证查询效果和更新下游模型。升级标准取决于业务需求,需满足多属性分析、数据一致性等要求,但应避免过度维度化。该过程体现了维度建模"业务需求导向"的核心思想,通过将业务标签转化为可分析实体,最终提升模型的灵活性和分析能力。

2025-07-11 09:00:00 36

原创 面试提问:SQL JOIN 中 ON 和 WHERE 条件的区别

SQL 中,JOIN 操作中的条件可以写在 ON 子句或 WHERE 子句中,但它们的行为和结果有重要区别。要理解SQL中JOIN时条件写在ON后与WHERE后的区别,需结合JOIN类型(如INNER JOINLEFT JOIN)及执行逻辑分析。。以下通过示例详细说明。

2025-07-07 13:00:00 68

原创 数仓实战:不同业务场景下数据合并策略及实现方案

Hive数据仓库合并策略指南 摘要:本文详细介绍了Hive数据仓库中五种典型数据合并场景的实现方案。1)全量覆盖合并:适用于小表全量更新,直接覆盖目标表;2)增量追加合并:针对只增不减的日志数据,按时间分区追加;3)增量更新合并:保留最新状态,适用于订单等需要实时更新的数据;4)拉链表合并:通过生效/失效时间记录历史版本,适合需要追溯变更的数据;5)多源数据合并:按唯一键横向关联不同系统的同主体数据。每种方案均包含表结构设计、示例数据、详细实现步骤和适用性分析,帮助开发者根据业务需求选择最佳合并策略。

2025-07-07 09:00:00 47

原创 智慧电力行业解决方案

智慧电力行业解决方案聚焦电力集团数字化转型,针对信息化建设水平不均、标准缺失、人才短缺等痛点,构建"网络-平台-数据-安全"一体化体系。核心包括三级管控架构(集团-区域-厂站)、5G专网基础设施、新型能源调控平台及智能电厂应用,通过AI技术实现设备预测维护、智能巡检等功能。方案强调统一标准建设与数据治理,分三阶段推进至2030年完成数字化新型电力系统转型,典型案例已应用于电厂智能巡检和新能源监控系统。

2025-07-07 09:00:00 693

原创 数据分析与经营管理的碰撞融合 | 帆软

帆软公司通过数据治理三步走战略破解企业信息化难题:首先打通六大业务系统数据孤岛,建立统一标准;然后构建PB级数据仓库进行清洗治理,修复30%脏数据;最终实现85%预测准确率的智能应用。项目采用"技术+管理"双轮驱动模式,搭建包含HDFS存储、Spark计算和FineBI分析的数据中台,同时建立三级指标监控体系。实施后报表开发效率提升36倍,库存成本节约2000万元,质量损失下降40%,并形成"用数据说话"的企业文化。该方案创新性地将数据价值链与管理闭环相结合,实现了从

2025-07-04 11:00:00 682

原创 数仓建模:如何提升模型的复用性?| 面试篇

【摘要】提升数仓模型复用性需从架构设计、模型规范、协作机制三方面入手。关键方法包括:分层架构(DWD/DWS层标准化)、维度建模(共享维度+细粒度事实表)、公共指标封装,配合元数据管理和跨部门评审机制。实践案例表明,该方法可减少60%重复代码,缩短开发周期70%,同时需平衡复用性与灵活性。最终实现数据口径统一、开发效率提升和业务快速迭代的目标。

2025-07-04 09:00:00 64

原创 数仓建模:如何提升模型的复用性?| 案例篇

电商集团通过数仓模型复用优化解决三大痛点:1.分层架构统一DWD层明细表,支持多业务线复用用户行为与订单数据;2.构建通用维度表与指标层,实现跨部门共享用户、商品维度和统一GMV计算口径;3.建立标准化命名规范与元数据管理,提升模型可读性。实施效果:开发周期缩短71%(7天→2天),代码量减少60%,数据准确率提升90%,财务核算耗时从3天降至10分钟。该案例证明,通过架构设计、规范约束和跨部门协作,可将数据资产转化为共享资源,实现"一次开发、多次复用"的增效目标。

2025-07-03 09:00:00 60

原创 指标治理:修饰词与维度的区别是什么?

维度与修饰词在指标治理中的关键区别:维度(Dimension)是数据的分类视角(如地区、产品类别),用于拆解分析指标,通过GROUP BY实现;修饰词(Filter)则限定指标计算范围(如"新用户订单"),通过WHERE条件过滤数据。核心差异在于维度会改变分析粒度,而修饰词仅聚焦特定场景。正确区分二者可避免指标爆炸,构建灵活可复用的指标体系。维度决定"怎么看"数据,修饰词决定"算什么"数据。

2025-07-02 12:30:00 844

原创 数仓建模:如何提升模型的复用性?| 理论篇

数仓模型复用性提升的核心在于分层架构、维度建模和标准化设计。通过DWD/DWS分层实现数据逐层复用,构建通用维度表和细粒度事实表作为共享基础。采用公共指标层统一计算逻辑,避免指标口径不一致。标准化命名和元数据管理提升模型可理解性,模块化设计解耦业务逻辑。同时需建立跨部门协作机制和技术工具支持,如模型评审、血缘追踪等,最终实现"一次开发、多次复用"的目标,降低开发成本,保障数据一致性。

2025-07-02 09:00:00 59

原创 数仓排期困境破局:如何构建让业务方信服的排期体系?

摘要: 数仓排期争议源于业务价值与技术实现的认知鸿沟。本文提出三维破局策略:1)需求解构:用“业务目标-数据需求-模型模块”三层拆解法锚定优先级,四象限法排序需求;2)技术拆解:原子化拆解6大建模环节,量化工时并暴露隐性成本(如数据治理、性能优化);3)风险量化:三级缓冲机制(任务级×1.5系数、阶段级预留、项目级10%弹性)应对需求变更与外部依赖。核心是通过业务语言翻译技术排期(如甘特图标注里程碑价值)、迭代交付最小可用版本,建立动态信任。最终排期表需透明化依赖与缓冲逻辑,让业务方理解“时间花在哪”。

2025-07-01 13:00:00 486

原创 数仓分区时间设计:系统时间与业务时间如何选?| 虾皮数开

数仓建模中分区时间的设计策略摘要 在数仓建模中,分区时间设计需平衡数据接入效率和业务分析准确性,核心原则是: 分层处理:ODS层采用系统时间(数据加载时间)分区,确保原始数据快速接入;DWD/DWS/ADS层采用业务时间(事件发生时间)分区,保证分析准确性。 场景适配: 系统时间分区:适用于实时/近实时数据(如日志)、无延迟或低延迟场景,实现简单且避免历史分区修改。 业务时间分区:适用于存在延迟或需回溯的业务数据(如订单、财务报表),需动态分区技术支持历史数据补录。 特殊处理: 复合分区:必要时可结合双分区

2025-07-01 08:30:00 47

原创 Hive SQL 高级应用:实战演练—从经典题目到业务洞察

摘要: 本文展示了16个高级SQL实战案例,涵盖电商数据分析的多个维度。通过排名筛选、分类聚合、用户行为分析等场景,演示了DENSE_RANK()、窗口函数、多表关联等高级SQL技巧的应用。案例包括销量排名分析(筛选销量第二商品)、用户连续性行为识别(连续登录)、品类爆款挖掘(TopN分析)、用户价值分群(累计消费分级)、价格快照查询(时点状态)等典型业务场景。每个案例提供完整SQL实现,涉及日期处理、条件聚合、比率计算等数据仓库常见需求,为构建复杂分析报表提供了实用参考模板。

2025-06-27 09:00:00 468

原创 别再傻傻的分不清了!粒度 vs 维度 本质差异

数据仓库中的粒度与维度:核心区别与联系 粒度(Granularity)和维度(Dimension)是数据建模的两个关键概念,二者有着本质区别: 粒度描述数据的详细程度(如订单级或日汇总级),决定事实表记录的原子性; 维度提供分析视角(如时间、产品维度),是分类和筛选的依据。 主要差异: 粒度影响存储量和分析深度,维度决定分析角度; 粒度本身无层级,但可通过维度实现上卷/下钻; 维度的属性(如时间维度中的年月日)支持对固定粒度数据的多角度分析。 二者协同工作:维度定义粒度的最低级别(如"日-商品-门

2025-06-26 12:00:00 267

原创 HiveSQL高级应用:数据洞察与分析—从基础到实战解锁数据价值

本文通过13个实际案例展示了电商数据分析的SQL实现方法,涵盖订单分析、用户行为、商品销售等多个维度。案例1-3分别使用窗口函数计算3日订单金额趋势、通过collect_set分析商品关联、运用条件求和对比商品销量;案例4-6涉及用户最近订单追踪(ROW_NUMBER)、登录空档期计算(DATEDIFF/LEAD)和异常登录检测;案例7-13包含连续销售达标判断、商品分类统计、品类Top3筛选、价格中位数计算等典型场景。文中还详细提供了10张业务表的建表语句和测试数据,包括用户信息、商品明细、订单数据等,为

2025-06-25 22:30:47 78

原创 SQL面试题:基于时间间隔的浏览时长问题

本文详解基于时间间隔的用户会话识别算法,通过HiveSQL实现点击流数据的分组统计。核心步骤包括:计算相邻点击时间差、标记新会话起点、构造会话标识、分组聚合统计。该方案采用窗口函数LAG()和SUM()OVER()组合,可准确输出每个会话的开始时间、点击次数和总时长。该方法适用于电商、游戏、广告监测等领域的用户行为分析,是构建数据分析系统的基础能力。文章还提供了完整SQL脚本、执行示例及进阶优化建议,具有较高的工程实践价值。

2025-06-25 09:00:00 74

原创 数仓面试提问:如何判断业务过程划分的好坏?| 途虎养车

摘要:数据仓库业务过程划分的关键在于实现"业务可解释、数据可建模、分析可落地"三大目标。本文提出五大判断标准:1)业务动作原子化,确保每个过程对应不可拆分的独立业务动作;2)事实粒度唯一化,保证事实表具有清晰一致的粒度;3)需求覆盖全链路,满足核心指标的可拆解性;4)维度关联无死角,通过公共维度支持跨过程分析;5)资源投入ROI平衡,权衡分析价值与数据成本。文章还分析了三类典型场景的决策方法,并强调业务过程划分需要持续迭代优化,最终目标是能够动态支撑业务决策需求。(149字)

2025-06-24 10:00:00 155

原创 SQL面试题:用户登录行为分析

文章摘要: 本文介绍了用户行为分析的6个核心指标定义及SQL实现方法:活跃用户(当日登录)、新增用户(首次登录)、留存用户(持续使用)、流失用户(未登录超阈值)、沉默用户(仅登录一次)和回流用户(重新激活)。通过示例数据表结构(含用户ID和登录日期字段),展示了各指标的计算逻辑和SQL查询模板,包括多表关联、日期差值计算和分组统计等技术要点。该分析框架可帮助产品团队量化用户活跃度、增长趋势、粘性及流失情况,为优化产品体验和用户召回策略提供数据支持。

2025-06-24 09:30:00 72

原创 SQL面试题:舆情分析 | 字节跳动2025

📱抖音、西瓜、头条等媒体平台的文字流(文章、评论、弹幕)。🔍创业人物:雷军雷布斯汝波梁汝波一鸣张一鸣胖东来刘强东情绪词:我去忍火离职废物🔄同时命中创业人物和情绪词(标题或内容中均可)。📋统计命中记录的详细信息及关键词。🎯目标识别包含指定创业人物与情绪词的文本。⚖️条件每条记录需同时包含至少一个创业人物和一个情绪词。📊输出命中记录的详细信息及关键词统计。

2025-06-23 09:00:00 241

原创 AI 时代,数仓建模还有价值吗?

摘要:在AI时代,数仓建模的价值不仅未被削弱,反而因AI对高质量数据的需求而更加凸显。数仓建模通过数据治理、业务逻辑翻译、资产复用和合规保障,为AI提供可靠的数据基础。具体表现为:确保数据质量,为AI模型提供干净数据;将业务逻辑转化为结构化数据,帮助AI理解业务;实现数据资产复用,提升AI效率;保障数据可追溯性,满足合规要求。AI与数仓建模相互促进,共同推动数据价值最大化,数仓建模正从"支持分析"升级为"支撑AI创新"的核心基础设施。(149字)

2025-06-20 12:00:00 733

原创 SQL面试题:可能好友问题

摘要:本文提出通过共同好友识别潜在社交关系的方法。首先将用户好友列表拆分为单条记录,建立(id,friend)临时表。然后通过自连接找出共享同一好友的用户对,统计共同好友数≥2的对。最后排除已有好友关系,准确识别出"可能好友"。验证显示该方法成功匹配了A-E、A-F、B-D等符合定义的用户对,证明SQL实现有效。核心思路是通过关系分解和连接操作发掘隐藏的社交联系。

2025-06-19 09:00:00 495 1

如何利用LLM生成架构图提示词.md

如何利用LLM生成架构图提示词.md

2025-07-27

dify智能体-中小学数学错题本-生成同类型题.yml

dify智能体-中小学数学错题本-生成同类型题.yml

2025-07-27

dify-LLM-智能体-衡水体英语作文评分工作流.yml

dify-LLM-智能体-衡水体英语作文评分工作流.yml

2025-07-27

dify-ai-智能体-豆包文本生成图像、文本生成视频以及图像转视频.yml

dify-ai-智能体-豆包文本生成图像、文本生成视频以及图像转视频.yml

2025-07-27

dify智能体-LLM批量识别PDF电子发票信息生成excle表格.yml

dify智能体-LLM批量识别PDF电子发票信息生成excle表格.yml

2025-07-27

dify智能体-Dify+RSS 聚合 8 大平台实时热点,新闻获取效率飙升 300%.yml

dify智能体-Dify+RSS 聚合 8 大平台实时热点,新闻获取效率飙升 300%.yml

2025-07-27

dify智能体-N8N+Dify+LLM 打造新闻定时推送流.yml

dify智能体-N8N+Dify+LLM 打造新闻定时推送流.yml

2025-07-27

dify-AI-智能体-豆包文本生成图、文生视频+小支付功能 .yml

dify-AI-智能体-豆包文本生成图、文生视频+小支付功能 .yml

2025-07-27

dify-AI智能体-中药科普知识工作流.yml

dify-AI智能体-中药科普知识工作流.yml

2025-07-27

dify-AI智能体-LLM+Dify 实现 PPT 到 SVG 海报的华丽变身.yml

dify-AI智能体-LLM+Dify 实现 PPT 到 SVG 海报的华丽变身.yml

2025-07-27

dify-AI智能体-LLM+Dify +MinerU实现 PPT 到 SVG 海报的华丽变身.yml

dify-AI智能体-LLM+Dify +MinerU实现 PPT 到 SVG 海报的华丽变身.yml

2025-07-27

dify智能体分享-Dify 一键搭建中药科普工作流,文字 + 图片 + 视频.yml

dify智能体分享-Dify 一键搭建中药科普工作流,文字 + 图片 + 视频

2025-07-27

dify智能体-数学公式识别工作流.yml

dify智能体-数学公式识别工作流.yml

2025-07-27

dify智能体-Kimi-K2+Mermaid 神器,一键生成系统架构图.yml

dify智能体-Kimi-K2+Mermaid 神器,一键生成系统架构图.yml

2025-07-27

ai agent智能体.yml

ai agent智能体.yml

2025-07-27

Dify智能体:AI资讯每日新闻+语音播报工作流.yml

Dify智能体:AI资讯每日新闻+语音播报工作流.yml

2025-07-27

DIfy智能体:多模态图像编辑(HiDream-E1-Full)-chatflow.yml

DIfy智能体:多模态图像编辑(HiDream-E1-Full)-chatflow.yml

2025-07-27

dify智能体-中小学数学错题本-错题收集篇.yml

dify智能体-中小学数学错题本-错题收集篇.yml

2025-07-26

dify智能体-0 代码实现企业画像!16 种图表,解锁数据查询新姿势.yml

dify智能体-0 代码实现企业画像!16 种图表,解锁数据查询新姿势.yml

2025-07-26

dify智能体-英语单词口语练习.yml

dify智能体-英语单词口语练习.yml

2025-07-26

数仓新手开发如何撰写设计文档?.md

数仓新手开发如何撰写设计文档?.md

2025-07-31

SQL企业真实笔试题详解.md

SQL企业真实笔试题详解.md

2025-07-31

Dify智能体:今日热点新闻发送飞书卡片.yml

Dify智能体:今日热点新闻发送飞书卡片.yml

2025-07-30

Dify智能体:票据识别+飞书多维表格.yml

Dify智能体:票据识别+飞书多维表格.yml

2025-07-30

【AI商业战略】AI时代商业模式重构与升级:解析AI技术驱动下的商业变革与应用趋势

内容概要:本文由倪云华撰写,深入探讨了AI时代商业模式的重构与升级。作者凭借其丰富的跨国管理和咨询经验,详细分析了AI技术对各行业的深远影响。文章指出,AI技术的快速发展正推动商业模式发生根本性变革,特别是在非科技行业,DeepSeek等低成本、开源的技术将降低商业试错成本,加速AI应用的普及。文中还预测了六大商业趋势,包括非美地区AI资本开支周期的启动、中国在A

2025-07-29

电力行业电网公司财务主数据管理方案设计:优化资产全生命周期管理与提升数据治理效能XX电网公司在资产

内容概要:本文档是针对XX电网公司的财务主数据管理方案,旨在解决当前多信息平台导致的数据冗余、信息孤岛等问题。文中首先介绍了主数据的概念,特别是财务主数据,包括会计科目、供应商、员工、固定资产和成本中心等主数据的详细内容。接着分析了现有业务中的问题,如信息传递滞后、系统数据不同步等。基于这些问题,提出了设计原则和目标,如确保数据的完整性、一致性和及时性,减少部门间数据冗余。最后详细描述了财务主数据管理方案的设计,涵盖数据集成、共享、质量控制和维护四个方面,并举例说明了各类主数据的维护流程。 适用人群:适用于电网公司内部的财务管理人员、信息系统的运维人员以及参与资产全生命周期管理的相

2025-07-29

SQL JOIN 中 ON 和 WHERE 条件的区别.md

SQL JOIN 中 ON 和 WHERE 条件的区别.md

2025-07-29

AI 时代,数仓建模还有价值吗?.md

AI 时代,数仓建模还有价值吗?.md

2025-07-29

Dify智能体:基于上市公司财报分析结果html分析报告(整合MinerU+edgeone-pages-mcp).yml

Dify智能体:基于上市公司财报分析结果html分析报告(整合MinerU+edgeone-pages-mcp).yml

2025-07-27

Dify智能体:自定义edgetts工作流.yml

Dify智能体:自定义edgetts工作流.yml

2025-07-27

Dify智能体:图片生成html,网页小游戏(1panel mcpsse).yml

Dify智能体:图片生成html,网页小游戏(1panel mcpsse).yml

2025-07-27

Dify智能体:通用合同审查助手.yml

Dify智能体:通用合同审查助手.yml

2025-07-27

Dify智能体:提示词生成器chatflow.yml

Dify智能体:提示词生成器chatflow.yml

2025-07-27

Dify智能体:诗句封面+语音播报.yml

Dify智能体:诗句封面+语音播报.yml

2025-07-27

Dify智能体:软件开发类合同审查chatflow.yml

Dify智能体:软件开发类合同审查chatflow.yml

2025-07-27

Dify智能体:人物头像风格迁移工作流.yml

Dify智能体:人物头像风格迁移工作流.yml

2025-07-27

Dify智能体:基于知识库+agent实现text2sqlchatflow工作流.yml

Dify智能体:基于知识库+agent实现text2sqlchatflow工作流.yml

2025-07-27

Dify智能体:股票分析系统.yml

Dify智能体:股票分析系统.yml

2025-07-27

Dify智能体:飞书表格.yml

Dify智能体:飞书表格.yml

2025-07-27

DIfy智能体:基于表结构的agent text2sql.yml

DIfy智能体:基于表结构的agent text2sql.yml

2025-07-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除