数据与算法架构提升之路
我是一名专注于AI和数据架构的技术专家,拥有扎实的编程与数学基础。在大数据框架重构和底层源码开发方面积累了丰富经验,擅长自动驾驶、数据架构和深度学习等领域的研究与实践。目前,我主要从事数据AI架构相关工作,并曾在新能源汽车行业积累了深厚的技术背景。对技术创新和持续学习充满热情,致力于推动前沿技术的应用与发展。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
深入剖析 Delta Live Tables (DLT):声明式数据管道的核心原理与底层实现
DLT =「声明式 DSL + Spark 引擎 + Delta Lake」:写 3 行注解即可让 1 万行传统 ETL 代码下岗;自动建 DAG、增量 CDC、质量 Expectations、失败自愈,把开发时长砍半,把稳定性拉满——从 Kafka→Bronze→Silver→Gold,一条注解链到底,数据管道开“自动驾驶”。原创 2025-07-18 20:33:38 · 141 阅读 · 0 评论 -
【深度剖析】流处理系统性能优化:解决维表JOIN、数据倾斜与数据膨胀问题
本文剖析流处理作业的三大性能瓶颈:维表 JOIN 效率低、数据倾斜、数据膨胀,并给出优化策略。包括优化维表 JOIN 如采用 Lookup Join、多表 JOIN 时小表广播等;解决数据倾斜如热点键打散、时间窗口预聚合;应对数据膨胀如替换 LEFT JOIN 为 Interval Join、启用 State TTL 等,助力流处理性能提升。原创 2025-05-30 12:03:15 · 381 阅读 · 0 评论 -
腾讯开源SuperSonic:AI+BI如何重塑数据分析?
SuperSonic是腾讯开源的AI+BI平台,融合Chat BI与Headless BI,为制造企业提供实时数据分析。它通过自然语言交互打破数据壁垒,实现生产、库存、质量、供应链等多环节优化,提升决策效率,其开源生态与扩展性助力企业数字化转型与数据价值挖掘。原创 2025-05-07 01:44:18 · 2374 阅读 · 0 评论 -
数据“打架”的真相:指标口径不一致的五大危害
指标口径不一致不仅导致数据“打架”,还可能引发决策失误和资源浪费。制造企业在追求数据驱动的道路上,必须重视指标的标准化管理。只有建立规范、统一的指标体系,才能确保数据的准确性和一致性,为业务发展保驾护航。如今,越来越多的企业已将指标管理视为数据治理的核心环节,你的企业准备好了吗?原创 2025-05-07 01:18:45 · 219 阅读 · 0 评论 -
从蜗牛到火箭:揭秘PB级数据训练的终极加速秘籍!
PB级数据不再是无法逾越的高墙,而是通往更强大AI的阶梯。掌握了这些数据、计算、算法层面的优化秘籍,特别是像LAMB、LARS这样的“利器”,你就能驾驭数据洪流,让你的AI模型训练速度实现质的飞跃,更快地将创新想法变为现实!原创 2025-04-17 12:27:31 · 222 阅读 · 0 评论 -
BitMap和RoaringBitmap:极致高效的大数据结构
随着数据量持续增长,理解和利用这些高效数据结构对于使用大数据系统的开发人员和数据工程师变得越来越重要。RoaringBitmap在主要大数据框架中的广泛采用证明了其在解决实际性能挑战方面的有效性。原创 2025-04-12 19:27:10 · 876 阅读 · 0 评论 -
揭秘AI自我进化:从合成轨迹到强化学习的突破性进展
通过合成高质量思维链数据和强化学习,AI模型能够从错误中学习并自我改进,显著提升复杂推理任务的表现。这一方法在多个领域中应用潜力巨大,并有助于未来AI发展的突破。原创 2025-03-08 10:17:42 · 284 阅读 · 0 评论 -
如何让AI学会“自我改进”?揭秘Open R1和DeepScaleR的突破性训练方法
近年来AI自我改进研究取得突破,Open R1、DeepScaleR和LIMO等项目通过合成高质量推理轨迹和分阶段强化学习,让AI逐步学会自我改进,未来AI“思考”能力有望进一步进化。原创 2025-03-08 10:17:24 · 442 阅读 · 0 评论 -
为什么有的AI模型能自我改进,而有的却不行?——从斯坦福研究看大模型的“思考”秘密
斯坦福研究发现,AI自我改进依赖于验证、回溯、子目标设定和逆向思考四种认知行为。Qwen因预训练中更多接触这些行为而优于Llama。实验表明,通过合成轨迹或调整预训练数据注入这些行为,Llama的改进能力显著提升。这凸显了元认知能力在AI持续学习中的关键作用。原创 2025-01-18 18:37:14 · 1409 阅读 · 0 评论 -
YARN集群优化:专家不告诉你的事
YARN通过节点标签实现物理隔离,配置标签、分配节点、指定应用标签,优化资源利用率和作业性能。原创 2024-10-31 09:51:27 · 189 阅读 · 0 评论 -
揭秘数据库革命:向量化引擎如何让查询速度飞跃提升
向量化执行引擎通过列存储和SIMD技术,大幅提升了数据库查询效率,尤其适用于分析型工作负载。原创 2024-08-13 09:37:09 · 426 阅读 · 0 评论 -
提升转化率与用户参与度:掌握在线A/B测试、多臂赌博机、交错测试与因果推断的实战策略
本文探讨了在线实验设计中的几种关键方法,包括A/B测试、多臂赌博机(MAB)、交错测试、异质性处理效应(HTE)分析和因果推断。A/B测试通过随机分组和关键指标测量,比较两个版本的性能。MAB通过算法如ε-greedy、UCB和Thompson采样,在探索与利用间找到平衡。交错测试适用于搜索引擎和推荐系统,通过用户反馈比较不同排序算法。HTE分析通过分层或机器学习方法,识别不同用户群体对处理的反应差异。因果推断,如随机对照试验(RCT)、工具变量(IV)和断点回归(RDD),旨在确定处理与结果间的因果关系。原创 2024-05-17 10:44:25 · 347 阅读 · 0 评论 -
GeoHash编码在日志数据处理中的应用与优化
本文详细介绍了如何将GPS坐标转换为GeoHash编码,以便于进行地理位置维度分析。首先解释了GeoHash编码的原理和优势,然后展示了如何使用现成的GeoHash工具包进行坐标转换。接着,通过编写Hive UDF,实现了在Hive中直接进行GeoHash编码的功能。最后,介绍了如何利用高德API服务来补充和完善地理位置字典,以提高数据处理的准确性。原创 2024-01-28 22:14:07 · 391 阅读 · 1 评论 -
ID Mapping技术解析:从Redis到Spark GraphX的演进与应用
本文深入探讨了ID Mapping技术在处理多设备、多平台用户标识不一致问题中的应用。首先介绍了ID Mapping的背景和重要性,然后详细阐述了基于Redis和Spark GraphX的两种ID Mapping方案,包括它们的实现思路、具体代码示例以及在实际生产环境中的应用。最后,文章提供了相关资料链接,为读者提供了进一步学习和实践的资源。原创 2024-01-28 18:54:14 · 850 阅读 · 0 评论 -
从实践角度优化数据库设计:深入解析三范式的应用
在数据库设计中,范式(Normal Form)是用来评估关系模式(即数据库表结构)的一种方法,目的是减少数据冗余和提高数据完整性。不同的范式级别有不同的要求和规范。原创 2023-12-20 15:42:40 · 1104 阅读 · 1 评论 -
项目中为什么通常flume和kafka要共同使用
Kafka 是一个非常通用的系统。你可以有许多生产者和很多的消费者共享多个主题Topics;Flume是一个专用工具被设计为旨在往HDFS,HBase发送数据。它对HDFS有特殊的优化,并且集成了Hadoop的安全特性原创 2020-08-27 07:26:00 · 1655 阅读 · 0 评论 -
HDFS 3.x 数据存储新特性-纠删码
EC(纠删码)是⼀种编码技术,能达到和副本机制相同的容错能⼒但是能⼤幅度降低存储成本的机制原创 2023-12-05 19:26:00 · 1042 阅读 · 0 评论 -
数据指标体系建设思路
数据指标体系建设思路原创 2023-11-16 16:30:01 · 323 阅读 · 0 评论 -
IOTDB的TsFile底层设计
TsFile 是 IoTDB 中使用的时间序列文件格式。它是一种面向时序数据定义的一种文件格式,其提供了一套将时序数据转换为字节的规则,在减少磁盘占用的前提下,有效地提升了数据查询分析的效率,能够为上层应用提供良好的数据存储和查询支持。原创 2023-09-26 18:47:49 · 861 阅读 · 0 评论 -
SpringBoot整合MybatisPlus多线程下切换数据源的设计方案
大数据项目经常同一个项目里会有涉及多数源的场景原创 2023-09-19 22:19:04 · 490 阅读 · 0 评论 -
Apache Doris大规模数据使用指南
Apache Doris是一个现代化的MPP分析性数据库产品。仅需要亚秒级响应时间即可获得查询结果,有效地支持实时数据分析。Apache Doris可以满足多种数据分析需求,例如固定历史报表,实时数据分析。原创 2023-08-18 12:26:37 · 1739 阅读 · 0 评论 -
/etc/profile和~/.bash_profile等文件的区别和联系
主要配置文件的理解原创 2023-05-30 17:05:50 · 1348 阅读 · 0 评论 -
Druid、Doris中构建bitmap索引和维度字典实现高效查询
bitmap 索引广泛应用于很多大数据OLAP引擎中,如Druid、Kylin、Doris等,是一种高效的索引技术原创 2023-05-06 22:43:22 · 778 阅读 · 0 评论 -
Hive 中的explode , lateral view,lateral view stack
explode 和 lateral view这两个经常放在一起用原创 2023-04-21 15:49:41 · 572 阅读 · 0 评论 -
时序数据库的“双雄会”:IoTDB与TDengine的较量
本文全面对比了IoTDB和TDengine两大时序数据库。IoTDB以原生分布式架构、灵活分区策略和高可用性著称,支持大规模数据管理与复杂查询优化。TDengine则凭借“一个设备一张表”模型,实现超高的写入吞吐量和存储压缩比,并在查询性能上表现出色。两者在性能、架构和应用场景上各有优势,适用于不同的业务需求。原创 2023-04-14 11:32:25 · 2610 阅读 · 0 评论 -
Spark on Hive动态分区表的应用
运行Spark的时候,同时跑多个任务对同一张表(parquet格式),同时写多个Hive分区,需要加一下参数set("spark.sql.hive.convertMetastoreParquet","false");这样的话,所使用的spark临时目录就是独立(静态分区默认共用一个临时目录),不会冲突。 如果是orc格式,里面的关键字改成Orc就行。原创 2023-03-31 15:01:17 · 1812 阅读 · 0 评论 -
从一个实例配置引入Prometheus的PromQL语法
PromQL提供对时间序列数据进行逻辑运算、过滤、聚合的支持。应用于数据查询、可视化、告警处理原创 2023-03-01 14:13:48 · 770 阅读 · 0 评论 -
Hive修复分区或修复表 以及msck命令的使用
hive里有数据,MySQL数据库坏了,导致hive元数据信息丢失,但是hdfs上hive表的数据并没有丢失。可以使用msck repair table xxxxx命令修复!原创 2023-02-14 10:16:11 · 1611 阅读 · 0 评论 -
Flink整合Prometheus Pushgetway讲解与实战操作
Pushgateway是Prometheus的一个组件,prometheus server默认是通过Exporter主动获取数据(默认采取pull拉取数据)原创 2023-02-09 21:08:30 · 1080 阅读 · 0 评论 -
Shell数组${arr[*]}和${arr[@]}区别
引用数组中所有元素时${arr[*]}和${arr[@]}是有细微区别的原创 2023-02-07 14:25:59 · 1041 阅读 · 0 评论 -
Presto架构和使用总结
Presto是一个开源的分布式SQL查询引擎,数据量支持GB到PB字节,主要用来处理秒级查询的场景。注意:虽然Presto可以解析SQL,但它不是一个标准的数据库。不是MySQL、Oracle的代替品,也不能用来处理在线事务(OLTP)。原创 2023-01-03 15:55:37 · 841 阅读 · 2 评论 -
数仓常用排序详解
数仓常用排序详解原创 2022-12-01 12:21:35 · 1026 阅读 · 0 评论 -
Protobuf: 免疫反序列化攻击且高效解析的秘密
protobuf (protocol buffer) 是谷歌内部的混合语言数据标准。通过将结构化的数据进行序列化(串行化),用于通讯协议、数据存储等领域的语言无关、平台无关、可扩展的序列化结构数据格式。原创 2022-11-30 12:42:26 · 2669 阅读 · 0 评论 -
Hive的分区和分桶介绍
Hive的分区和分桶介绍原创 2022-11-28 21:10:35 · 492 阅读 · 0 评论 -
利用YARN多队列实现Hadoop资源隔离
大数据处理离不开hadoop集群的部署和管理,对于本来硬件资源就不多的创业团队来说,做好资源的共享和隔离是很有必要的,毕竟不像BAT那么豪,那么怎么样能把有限的节点同时分享给多组用户使用而且互不影响呢,我们来研究一下yarn多队列做资源隔离原创 2022-11-02 20:29:15 · 2098 阅读 · 0 评论 -
Excel对比不同Sheet的关键词个数匹配(VLOOKUP的应用)
VLOOKUP的应用原创 2022-10-02 01:35:47 · 2320 阅读 · 0 评论 -
Hive lateral view和get_json_object,json_tuple 用法
Hive lateral view ,get_json_object,json_tuple 用法原创 2022-09-02 18:16:07 · 1020 阅读 · 0 评论 -
Hive合并小文件的配置项
j减少小文件策略:启动压缩, 启动合并,减少map数,shuffle合并,reduce合并,使用HAR归档文件原创 2022-04-28 00:17:34 · 1282 阅读 · 0 评论 -
Hive中json 字符串解析之 get_json_object 与 json_tuple
hive 中 json 字符串解析原创 2022-04-18 17:43:43 · 8750 阅读 · 0 评论 -
Hadoop DataNode如何将TB级大文件的上传性能优化上百倍
为什么需要这么多缓冲机制呢?就像漏斗灌水一样,如果漏斗的锥形倾斜度太大的话无法起到有效缓冲的作用,反而影响水流速度原创 2022-01-07 09:58:38 · 957 阅读 · 0 评论