
002_大数据
大数据相关知识讲解和经验分享。
罗西的思考
微信公众号:罗西的思考
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Alink漫谈(二十二) :源码分析之聚类评估
Alink 是阿里巴巴基于实时计算引擎 Flink 研发的新一代机器学习算法平台,是业界首个同时支持批式算法、流式算法的机器学习平台。本文和上文将带领大家来分析Alink中 聚类评估 的实现。原创 2020-09-26 08:37:48 · 1316 阅读 · 0 评论 -
Alink漫谈(二十一) :回归评估之源码分析
Alink 是阿里巴巴基于实时计算引擎 Flink 研发的新一代机器学习算法平台,是业界首个同时支持批式算法、流式算法的机器学习平台。本文和将带领大家来分析Alink中 回归评估 的实现。原创 2020-09-25 23:31:03 · 376 阅读 · 0 评论 -
[源码解析] Flink的Slot究竟是什么?(2)
Flink的Slot概念大家应该都听说过,但是可能很多朋友还不甚了解其中细节,比如具体Slot究竟代表什么?在代码中如何实现?Slot在生成执行图、调度、分配资源、部署、执行阶段分别起到什么作用?本文和上文将带领大家一起分析源码,为你揭开Slot背后的机理。原创 2020-09-04 17:03:10 · 561 阅读 · 0 评论 -
Alink漫谈(二十) :卡方检验源码解析
Alink 是阿里巴巴基于实时计算引擎 Flink 研发的新一代机器学习算法平台,是业界首个同时支持批式算法、流式算法的机器学习平台。本文将带领大家来分析 Alink 中 卡方检验 的实现。原创 2020-08-29 07:28:04 · 434 阅读 · 0 评论 -
[源码解析] Flink的Slot究竟是什么?(1)
Flink的Slot概念大家应该都听说过,但是可能很多朋友还不甚了解其中细节,比如具体Slot究竟代表什么?在代码中如何实现?Slot在生成执行图、调度、分配资源、部署、执行阶段分别起到什么作用?本文和下文将带领大家一起分析源码,为你揭开Slot背后的机理。原创 2020-08-24 15:51:57 · 1626 阅读 · 2 评论 -
Alink漫谈(十八) :源码解析 之 多列字符串编码MultiStringIndexer
Alink 是阿里巴巴基于实时计算引擎 Flink 研发的新一代机器学习算法平台,是业界首个同时支持批式算法、流式算法的机器学习平台。本文将带领大家来分析Alink中 MultiStringIndexer 的实现。原创 2020-08-15 07:55:20 · 287 阅读 · 0 评论 -
[源码解析] Flink UDAF 背后做了什么
本文涉及到Flink SQL UDAF,Window 状态管理等部分,希望能起到抛砖引玉的作用,让大家可以借此深入了解这个领域。原创 2020-08-12 07:52:50 · 384 阅读 · 1 评论 -
Alink漫谈(十七) :Word2Vec源码分析 之 迭代训练
Alink 是阿里巴巴基于实时计算引擎 Flink 研发的新一代机器学习算法平台,是业界首个同时支持批式算法、流式算法的机器学习平台。本文和上文将带领大家来分析Alink中 Word2Vec 的实现。原创 2020-08-08 09:44:26 · 313 阅读 · 0 评论 -
Alink漫谈(十六) :Word2Vec源码分析 之 建立霍夫曼树
Alink 是阿里巴巴基于实时计算引擎 Flink 研发的新一代机器学习算法平台,是业界首个同时支持批式、流式算法的机器学习平台。本文和下文将带领大家来分析Alink中 Word2Vec 的实现。原创 2020-08-03 18:15:35 · 452 阅读 · 0 评论 -
[业界方案] Yarn的业界解决方案和未来方向
本文通过分析学习两篇文章来看目前工业界可能偏好的解决方案,也顺便探寻下Yarn的未来发展方向。原创 2020-08-01 08:56:33 · 333 阅读 · 0 评论 -
Alink漫谈(十五) :多层感知机 之 迭代优化
Alink 是阿里巴巴基于实时计算引擎 Flink 研发的新一代机器学习算法平台,是业界首个同时支持批式算法、流式算法的机器学习平台。本文和前文将带领大家来分析Alink中多层感知机的实现。原创 2020-07-29 20:53:01 · 491 阅读 · 0 评论 -
Alink漫谈(十四) :多层感知机 之 总体架构
Alink 是阿里巴巴基于实时计算引擎 Flink 研发的新一代机器学习算法平台,是业界首个同时支持批式算法、流式算法的机器学习平台。本文和下文将带领大家来分析Alink中多层感知机的实现。原创 2020-07-26 18:10:23 · 549 阅读 · 1 评论 -
Alink漫谈(十三) :在线学习算法FTRL 之 具体实现
Alink 是阿里巴巴基于实时计算引擎 Flink 研发的新一代机器学习算法平台,是业界首个同时支持批式算法、流式算法的机器学习平台。本文和上文一起介绍了在线学习算法 FTRL 在Alink中是如何实现的,希望对大家有所帮助。原创 2020-07-22 21:10:05 · 737 阅读 · 1 评论 -
Alink漫谈(十二) :在线学习算法FTRL 之 整体设计
Alink 是阿里巴巴基于实时计算引擎 Flink 研发的新一代机器学习算法平台,是业界首个同时支持批式算法、流式算法的机器学习平台。本文和下文将介绍在线学习算法FTRL在Alink中是如何实现的,希望对大家有所帮助。原创 2020-07-16 21:50:42 · 557 阅读 · 0 评论 -
Alink漫谈(十一) :线性回归 之 L-BFGS优化
Alink 是阿里巴巴基于实时计算引擎 Flink 研发的新一代机器学习算法平台,是业界首个同时支持批式算法、流式算法的机器学习平台。本文介绍了线性回归的L-BFGS优化在Alink是如何实现的,希望可以作为大家看线性回归代码的Roadmap。原创 2020-07-12 20:34:47 · 1132 阅读 · 0 评论 -
Alink漫谈(十) :线性回归实现 之 数据预处理
Alink 是阿里巴巴基于实时计算引擎 Flink 研发的新一代机器学习算法平台,是业界首个同时支持批式算法、流式算法的机器学习平台。本文和下文将介绍线性回归在Alink中是如何实现的,希望可以作为大家看线性回归代码的Roadmap。原创 2020-07-11 08:21:20 · 864 阅读 · 2 评论 -
[源码解析]Oozie来龙去脉之内部执行
Oozie由Cloudera公司贡献给Apache的基于工作流引擎的开源框架,是用于Hadoop平台的开源的工作流调度引擎,用来管理Hadoop作业,进行。本文是系列的第二篇,介绍Oozie的内部执行阶段。原创 2020-07-08 21:22:45 · 431 阅读 · 0 评论 -
Alink漫谈(九) :特征工程 之 特征哈希/标准化缩放
Alink 是阿里巴巴基于实时计算引擎 Flink 研发的新一代机器学习算法平台,是业界首个同时支持批式算法、流式算法的机器学习平台。本文将剖析Alink “特征工程” 部分对应代码实现。原创 2020-07-04 06:46:35 · 642 阅读 · 0 评论 -
[源码解析]Oozie来龙去脉之提交任务
Oozie是由Cloudera公司贡献给Apache的基于工作流引擎的开源框架,是Hadoop平台的开源的工作流调度引擎,用来管理Hadoop作业。本文是系列的第一篇,介绍Oozie的任务提交阶段。原创 2020-06-29 20:59:22 · 714 阅读 · 2 评论 -
Alink漫谈(八) : 二分类评估 AUC、K-S、PRC、Precision、Recall、LiftChart 如何实现
Alink 是阿里巴巴基于实时计算引擎 Flink 研发的新一代机器学习算法平台,是业界首个同时支持批式算法、流式算法的机器学习平台。二分类评估是对二分类算法的预测结果进行效果评估。本文将剖析Alink中对应代码实现。原创 2020-06-26 10:37:59 · 626 阅读 · 0 评论 -
[源码解析] 从TimeoutException看Flink的心跳机制
本文从一个调试时候常见的异常 "TimeoutException: Heartbeat of TaskManager timed out"切入,为大家剖析Flink的心跳机制。文中代码基于Flink 1.10。原创 2020-06-23 22:06:37 · 1374 阅读 · 0 评论 -
[记录点滴] 小心 Hadoop Speculative 调度策略
本文从一个bug入手,为大家展示Hadoop Speculative机制,以及编写mapreduce程序的注意点。原创 2020-06-19 20:41:08 · 332 阅读 · 0 评论 -
[源码解析] GroupReduce,GroupCombine 和 Flink SQL group by
本文从源码和实例入手,为大家解析 Flink 中 GroupReduce 和 GroupCombine 的用途。也涉及到了 Flink SQL group by 的内部实现。原创 2020-06-16 21:35:44 · 606 阅读 · 0 评论 -
Alink漫谈(七) : 如何划分训练数据集和测试数据集
Alink 是阿里巴巴基于实时计算引擎 Flink 研发的新一代机器学习算法平台,是业界首个同时支持批式算法、流式算法的机器学习平台。本文将为大家展现Alink如何划分训练数据集和测试数据集。原创 2020-06-12 22:48:06 · 2123 阅读 · 0 评论 -
[源码解析] Flink的groupBy和reduce究竟做了什么
GroupBy和reduce是大数据领域常见的算子,但是很多同学应该对其背后机制不甚了解。本文将从源码入手,为大家解析Flink中groupBy和reduce的原理,看看他们在背后做了什么。原创 2020-06-09 20:29:54 · 1025 阅读 · 0 评论 -
Alink漫谈(六) : TF-IDF算法的实现
Alink 是阿里巴巴基于实时计算引擎 Flink 研发的新一代机器学习算法平台,是业界首个同时支持批式算法、流式算法的机器学习平台。TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。本文将为大家展现Alink如何实现TF-IDF。原创 2020-06-05 21:56:46 · 655 阅读 · 0 评论 -
[源码解析]为什么mapPartition比map更高效
自从函数式编程和响应式编程逐渐进入到程序员的生活之后,map函数作为其中一个重要算子也为大家所熟知,无论是前端web开发,手机开发还是后端服务器开发,都很难逃过它的手心。而在大数据领域中又往往可以见到另外一个算子mapPartition的身影。在性能调优中,经常会被建议尽量用 mappartition 操作去替代 map 操作。本文将从Flink源码和示例入手,为大家解析为什么mapPartition比map更高效。原创 2020-06-02 21:49:06 · 808 阅读 · 0 评论 -
Alink漫谈(五) : 迭代计算和Superstep
Alink 是阿里巴巴基于实时计算引擎 Flink 研发的新一代机器学习算法平台,是业界首个同时支持批式算法、流式算法的机器学习平台。迭代算法在很多数据分析领域会用到,比如机器学习或者图计算。本文将通过Superstep入手看看Alink是如何利用Flink迭代API来实现具体算法。原创 2020-05-30 04:30:58 · 992 阅读 · 0 评论 -
[白话解析] 以水浒传为例深入浅出一致性Hash原理
一致性哈希算法是分布式系统中常用的算法。但相信很多朋友都是知其然而不知其所以然。本文将尽量使用易懂的方式介绍一致性哈希原理,并且通过具体应用场景来帮助大家深入这个概念。原创 2020-05-18 21:48:44 · 254 阅读 · 0 评论 -
[源码分析]从UDF不应有状态 切入来剖析Flink SQL代码生成 (修订版)
"Flink SQL UDF不应有状态" 这个技术细节可能有些朋友已经知道了。但是为什么不应该有状态呢?这个恐怕大家就不甚清楚了。本文就带你一起从这个问题点入手,看看Flink SQL究竟是怎么处理UDF,怎么生成对应的SQL代码。原创 2020-05-16 08:40:36 · 698 阅读 · 0 评论 -
[源码分析] 带你梳理 Flink SQL / Table API内部执行流程
本文将简述Flink SQL / Table API的内部实现,为大家把 "从SQL语句到具体执行" 这个流程串起来。并且尽量多提供调用栈,这样大家在遇到问题时就知道应该从什么地方设置断点,对整体架构理解也能更加深入。原创 2020-05-15 21:35:48 · 940 阅读 · 1 评论 -
[源码分析] 从实例和源码入手看 Flink 之广播 Broadcast
本文将通过源码分析和实例讲解,带领大家熟悉Flink的广播变量机制。原创 2020-05-15 21:34:08 · 1454 阅读 · 0 评论 -
[源码分析] 从FlatMap用法到Flink的内部实现
本文将从FlatMap概念和如何使用开始入手,深入到Flink是如何实现FlatMap。希望能让大家对这个概念有更深入的理解。原创 2020-05-15 21:32:44 · 956 阅读 · 0 评论 -
[源码分析] 从源码入手看 Flink Watermark 之传播过程
本文将通过源码分析,带领大家熟悉Flink Watermark 之传播过程,顺便也可以对Flink整体逻辑有一个大致把握。原创 2020-05-14 21:51:25 · 816 阅读 · 0 评论 -
[白话解析] Flink的Watermark机制
对于Flink来说,Watermark是个很难绕过去的概念。本文将从整体的思路上来说,运用感性直觉的思考来帮大家梳理Watermark概念。原创 2020-05-14 21:49:36 · 635 阅读 · 1 评论 -
Alink漫谈(四) : 模型的来龙去脉
Alink 是阿里巴巴基于实时计算引擎 Flink 研发的新一代机器学习算法平台,是业界首个同时支持批式算法、流式算法的机器学习平台。本文将从模型角度入手带领大家来再次深入Alink。原创 2020-05-23 08:21:59 · 621 阅读 · 0 评论 -
[Alink漫谈之三] AllReduce通信模型
Alink 是阿里巴巴基于实时计算引擎 Flink 研发的新一代机器学习算法平台,是业界首个同时支持批式算法、流式算法的机器学习平台。本文将带领大家来分析Alink中通讯模型AllReduce的实现。AllReduce在Alink中应用较多,比如KMeans,LDA,Word2Vec,GD,lbfgs,Newton method,owlqn,SGD,Gbdt, random forest都用到了这个通讯模型原创 2020-05-17 08:58:38 · 1763 阅读 · 0 评论 -
Alink漫谈(二) : 从源码看机器学习平台Alink设计和架构
Alink 是阿里巴巴基于实时计算引擎 Flink 研发的新一代机器学习算法平台,是业界首个同时支持批式算法、流式算法的机器学习平台。本文是漫谈系列的第二篇,将从源码入手,带领大家具体剖析Alink设计思想和架构为何。原创 2020-05-16 17:05:48 · 1342 阅读 · 0 评论 -
Alink漫谈(一) : 从KMeans算法实现不同看Alink设计思想
Alink 是阿里巴巴基于实时计算引擎 Flink 研发的新一代机器学习算法平台,是业界首个同时支持批式算法、流式算法的机器学习平台。本文将带领大家从多重角度出发来分析推测Alink的设计思路。原创 2020-05-16 12:17:23 · 1536 阅读 · 3 评论