- 博客(543)
- 收藏
- 关注

原创 【Flink metric(2)】chunjun的metric系统是怎么设计的:如何注册metric、如何同步metric
【Flink-源码分析】chunjun的metric系统是怎么设计的:如何注册metric、如何同步metric
2024-06-24 22:50:22
1137

原创 【Flink metric(1)】Flink指标系统的系统性知识:获取metric以及注册自己的metric
【Flink metric】Flink指标系统的系统性知识:以便我们实现特性化数据的指标监控与分析
2024-06-23 22:39:31
2134
1

原创 【源码分析】chunjun实现flink sql连接器的顶层思想:通过实现InputFormatSourceFunction来串起flink sql 连接器的生命周期
【源码分析】chunjun实现flink sql连接器的顶层思想:通过实现InputFormatSourceFunction来串起flink sql 连接器的生命周期
2024-06-23 22:15:00
1111

原创 【源码分析】一个flink job的sql到底是如何执行的(一):flink sql底层是如何调用connector实现物理执行计划的
【源码分析】一个flink job的sql到底是如何执行的(一):flink sql底层是如何调用connector实现物理执行计划的
2024-01-11 23:12:46
1862

原创 【深度学习】hello tensorflow:安装TensorFlow(on mac m3)、tensorflow集成到idea、第一个tensorflow程序(以及tf2适配版本tf1)
【机器学习】hello tensorflow:安装TensorFlow(on mac m3)、tensorflow集成到idea、第一个tensorflow程序(以及tf2适配版本tf1)
2023-12-15 13:39:30
2819
5

原创 【源码解析】flink sql执行源码概述:flink sql执行过程中有哪些阶段,这些阶段的源码大概位置在哪里
本文大致分析了flink sql执行过程中的各个阶段的源码逻辑,这样可以在flink sql执行过程中, 能够定位到任务执行的某个阶段的代码大概分布在哪里,为更针对性的分析此阶段的细节逻辑打下基础,比如create 的逻辑是怎么执行的,select的逻辑是怎么生成的,优化逻辑都做了哪些,而这些是接下来的文章要分析的。
2023-12-13 23:20:18
2373
1

原创 【性能调优】【离线任务】flink处理离线任务(8000个小文件?200多亿数据量?)稳定性与性能调优探索
【性能调优】【离线任务】flink处理离线任务(8000个小文件?200多亿数据量?)稳定性与性能调优
2023-01-09 23:43:41
2213

原创 【性能|优化】TB级flink任务报错分析:Could not compute the container Resource
【性能|优化】TB级flink任务报错分析:Could not compute the container Resource
2022-11-29 00:29:17
2128
2

原创 【shuffle/内存模型】spark(七)超详细mareduce shuffle和spark Shuffle讲解、以及spark比mapreduce快在哪些方面
【shuffle/内存模型】超详细mareduce shuffle和spark Shuffle讲解、以及spark比mapreduce快在哪些方面
2022-09-30 23:06:36
1770

原创 【修改源码】hadoop 3.3.1 failed with status code 401 Response message: Authentication required
本文主要通过修改源码解决hadoop内部通讯鉴权的问题。
2022-09-19 16:00:07
1747
4

原创 【运维/安装】Flink + MinIO:实现light-weighting思路下的集群(集群、高可用&&POC、快速搭建)
本文通过使用flink+MinIO安装实现flink standalone的集群模式,实现“轻量化集群”flink集群本身作为计算资源,去执行flink jobMinio 用于存储Flink job产生checkpoint和savepoint、以及存储flink HA的一些信息,也就是作为分布式存储系统。
2022-09-14 21:23:55
6129
19

原创 【分析思路】hadoop 3.3.1 bug修复:failed with status code 401 Response message: Authentication required
为了支持国产化,hadoop需要安装3.3.1版本,而客户这边需要安全认证,所以对于hadoop需要做的事是升级到3.3.1版本、支持HA模式、安全认证。本文关注hadoop升级过程、启动中出现的401权限问题。
2022-09-05 21:37:18
1521
原创 【系统架构设计(三)】系统工程与信息系统基础下:企业信息化与电子商务-数字化转型的核心驱动力
【系统架构设计(三)】系统工程与信息系统基础下:企业信息化与电子商务-数字化转型的核心驱动力
2025-08-27 13:05:08
230
原创 【机器学习】(算法优化一)集成学习之:装袋算法(Bagging):装袋决策树、随机森林、极端随机树
【机器学习】(算法优化)集成学习之:装袋算法(Bagging):装袋决策树、随机森林、极端随机树
2025-08-04 20:25:51
1194
原创 【机器学习】线性回归算法详解:线性回归、岭回归、Lasso回归与Elastic Net
【机器学习】回归算法详解:线性回归、岭回归、Lasso回归与Elastic Net
2025-08-03 23:45:54
835
原创 【机器学习】非线性分类算法详解(下):决策树(最佳分裂特征选择的艺术)与支持向量机(最大间隔和核技巧)
【机器学习】非线性分类算法详解(下):决策树(最佳分裂特征选择的艺术)与支持向量机(最大间隔和核技巧)
2025-08-02 22:21:49
828
原创 【机器学习】非线性分类算法(上):KNN(基于距离相似度)与朴素(特征独立)贝叶斯(基于概率统计)
【机器学习】四大非线性分类算法(上):KNN(基于距离相似度)与朴素(特征独立)贝叶斯(基于概率统计)
2025-08-02 19:50:02
985
原创 【机器学习】“回归“算法模型的三个评估指标:MAE(衡量预测准确性)、MSE(放大大误差)、R²(说明模型解释能力)
【机器学习】"回归"算法模型的三个评估指标:MAE(衡量预测准确性)、MSE(放大大误差)、R²(说明模型解释能力)
2025-08-02 11:04:50
1111
原创 【机器学习11】“分类算法“评估矩阵:从对数损失、AUC和ROC、混淆矩阵与分类报告等角度来评估算法
【机器学习算法】分类算法评估方法矩阵:从对数损失、AUC和ROC、混淆矩阵与分类报告等角度来评估算法
2025-07-30 23:20:03
702
原创 【分布式架构】学习路径概述:了解分布式系统的核心问题、解决方案与实战说明
摘要 分布式系统设计需兼顾理论、工程与故障处理能力,核心在于理解CAP/BASE等基础理论,掌握Paxos/Raft一致性算法、分布式事务(2PC/TCC)及存储方案(分片/副本)。架构设计需分层考量接入、业务与数据层,结合技术选型权衡(如Redis集群 vs 数据库主从)。工程实践包括Flink流批一体处理、微服务治理及性能优化(缓存、异步化)。故障排查依赖全链路追踪与容量规划,而系统治理需保障服务稳定性(熔断/限流)与可观测性(监控/日志)。该领域要求从理论到落地的综合能力,适合架构师等高阶角色。
2025-07-26 22:58:50
632
原创 【机器学习实战【8】】机器学习特征选定与评估
本文介绍了四种主流特征选择方法及其应用场景:1)单变量特征选择(SelectKBest)通过统计检验筛选与目标最相关的特征;2)递归特征消除(RFE)通过迭代训练模型逐步剔除不重要特征;3)主成分分析(PCA)通过线性变换降维保留最大方差方向;4)特征重要性基于树模型或置换法评估特征贡献。文章详细阐述了卡方检验和F检验的原理差异,并通过代码示例展示了SelectKBest和RFE的具体实现流程,强调特征工程对机器学习效果的决定性作用。
2025-07-17 18:04:17
1017
原创 【机器学习【6】】数据理解:数据导入、数据审查与数据可视化方法论
本文系统介绍了机器学习数据准备的关键技术和方法。首先详细对比了三种数据导入方式,指出Pandas在类型推断、缺失值处理等方面的优势。然后提出"六维数据画像"方法,从数据结构、质量、目标变量等维度进行全面分析。最后通过五种可视化技术(直方图、箱线图等)揭示数据分布特征和异常模式,为后续算法选择提供依据。文章强调数据理解应遵循"从宏观到微观"的认知规律,并展示了如何将数据特征映射到合适的算法选择,构建了完整的数据分析决策链条。
2025-07-16 22:35:31
1342
1
原创 【机器学习基础【5】】Python数据科学三件套:从数据创建到处理再到可视化实战
【机器学习基础【5】】Python数据科学三件套:从数据创建到处理再到可视化实战
2025-07-16 00:07:43
433
原创 【Python虚拟环境【一】】PyCharm虚拟环境配置:不同虚拟环境的配置策略
如果你的项目涉及NumPy、Pandas、Jupyter等科学计算工具,Conda能提供预编译的优化版本,避免编译问题。对于学习Python或快速原型开发,Virtualenv的简洁性是优势,配置简单,不会引入额外复杂性。虚拟环境告诉PyCharm这个项目需要什么版本的Python,安装了哪些库。Conda环境的配置相对复杂,因为它管理的不仅是Python包,还有。系统中安装了多个Python版本,PyCharm选择了错误的版本。Poetry的配置相对自动化,PyCharm会自动识别项目中的。
2025-07-15 00:31:01
1011
原创 【学习线路】机器学习线路概述与内容关键点说明
通过数据驱动让计算机自动学习规律,无需显式编程(Arthur Samuel)。核心公式:程序通过经验(E)提升任务(T)性能(P)(Tom Mitchell)。
2025-07-03 23:45:27
1196
原创 【Weaviate底层】Weaviate写数据之两阶段提交:cannot reach enough replicas的判断
【Weaviate底层】Weaviate写数据之两阶段提交:cannot reach enough replicas的判断
2025-06-22 13:06:06
883
原创 【Weaviate源码】数据写入之:LSM树Flush机制:从内存到磁盘的原子转换
【Weaviate源码】数据写入之:LSM树Flush机制:从内存到磁盘的原子转换
2025-06-22 12:33:25
921
flink on yarn 模式下,flink 1.12.5版本运行所需完整lib包
2022-08-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人