自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(543)
  • 收藏
  • 关注

原创 【Flink metric(2)】chunjun的metric系统是怎么设计的:如何注册metric、如何同步metric

【Flink-源码分析】chunjun的metric系统是怎么设计的:如何注册metric、如何同步metric

2024-06-24 22:50:22 1137

原创 【Flink metric(1)】Flink指标系统的系统性知识:获取metric以及注册自己的metric

【Flink metric】Flink指标系统的系统性知识:以便我们实现特性化数据的指标监控与分析

2024-06-23 22:39:31 2134 1

原创 【源码分析】chunjun实现flink sql连接器的顶层思想:通过实现InputFormatSourceFunction来串起flink sql 连接器的生命周期

【源码分析】chunjun实现flink sql连接器的顶层思想:通过实现InputFormatSourceFunction来串起flink sql 连接器的生命周期

2024-06-23 22:15:00 1111

原创 【源码分析】一个flink job的sql到底是如何执行的(一):flink sql底层是如何调用connector实现物理执行计划的

【源码分析】一个flink job的sql到底是如何执行的(一):flink sql底层是如何调用connector实现物理执行计划的

2024-01-11 23:12:46 1862

原创 【深度学习】hello tensorflow:安装TensorFlow(on mac m3)、tensorflow集成到idea、第一个tensorflow程序(以及tf2适配版本tf1)

【机器学习】hello tensorflow:安装TensorFlow(on mac m3)、tensorflow集成到idea、第一个tensorflow程序(以及tf2适配版本tf1)

2023-12-15 13:39:30 2819 5

原创 【源码解析】flink sql执行源码概述:flink sql执行过程中有哪些阶段,这些阶段的源码大概位置在哪里

本文大致分析了flink sql执行过程中的各个阶段的源码逻辑,这样可以在flink sql执行过程中, 能够定位到任务执行的某个阶段的代码大概分布在哪里,为更针对性的分析此阶段的细节逻辑打下基础,比如create 的逻辑是怎么执行的,select的逻辑是怎么生成的,优化逻辑都做了哪些,而这些是接下来的文章要分析的。

2023-12-13 23:20:18 2373 1

原创 【性能调优】【离线任务】flink处理离线任务(8000个小文件?200多亿数据量?)稳定性与性能调优探索

【性能调优】【离线任务】flink处理离线任务(8000个小文件?200多亿数据量?)稳定性与性能调优

2023-01-09 23:43:41 2213

原创 【性能|优化】TB级flink任务报错分析:Could not compute the container Resource

【性能|优化】TB级flink任务报错分析:Could not compute the container Resource

2022-11-29 00:29:17 2128 2

原创 【shuffle/内存模型】spark(七)超详细mareduce shuffle和spark Shuffle讲解、以及spark比mapreduce快在哪些方面

【shuffle/内存模型】超详细mareduce shuffle和spark Shuffle讲解、以及spark比mapreduce快在哪些方面

2022-09-30 23:06:36 1770

原创 【修改源码】hadoop 3.3.1 failed with status code 401 Response message: Authentication required

本文主要通过修改源码解决hadoop内部通讯鉴权的问题。

2022-09-19 16:00:07 1747 4

原创 【运维/安装】Flink + MinIO:实现light-weighting思路下的集群(集群、高可用&&POC、快速搭建)

本文通过使用flink+MinIO安装实现flink standalone的集群模式,实现“轻量化集群”flink集群本身作为计算资源,去执行flink jobMinio 用于存储Flink job产生checkpoint和savepoint、以及存储flink HA的一些信息,也就是作为分布式存储系统。

2022-09-14 21:23:55 6129 19

原创 【分析思路】hadoop 3.3.1 bug修复:failed with status code 401 Response message: Authentication required

为了支持国产化,hadoop需要安装3.3.1版本,而客户这边需要安全认证,所以对于hadoop需要做的事是升级到3.3.1版本、支持HA模式、安全认证。本文关注hadoop升级过程、启动中出现的401权限问题。

2022-09-05 21:37:18 1521

原创 【系统架构设计(三)】系统工程与信息系统基础下:企业信息化与电子商务-数字化转型的核心驱动力

【系统架构设计(三)】系统工程与信息系统基础下:企业信息化与电子商务-数字化转型的核心驱动力

2025-08-27 13:05:08 230

原创 【系统架构设计(二)】系统工程与信息系统基础中:信息系统基础

【系统架构设计(二)】系统工程与信息系统基础下:信息系统基础

2025-08-26 22:12:55 724

原创 【系统架构设计(一)】系统工程与信息系统基础上:系统工程基础概念

【系统架构设计(一)】系统工程与信息系统基础上:系统工程基础概念

2025-08-26 22:02:12 302

原创 【深度学习】深度学习的四个核心步骤:从房价预测看机器学习本质

**机器学习不是简单的数据拟合,而是一种从数据中自动发现规律的方法论。**

2025-08-14 23:43:27 1217 2

原创 【深度学习】深度学习基础概念与初识PyTorch

【深度学习】深度学习基础概念与初识PyTorch

2025-08-14 21:25:49 650

原创 【机器学习】算法调参的两种方式:网格搜索(枚举)、随机搜索

【机器学习】算法调参的两种方式:网格搜索(枚举)、随机搜索

2025-08-05 22:51:15 791

原创 【机器学习】(算法优化二)提升算法之:AdaBoost与随机梯度

【机器学习】(算法优化二)提升算法之:AdaBoost与随机梯度

2025-08-04 22:39:32 694

原创 【机器学习】(算法优化一)集成学习之:装袋算法(Bagging):装袋决策树、随机森林、极端随机树

【机器学习】(算法优化)集成学习之:装袋算法(Bagging):装袋决策树、随机森林、极端随机树

2025-08-04 20:25:51 1194

原创 【机器学习】线性回归算法详解:线性回归、岭回归、Lasso回归与Elastic Net

【机器学习】回归算法详解:线性回归、岭回归、Lasso回归与Elastic Net

2025-08-03 23:45:54 835

原创 【机器学习】非线性分类算法详解(下):决策树(最佳分裂特征选择的艺术)与支持向量机(最大间隔和核技巧)

【机器学习】非线性分类算法详解(下):决策树(最佳分裂特征选择的艺术)与支持向量机(最大间隔和核技巧)

2025-08-02 22:21:49 828

原创 【机器学习】非线性分类算法(上):KNN(基于距离相似度)与朴素(特征独立)贝叶斯(基于概率统计)

【机器学习】四大非线性分类算法(上):KNN(基于距离相似度)与朴素(特征独立)贝叶斯(基于概率统计)

2025-08-02 19:50:02 985

原创 【机器学习】两大线性分类算法:逻辑回归与线性判别分析:找到分界线的艺术

【机器学习】线性分类算法:逻辑回归、线性判别分析算法:找到分界线的艺术

2025-08-02 18:37:30 727

原创 【机器学习】“回归“算法模型的三个评估指标:MAE(衡量预测准确性)、MSE(放大大误差)、R²(说明模型解释能力)

【机器学习】"回归"算法模型的三个评估指标:MAE(衡量预测准确性)、MSE(放大大误差)、R²(说明模型解释能力)

2025-08-02 11:04:50 1111

原创 【机器学习11】“分类算法“评估矩阵:从对数损失、AUC和ROC、混淆矩阵与分类报告等角度来评估算法

【机器学习算法】分类算法评估方法矩阵:从对数损失、AUC和ROC、混淆矩阵与分类报告等角度来评估算法

2025-07-30 23:20:03 702

原创 【分布式架构】学习路径概述:了解分布式系统的核心问题、解决方案与实战说明

摘要 分布式系统设计需兼顾理论、工程与故障处理能力,核心在于理解CAP/BASE等基础理论,掌握Paxos/Raft一致性算法、分布式事务(2PC/TCC)及存储方案(分片/副本)。架构设计需分层考量接入、业务与数据层,结合技术选型权衡(如Redis集群 vs 数据库主从)。工程实践包括Flink流批一体处理、微服务治理及性能优化(缓存、异步化)。故障排查依赖全链路追踪与容量规划,而系统治理需保障服务稳定性(熔断/限流)与可观测性(监控/日志)。该领域要求从理论到落地的综合能力,适合架构师等高阶角色。

2025-07-26 22:58:50 632

原创 【系统设计】系统设计中反复提到的30个核心概念

【系统设计】系统设计中反复提到的30个核心概念

2025-07-24 00:23:30 621

原创 【机器学习【9】】评估算法:数据集划分与算法泛化能力评估

【机器学习【9】】评估算法:数据集划分与算法泛化能力评估

2025-07-20 15:39:05 1184

原创 【机器学习实战【8】】机器学习特征选定与评估

本文介绍了四种主流特征选择方法及其应用场景:1)单变量特征选择(SelectKBest)通过统计检验筛选与目标最相关的特征;2)递归特征消除(RFE)通过迭代训练模型逐步剔除不重要特征;3)主成分分析(PCA)通过线性变换降维保留最大方差方向;4)特征重要性基于树模型或置换法评估特征贡献。文章详细阐述了卡方检验和F检验的原理差异,并通过代码示例展示了SelectKBest和RFE的具体实现流程,强调特征工程对机器学习效果的决定性作用。

2025-07-17 18:04:17 1017

原创 【机器学习【7】】数据预处理:数据准备、数据转换、数据输出

【机器学习【7】】数据预处理:数据准备、数据转换、数据输出

2025-07-17 14:24:37 1098

原创 【机器学习【6】】数据理解:数据导入、数据审查与数据可视化方法论

本文系统介绍了机器学习数据准备的关键技术和方法。首先详细对比了三种数据导入方式,指出Pandas在类型推断、缺失值处理等方面的优势。然后提出"六维数据画像"方法,从数据结构、质量、目标变量等维度进行全面分析。最后通过五种可视化技术(直方图、箱线图等)揭示数据分布特征和异常模式,为后续算法选择提供依据。文章强调数据理解应遵循"从宏观到微观"的认知规律,并展示了如何将数据特征映射到合适的算法选择,构建了完整的数据分析决策链条。

2025-07-16 22:35:31 1342 1

原创 【机器学习基础【5】】Python数据科学三件套:从数据创建到处理再到可视化实战

【机器学习基础【5】】Python数据科学三件套:从数据创建到处理再到可视化实战

2025-07-16 00:07:43 433

原创 【Python虚拟环境【一】】PyCharm虚拟环境配置:不同虚拟环境的配置策略

如果你的项目涉及NumPy、Pandas、Jupyter等科学计算工具,Conda能提供预编译的优化版本,避免编译问题。对于学习Python或快速原型开发,Virtualenv的简洁性是优势,配置简单,不会引入额外复杂性。虚拟环境告诉PyCharm这个项目需要什么版本的Python,安装了哪些库。Conda环境的配置相对复杂,因为它管理的不仅是Python包,还有。系统中安装了多个Python版本,PyCharm选择了错误的版本。Poetry的配置相对自动化,PyCharm会自动识别项目中的。

2025-07-15 00:31:01 1011

原创 【机器学习3】机器学习(鸢尾花分类)项目核心流程与企业实践差异分析

【机器学习3】机器学习(鸢尾花分类)项目核心流程与企业实践差异分析

2025-07-04 23:13:46 625

原创 【学习线路】机器学习线路概述与内容关键点说明

通过数据驱动让计算机自动学习规律,无需显式编程(Arthur Samuel)。核心公式:程序通过经验(E)提升任务(T)性能(P)(Tom Mitchell)。

2025-07-03 23:45:27 1196

原创 【RAG技术(1)】大模型为什么需要RAG

【RAG技术(1)】大模型为什么需要RAG

2025-06-24 19:40:54 653

原创 【系统设计【5】】一致性哈希:从系统崩溃到优雅扩容的设计演进

【系统设计【5】】一致性哈希:从系统崩溃到优雅扩容的设计演进

2025-06-22 14:18:38 1030

原创 【Weaviate底层】Weaviate写数据之两阶段提交:cannot reach enough replicas的判断

【Weaviate底层】Weaviate写数据之两阶段提交:cannot reach enough replicas的判断

2025-06-22 13:06:06 883

原创 【Weaviate源码】数据写入之:LSM树Flush机制:从内存到磁盘的原子转换

【Weaviate源码】数据写入之:LSM树Flush机制:从内存到磁盘的原子转换

2025-06-22 12:33:25 921

Lambda Architecture – Realtime Data Processing paper

Lambda Architecture 论文

2024-02-27

适用于linux的oracle 客户端包

适用于linux的oracle 客户端包

2023-08-24

flink on yarn 模式下,flink 1.12.5版本运行所需完整lib包

flink on yarn 模式下 flink 1.12.5版本 运行所需完整lib包 操作步骤:解压lib,上传jar到HDFS上,提交yarn任务时会加载这些lib包

2022-08-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除