- 博客(127)
- 收藏
- 关注
原创 数据仓库分层建模(ODS、DWD、DWS、ADS)实战
数据仓库分层建模(ODS、DWD、DWS、ADS)不仅是架构设计,更是一种工程实践。通过逐层加工,我们能够将“脏乱差”的原始数据,转化为高质量的业务指标,支撑企业的决策与应用。分层的思想也适用于实时数仓(Flink + Kafka + HBase),未来你可以尝试结合离线 + 实时的Lambda 架构或湖仓一体(Iceberg、Hudi、Delta Lake)实践更高级的数据仓库设计。
2025-09-06 11:35:58
149
原创 Hive SQL 基础与常见数据操作
Hive SQL 让开发者能够像操作数据库一样操作 HDFS 上的大规模数据。掌握数据库、表、数据加载与查询操作后,就能快速开展数据分析任务。进一步,你还可以学习分区表、分桶表、视图、UDF 自定义函数等进阶内容,提升查询性能与扩展能力。
2025-09-06 11:34:08
8
原创 Hive on Tez/Spark 执行引擎对比与优化
Tez在批处理场景中性能优异;Spark则在大规模复杂计算中表现更好。在实际生产中,建议根据任务类型和集群资源选择合适的执行引擎,并通过内存、并行度等参数调优,以发挥最佳性能。
2025-09-06 08:44:43
36
原创 Hadoop 集群性能调优:内存、并行度与 IO 优化
Hadoop 作为大数据处理的基石,广泛应用于日志分析、离线计算、数据仓库等场景。但在实际生产中,如果配置不合理,往往会遇到任务运行缓慢、内存溢出、磁盘 IO 瓶颈等问题。本文将从内存、并行度、IO三个方面,系统介绍 Hadoop 集群的性能调优方法,帮助你提升集群整体效率。Hadoop 集群性能调优的核心在于平衡资源与效率内存调优:合理分配容器与任务内存,避免 OOM 或资源浪费;并行度优化:调整 Map/Reduce 数量,提升并行度,避免数据倾斜;
2025-09-05 09:42:22
352
原创 YARN 资源调度机制详解与调优
在 Hadoop 大数据生态中,YARN(Yet Another Resource Negotiator)是核心的资源管理与任务调度框架。它负责集群资源的统一分配与管理,支持多种计算框架(MapReduce、Spark、Flink 等)在同一集群上并行运行。理解 YARN 的资源调度机制,并掌握调优方法,对于提高集群利用率和作业执行效率至关重要。YARN 架构:RM 负责全局资源管理,NM 管理节点,AM 负责应用,Container 是资源单元。三大调度器。
2025-09-05 09:42:00
120
原创 MapReduce 案例实战:日志分析与词频统计
MapReduce 是 Hadoop 的核心计算模型,它通过Map(映射)和 Reduce(归约)两个阶段,实现对海量数据的并行处理。在大数据实战中,日志分析和词频统计是最经典的案例。本文将以日志分析为例,讲解 MapReduce 的原理与实战操作。MapReduce 是 Hadoop 的核心计算模型,通过完成海量数据处理。日志分析和词频统计是经典应用,能帮助我们掌握 MapReduce 的编程模式。掌握Mapper、Reducer、Driver 的编写及HDFS 文件操作。
2025-09-04 12:00:53
275
原创 HDFS 核心原理与常见运维命令
HDFS(Hadoop Distributed File System)是 Hadoop 生态系统的基础组件,它提供了高可靠、高吞吐量的分布式存储。理解 HDFS 的核心原理和掌握常用运维命令,对于大数据开发与运维至关重要。本文将从原理讲解入手,并列出实用命令,帮助你快速上手 HDFS 管理。HDFS 是大数据存储的核心,理解其数据块、NameNode/DataNode 架构、写读流程与副本机制,可以帮助你更高效地管理集群。掌握常用运维命令,能快速完成文件操作、状态监控和故障处理。
2025-09-04 12:00:25
156
原创 本地模式 vs 集群模式:如何快速搭建大数据测试环境
大数据系统的开发和测试往往需要处理海量数据和分布式计算,但对于初学者或开发阶段的测试来说,直接部署完整集群既复杂又费资源。本文将讲解本地模式与集群模式的区别,并教你如何快速搭建测试环境,让你在本地就能模拟大数据处理流程。本地模式:开发和学习必备,轻量、易调试,但无法处理大数据量。集群模式:模拟真实生产环境,可测试性能和高可用,但部署复杂。结合两种模式:先本地调试,再伪分布式或集群测试,可以大幅提升开发效率。理解本地模式与集群模式的区别,并掌握快速搭建方法,是每一个大数据开发工程师的基础技能。
2025-09-03 16:02:49
16
原创 分布式架构核心概念:HDFS、YARN、Zookeeper 基础详解
在大数据生态系统中,是最核心的基础组件。它们分别解决了分布式存储、资源调度、协调管理等关键问题,奠定了整个大数据架构的地基。理解它们,就能更好地理解 Hadoop、Spark、Flink 等框架的运行机制。HDFS:负责存储,解决“海量数据如何存”;YARN:负责调度,解决“有限资源如何分”;Zookeeper:负责协调,解决“分布式节点如何一致”。理解它们的原理与关系,能帮助我们在实际项目中正确设计架构,保证系统的高可用、高扩展、高可靠。
2025-09-03 16:02:19
172
原创 大数据开发环境搭建(Linux + Hadoop + Spark + Flink + Hive + Kafka)
大数据生态系统包含众多组件,初学者常常不知道如何一步步搭建开发环境。本文将以Linux 系统为基础,带你完成的安装与配置,搭建出一个完整的大数据开发环境,既适合个人学习,也能应用于小规模实验集群。通过本文,你完成了的大数据开发环境搭建。从存储、计算、流处理到消息传输,形成了一个完整的大数据处理闭环。日志分析项目实时大屏机器学习建模只要环境搭建好了,就能快速上手各种大数据实战项目。大数据项目实战与调优案例。
2025-09-02 13:35:39
356
原创 大数据生态系统全景图:Hadoop、Spark、Flink、Hive、Kafka 的关系
随着数据规模的指数级增长,传统单机数据库和计算方式已难以满足业务需求。大数据生态系统应运而生,其中 Hadoop、Spark、Flink、Hive、Kafka 等组件相互配合,构成了一个完整的数据处理闭环。很多初学者常常困惑:这些框架到底解决了什么问题?它们之间又是怎样的关系?本文将通过一张“全景图”带你理清思路。Hadoop提供存储与调度,是地基;Hive提供 SQL 查询,是数仓利器;Spark提供快速批处理与通用计算能力;Flink聚焦实时流处理,满足低延迟需求;Kafka。
2025-09-02 13:32:41
333
原创 深度学习常见错误汇总与解决方案(含调试技巧)
Loss 不正常?| |Loss nan Loss 不下降| |检查梯度/激活层 检查学习率/归一化模型预测异常?检查标签、激活函数、输出维度训练模型时出错是家常便饭,但不要慌。先看 loss、准确率曲线趋势;逐层打印维度,验证每一步是否合理;定位是否是数据、模型还是训练过程的问题。
2025-06-01 00:14:31
107
原创 模型评估指标详解:准确率、召回率、AUC 是什么?
指标适用场景是否受阈值影响Accuracy样本均衡是Precision重视误报是Recall重视漏报是F1 Score类别不均衡是AUC分类能力整体判断否👉 评估指标不是“谁高谁好”,而是“谁更符合业务目标”。
2025-05-29 12:33:35
336
原创 调参指南:如何有效优化模型训练效果
调参是经验 + 实践的结合。参数推荐范围学习率batch_size32 ~ 256dropout0.3 ~ 0.5建议配合 TensorBoard/WandB 做训练过程监控,结合训练/验证损失曲线及时判断模型问题。
2025-05-29 12:32:57
101
原创 深度学习+Flask 打包一个AI模型接口并部署上线
如何用 Flask 创建深度学习模型的在线接口;如何加载 PyTorch 模型并处理图片数据;如何通过 curl、requests、Postman 进行接口测试;简单部署方法(Gunicorn/Docker)介绍。
2025-05-21 14:59:57
529
原创 迁移学习实战:用预训练模型解决小样本图像分类
迁移学习(Transfer Learning)是将已有模型的知识迁移到新任务上的一种方法,特别适用于数据稀缺场景。使用ImageNet 预训练模型;替换最后的分类层;冻结或微调部分网络参数。适用于:医学图像识别、工业缺陷检测、花卉识别等“小数据量”图像任务。你学到了什么?用已有模型“提取知识”;如何使用 PyTorch 加载预训练模型;如何替换分类层,实现微调或特征提取;用于小样本图像分类任务的完整流程;冻结更多层或解冻全部微调;
2025-05-21 14:59:28
326
原创 时间序列预测实战:用 LSTM 预测股票价格
时间序列数据滑动窗口的构建方式;LSTM 网络在回归任务中的使用;使用 PyTorch 训练时间序列模型的完整流程;可视化真实 vs 预测值图表。股票预测一直是 AI 和金融交叉领域的热门方向。本项目虽然简单,却足以作为 LSTM 时间序列预测的入门实战模板。
2025-05-19 12:22:12
482
原创 文本分类实战:使用LSTM对微博评论进行情感分析
return out如何对中文文本数据进行清洗、编码、构建词典;如何使用 PyTorch 搭建 LSTM 文本分类模型;如何训练、验证、评估模型效果;如何对新评论进行情感预测。使用jieba分词替代字级分词;引入预训练词向量(如 fastText、Word2Vec);使用更强模型如 BiLSTM、TextCNN、Transformer;尝试多标签分类、多情感等级分类。情感分析是连接 NLP 与实际商业价值的黄金项目。希望本实战能够帮助你迈出 NLP 的第一步。
2025-05-19 12:21:10
291
原创 一文搞懂大模型推理加速:从基础概念到实践优化(ONNX + TensorRT 实战)
推理加速手段推荐场景ONNX通用、跨平台推理部署TensorRTNVIDIA GPU 上高性能部署模型量化轻量级部署、移动端剪枝+量化极限压缩(小模型)
2025-05-17 15:42:12
1018
原创 一文读懂 LangChain + 大模型应用开发:打造你的智能 AI 助手
LangChain 是一个用于构建基于 LLM 的“链式思维应用(Chain of Thought Applications)”的 Python 框架。它将语言模型与外部数据、工具链(如搜索、数据库、计算器)整合,帮助开发者快速构建复杂的 AI 应用。简单理解:LangChain 就是连接大模型和你想做的任务之间的“胶水”。组件功能LLMs封装 OpenAI、ChatGLM、Baichuan 等语言模型管理提示词模板Chains串联多个模块,构建任务流Agents基于思考-行动-观察的智能体Tools。
2025-05-17 15:37:59
895
原创 图像分类实战:基于ResNet实现猫狗识别
✅ 使用了预训练模型 ResNet18,大大加快训练;✅ 利用快速加载分类数据;✅ 实现了完整的训练、验证、预测流程;✅ 可扩展到其他多分类任务。用 ResNet50、EfficientNet 等更强模型;使用 TensorBoard 可视化训练过程;尝试模型量化、剪枝部署到边缘设备;图像分类是进入深度学习的绝佳练手项目。掌握从数据处理、模型训练到部署预测的完整流程,是每个深度学习工程师的必经之路。
2025-05-16 13:31:26
327
原创 用GPU训练模型的那些事:PyTorch 多卡训练实战
nn.ReLU(),nn.ReLU(),nn.ReLU(),✅ GPU 加速是深度学习训练的基础;✅是单机多卡的简便方式;✅ 建议使用替代以提升性能;✅ 多卡训练时注意设备管理和数据并行策略。
2025-05-16 13:31:03
210
原创 RNN/LSTM原理与 PyTorch 时间序列预测实战
传统的神经网络无法处理序列之间的依赖关系。而循环神经网络(RNN)引入“记忆”机制,可以将过去的信息保留下来用于当前输出的计算。项目内容模型结构单层 LSTM + FC输入维度优势可处理时序依赖,效果优于传统神经网络可改进多层 LSTM、双向 LSTM、GRU、注意力机制等。
2025-05-15 12:29:10
492
原创 CNN 卷积神经网络详解及 PyTorch 实现
CNN 是一种具有局部感受野和参数共享机制的深度神经网络,尤其适合处理二维图像。return x项目内容输入MNIST 手写数字图像(28×28)网络结构特点参数少、鲁棒性强、适合图像准确率通常比全连接网络更高。
2025-05-15 12:28:37
187
原创 用 PyTorch 实现你的第一个全连接神经网络(手写数字识别)
我们使用输入层(28×28 = 784维)隐藏层(128 个神经元,ReLU 激活)输出层(10 类别,对应数字 0~9)nn.ReLU(),模块内容数据集使用下载手写数字模型结构三层全连接神经网络(784→128→10)损失函数用于多分类优化器Adam优化器,加快收敛速度可视化使用matplotlib展示预测效果。
2025-05-14 13:19:43
282
原创 PyTorch 安装与基础操作:张量、自动求导详解
模块说明TensorPyTorch 的基本数据单元Autograd支持反向传播的自动求导机制开启参数学习(梯度追踪)backward()自动计算所有需要的偏导数no_grad禁用计算图,用于推理、评估等场景。
2025-05-14 13:19:19
160
原创 用 NumPy 手写一个最简单的神经网络
模块内容前向传播反向传播使用链式法则更新所有参数损失函数使用二分类交叉熵优化方式使用最基本的梯度下降法这就是一个最基本的、从零用 NumPy 实现的神经网络初始化、前向传播、损失计算、反向传播、参数更新。
2025-05-13 22:24:40
89
原创 激活函数、损失函数、反向传播你必须知道的事
激活函数的作用是引入非线性变换,让神经网络可以拟合复杂函数。如果没有激活函数,不管网络有多少层,本质上等价于一层线性变换。通过链式法则计算损失函数对每个权重的梯度,并使用梯度下降法进行权重更新。前向传播计算出预测值和损失;反向传播计算每层权重对损失的梯度;优化器更新参数,如 SGD、Adam 等。模块作用简述激活函数增加模型非线性能力,避免退化为线性变换损失函数衡量模型好坏,是优化目标反向传播利用链式法则自动计算梯度,是模型训练的核心机制。
2025-05-13 21:58:40
245
原创 神经网络是如何工作的
神经网络是一种模拟人脑神经元连接方式的算法结构。它由输入层、隐藏层和输出层构成,核心是:输入 → 权重计算 → 激活函数 → 输出步骤说明输入层接收特征数据隐藏层处理特征并提取模式激活函数引入非线性能力输出层给出预测结果(分类、回归等)损失函数衡量预测和真实值的误差反向传播通过链式法则优化参数。
2025-05-12 14:21:45
983
原创 深度学习与机器学习的区别?一文读懂核心概念!
机器学习是人工智能的一个分支,核心思想是让计算机从数据中学习规律,而不是依赖硬编码的规则。深度学习是机器学习的一个子领域,**基于人工神经网络(Artificial Neural Network)**模拟人脑的方式来处理数据。最早的神经网络只有1-2层,而深度学习是“多层神经网络”的泛称,常见有十几层甚至上百层,能够学习更复杂的模式和特征。机器学习是教会计算机“如何从数据中学”,而深度学习是让计算机“像人脑一样学”。如果你的问题可以用明确的规则或者少量数据建模,选择机器学习;
2025-05-12 14:18:27
400
原创 前后端开发的未来趋势
微服务是一种软件架构模式,它将应用拆分为多个独立的服务,每个服务专注于一个业务功能,并可以独立部署、更新和扩展。GraphQL 是一种 API 查询语言,允许前端灵活获取所需数据,而不受 REST 端点的限制。(GraphQL、BFF)等趋势将深刻影响开发方式,使应用更高效、灵活、可扩展。未来的前后端开发模式将更加智能化和高效,开发者需要掌握新技术,适应变化!:取代传统 REST API,为前端提供更高效的数据查询方式。:让应用更灵活、可扩展,但也带来了复杂的分布式管理挑战。:自动扩展,无需手动配置。
2025-04-06 18:15:58
177
原创 DevOps 与持续集成(CI/CD)
DevOps 通过 CI/CD 流程、大规模容器管理,实现更快、更稳定的软件交付!GitLab CI/CD 是 GitLab 内置的 CI/CD 解决方案。允许开发者将应用及其依赖项封装为容器,确保不同环境下的运行一致性。(K8s)是一个用于容器编排的开源平台,支持自动扩展和滚动更新。DevOps 主要依赖**持续集成(CI)是最流行的 CI/CD 自动化服务器。容器技术使得应用程序更易部署和扩展。—— 通过自动化降低运维风险。持续部署(CD)**工具,如。—— 频繁发布新版本。—— 监控和日志分析。
2025-04-06 18:15:02
742
原创 前后端分离项目实战:博客系统与任务管理系统
前后端分离是现代 Web 开发的主流架构,前端与后端独立开发,通过。,可用于 Web 端、移动端、小程序。🚀 通过这些项目,你可以掌握。(Nginx/静态资源服务)
2025-04-04 20:14:46
696
原创 前后端通信指南
前后端通信是现代 Web 开发的核心环节,前端(浏览器或移动端)需要向后端请求数据,并根据返回的数据渲染界面。HTTP(HyperText Transfer Protocol,超文本传输协议)是 Web 通信的基础,基于。WebSocket 是一种全双工通信协议,它允许服务器主动向客户端推送消息,适用于。RESTful API 是一种基于 HTTP 设计的 API 风格,符合。
2025-04-04 20:10:16
325
原创 后端安全性指南
随着 Web 应用的普及,后端安全性成为开发者必须关注的重要领域。后端不仅处理数据存储和业务逻辑,还负责身份验证、权限管理和数据加密。如果用户输入的数据未经处理直接返回页面,攻击者可以执行 JavaScript 代码,盗取 Cookie 或控制用户行为。如果应用程序直接执行上面的 SQL 语句,攻击者可以绕过密码检查,获取所有用户信息。攻击者诱导用户访问恶意链接,从而在用户不知情的情况下执行未授权的请求。1️⃣ 用户输入用户名和密码,后端验证后返回。3️⃣ 后端解析 Token,验证用户身份。
2025-04-03 13:54:37
151
原创 后端框架入门:Flask
开发者可以自由选择扩展,如 SQLAlchemy(ORM)、Flask-RESTful(API)等。它提供了简单的路由和模板功能,并支持各种扩展,如数据库 ORM、身份验证、中间件等。:Flask 体积小、启动快,适用于构建 REST API。:支持动态 HTML 渲染,减少前端重复代码。的 Python Web 框架,适用于。Flask 本身不带 ORM,通常使用。:仅提供核心功能,避免冗余。,将用户数据写入数据库。,返回所有用户数据。
2025-04-03 13:53:34
209
原创 后端框架入门:Django
Django REST Framework(DRF)是 Django 的 REST API 解决方案,支持。:支持 MySQL、PostgreSQL、SQLite、MongoDB 等数据库。:模型(Model)、视图(View)、模板(Template)分离,便于维护。:可结合 Django REST Framework(DRF)快速构建 API。,使用超级管理员登录,管理数据库中的数据。,即可看到渲染的 HTML 页面。,成功运行 Django 项目。:JWT、OAuth2 登录。(模型、视图、模板)。
2025-04-02 21:41:43
501
原创 后端框架入门:Spring Boot
支持 Spring MVC、Spring Security、Spring Data JPA 等。AOP(Aspect-Oriented Programming)可用于。:适用于分布式架构,如 Spring Cloud。:内置 Tomcat,无需额外配置。:微服务架构,服务发现、负载均衡。(SQL 语句、CRUD 操作)。的快速开发工具,主要用于构建。:减少 XML 配置,简化开发。继承 CRUD 方法,可直接。Spring Boot 内置。管理对象创建和生命周期。:身份认证与权限控制。
2025-04-02 21:38:36
492
原创 基于协同过滤的推荐算法详解
本文介绍了基于用户的协同过滤算法,包括其原理、相似度计算方法,并提供了一个Python实现示例。希望对大家理解推荐系统有所帮助!如果你有任何疑问或改进建议,欢迎在评论区交流!🚀。
2025-03-30 14:21:53
2213
原创 数据库基础入门
(如 SQLAlchemy / Sequelize)简化数据库操作。SQL(Structured Query Language)用于。:高效查询、数据一致性、事务处理。:支持大规模数据存储与高并发访问。,避免手写 SQL,提高开发效率。的高级特性(存储过程、视图)。数据库(Database)是。:持久化数据,避免数据丢失。ORM(对象关系映射)框架。(增删改查、索引、事务)。(非关系型数据库)。,提升后端开发能力!
2025-03-30 14:20:56
188
神经网络开发从入门到进阶:资源整理与实战指南
2024-11-29
前端开发:Vue.js开发资源全解析-从入门到精进
2024-11-29
使用Python高级技巧绘制动态爱心图案
2024-11-25
MySQL技术详解:从入门到进阶的全方面学习指南
2024-11-25
Spring Boot快速开发指南:从基础理论到实践应用全解析
2024-11-25
JavaWeb开发资源与核心知识点整合指南
2024-11-25
Python爬虫开发全流程与资源指南
2024-11-25
OpenCV 开发指南:资源汇总、安装配置与实战案例
2024-11-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人