- 博客(864)
- 资源 (4)
- 收藏
- 关注
原创 Pandas DataFrame 常用方法及参数表
Pandas DataFrame常用方法速查表:包含15个核心方法及其参数说明。数据清洗类:dropna(删除缺失值)、fillna(填充缺失值)、duplicated(查重);数据抽样类:sample(随机抽样)、head/tail(查看首尾);统计分析类:describe(统计摘要)、value_counts(频数统计)、groupby(分组);数据操作类:sort_values(排序)、drop(删除行列)、rename(重命名)、astype(类型转换)、apply(应用函数);索引操作类...等等
2025-08-25 00:30:00
310
原创 数据标注的质检环节有多少种
数据标注质检的三种主要方式:实时检验(同步质检)、全样检查(逐一审核)和抽样检查(部分抽检)。实时检验效率高但成本高,全样检查准确但耗时,抽样检查经济但可能漏检。质检后常设专家审核环节,形成"标注-质检-审核"三级流程,由质检员、标注员和项目经理分工协作,确保最终数据质量。不同质检方式需根据项目需求和资源灵活选择。
2025-08-24 20:02:40
275
原创 机器学习评估指标总表
【机器学习评估指标速查指南】常用指标按任务类型分类:分类任务中类别均衡时用Accuracy,不均衡时推荐F1和PR-AUC;回归任务关注误差用RMSE,看拟合用R²;无监督聚类选用轮廓系数/DB指数;排序任务需MAP/NDCG等考虑位置权重的指标。建议根据具体场景选择最匹配的评估方式,避免指标误用。
2025-08-24 00:40:26
191
原创 什么是多元线性回归,系数、自变量、因变量是什么,多元线性回归中的线性是什么
多元线性回归是通过多个自变量加权组合预测因变量的统计方法。其核心特点包括:1)系数表示各变量对结果的影响方向和强度;2)"线性"指的是模型对系数的线性关系,而非变量本身;3)允许包含多项式等变换特征。该方法适用于研究多个因素对目标变量的综合影响,如房价预测中面积、位置等因素的权重分析。模型通过最小化误差寻找最优系数组合,构建高维空间中的最佳拟合超平面。
2025-08-23 23:36:08
460
原创 什么是正态分布
摘要:正态分布是统计学中最重要的连续型概率分布,呈现对称的钟形曲线特征。其核心参数为均值μ(决定位置)和标准差σ(决定宽窄),具有68-95-99.7%的经验法则。正态分布因普遍存在于自然社会现象而重要,是统计推断的基础,广泛应用于质量管理和数据分析领域。
2025-08-23 23:28:44
312
原创 实践题:智能客服机器人设计
本文探讨了智能客服机器人的设计方案与实现要点。问题部分提出三大设计维度:系统功能(LLM/NLU技术选型)、动态适配机制(多语言支持等)、人机交互流程(模式切换与上下文跟踪)。解决方案部分则对应给出:1)通过用户行为数据分析优化服务策略;2)具体实现LLM多功能支持与动态接待模式切换;3)详细设计了包含5个步骤的交互流程,并说明人工介入条件(复杂问题/敏感情况)和上下文保持机制。整体方案强调通过技术创新与流程优化,实现效率提升与用户体验改善的平衡。
2025-08-21 22:09:11
604
原创 实践题:智能图书管理系统
摘要:针对某书店智能书籍识别系统在不同视角下准确率波动大的问题,提出系统级优化方案。通过分析业务流程,在图像采集、特征提取等关键环节应用深度学习模型;设计多角度、多光线条件下的数据采集策略,采用CNN网络提升特征提取能力;将优化后的识别模型与现有系统集成,通过可视化平台实现实时监控和预警功能,有效提升识别精度和操作效率。
2025-08-21 21:59:55
283
原创 实践题:数据采集与处理培训大纲
《数据采集与处理培训大纲》聚焦会计专业学生智能财务能力培养,主要包含六大模块:1)数据采集流程(定义、方法、工具);2)数据质量标准(准确性要求、清洗技术);3)数据处理流程(目的、工具、技术);4)处理规范(标准方法、案例实践);5)智能系统开发(概念、平台、案例);6)系统维护(故障排查、优化改进)。培训突出全流程管理能力与智能系统应用两大核心,通过理论讲解与案例实践相结合的方式,全面提升学生在智能财务时代的数据处理竞争力。
2025-08-21 20:06:28
401
原创 实践题:智能化风控体系升级方案
本文提出互联网金融机构智能化风控体系升级方案。在业务场景分析方面,重点在信贷审批、交易监控等环节应用AI技术,如利用机器学习进行信用评估和异常交易识别。风险预测策略通过多渠道数据采集,运用XGBoost、LSTM等算法构建预测模型,并据此优化风控决策。系统集成方面,将风险模块嵌入现有平台,建立可视化监控和自动预警机制。该方案旨在提升风险识别精度和处置效率,降低不良资产率,实现风控体系智能化升级。
2025-08-21 19:59:00
841
原创 实践题:智能健康监测系统设计方案
本文提出了一套智能健康监测系统优化方案,通过可穿戴设备采集用户健康数据,结合统计分析(均值、方差计算及可视化展示)和机器学习方法(如K-Means聚类)进行数据挖掘,实现用户健康状态分类与个性化建议推送。系统采用数据采集→预处理→模型训练→预警输出的技术流程,配备差异化隐私保护策略,并为不同群体提供定制化健康方案。人机交互设计包含完整监测路径和异常情况人工介入机制,通过上下文保持确保分析连贯性。最终方案可实现精准健康监测、异常预警和个性化健康管理服务。
2025-08-21 18:30:54
1073
原创 标注者相关责任义务,以及标注格式
本文摘要:该文档系统梳理了AI数据标注流程中各角色的职责规范,包括标注员、质检员、项目经理等的工作要求与注意事项。同时对比分析了9种常见AI训练数据格式(如CSV、JSON、COCO等)的特性、优缺点及适用场景,建议根据任务复杂度选择格式:简单任务用CSV,复杂标注用JSON,CV任务优先COCO/YOLO格式,大规模数据推荐二进制格式如TFRecord。全文提供了数据标注全流程的标准化指导方案。
2025-08-19 17:46:07
834
原创 大型银行的“五层安全网络”生产部署架构,基于多层网络隔离与安全设备组合形成的纵深防御体系
摘要:汇丰等大型银行采用"五层安全网络"纵深防御体系:1)Akamai WAF层部署全球边缘节点,拦截恶意请求并提供CDN加速;2)外部F5层负责流量调度、SSL卸载和DDoS缓解;3)外部DMZ隔离对外服务系统;4)内部DMZ保护关键业务系统;5)灾备网络层确保业务连续性。该架构通过多层隔离逐步过滤攻击流量,实现从边缘防护到核心隔离的纵深防御。
2025-08-19 00:00:00
438
原创 BPO(Business Process Optimization,业务流程优化)
摘要:BPO(业务流程优化)通过系统化方法改进企业流程,提升效率、降低成本与提高质量。核心方法包括精益管理(消除浪费)、六西格玛(数据驱动)、流程再造(突破性重构)、自动化(RPA/AI)及PDCA循环(持续改进)。典型步骤为识别关键流程→分析瓶颈→设定KPI→实施改进→监控优化。案例显示,制造业应用精益+自动化可缩短周期30%,银行业RPA审批提速至2天。优化需结合场景选择方法论,实现降本增效。(149字)
2025-08-19 00:00:00
979
原创 什么是EDA(Exploratory Data Analysis,探索性数据分析)
本文介绍了探索性数据分析(EDA)的核心方法及其应用。通过直方图、散点图和方差柱状图等可视化工具,EDA能有效揭示数据分布、变量关系和离散程度。表格总结了平均值、方差、散点图和直方图的主要作用与注意事项:平均值反映集中趋势但易受异常值影响,方差衡量波动但需结合标准差,散点图展示相关性但大数据量时可能模糊,直方图显示分布形态但依赖组距选择。关键提示指出,数值特征适用均值方差分析,变量关系宜用散点图,而分布特征可通过直方图识别。这些方法共同构成了初步数据分析的基础框架。
2025-08-18 00:00:00
498
1
原创 (机器学习)监督学习 vs 非监督学习
🎯 机器学习算法速查表 【监督学习】有标签预测 📈 线性回归:连续值预测(房价) 📊 逻辑回归:二分类(风控) 🌳 决策树:可解释分类(客户流失) 🌲 随机森林:抗过拟合集成(健康预测) 🧠 神经网络:复杂模式识别(图像/语音) 📌 特点:有标准答案,预测精准 【非监督学习】无标签发现 🔍 K-Means:客户分群 🔎 PCA:数据降维 🛒 Apriori:购物篮推荐 🌀 自编码器:异常检测 📌 特点:挖掘潜在结构,发现模式 (含核心算法、特征差异及典型应用场景,98字)
2025-08-18 00:00:00
1067
原创 欠拟合和过拟合的特征标志,有什么方法解决,又该如何避免
本文对比分析了机器学习中的欠拟合与过拟合问题。欠拟合表现为训练集和测试集误差均较高,常因模型过于简单或特征不足导致;过拟合则表现为训练误差低但测试误差高,多因模型过于复杂或数据量不足。针对欠拟合,建议增加特征或模型复杂度;应对过拟合可采用正则化、数据增强等方法。文章还通过偏差-方差权衡图直观展示了模型复杂度与误差的关系,指出最佳拟合区位于欠拟合与过拟合之间。关键要找到模型复杂度与数据规模的平衡点,实现良好泛化。
2025-08-17 12:23:32
603
原创 时间复杂度、空间复杂度和渐近符号(O、Ω、Θ 等)
本文系统分析了算法复杂度分析中的关键要素。通过表格形式对比了时间复杂度和空间复杂度的表示方法(如O(1)、O(n)等)及其含义,着重阐释了五大渐近符号(O、Ω、Θ、o、ω)的数学定义与实际应用场景。特别强调时间复杂度受输入规模、数据结构和算法思想影响,空间复杂度则与存储结构、递归深度相关。文末提供了记忆技巧:O表示"不超过"(最坏情况),Ω表示"不少于"(最优情况),Θ表示精确增长率匹配,o/ω用于理论推导中的严格比较。
2025-08-17 12:15:41
535
原创 机器学习相关算法:回溯算法 贪心算法 回归算法(线性回归) 算法超参数 多项式时间 朴素贝叶斯分类算法
本文整理了一份机器学习算法与概念速览表,通过定义和生动例子帮助快速理解核心知识点。重点介绍了回溯算法(如迷宫求解)、贪心算法(如找零钱)、线性回归(房价预测)、超参数(烘焙温度设定)、多项式时间算法(整理书架)和朴素贝叶斯(垃圾邮件过滤)等概念,并标注了典型应用场景。文末提示回溯/贪心算法的策略差异,强调超参数调优的重要性,为机器学习初学者提供了清晰的知识框架。
2025-08-17 00:05:52
924
原创 机器学习的“评估“系列总览 (评估特征重要性 评估标注质量 评估模型 评估分类效果 评估数据去重 评估回归模型性能 评估算法性能 评估算法效率(需要时间) 提高模型分类评估准确性)
机器学习评估体系全面解析:从特征到模型的系统化评估方法 本文系统梳理了机器学习模型的核心评估维度,涵盖特征、数据、模型三个层面。特征评估包括重要性分析和稳定性检测;数据评估关注标注质量、类别均衡及异常值;模型评估则分为分类性能(F1、AUC等)、回归指标(RMSE、R²)和算法效率三大类。特别强调了金融风控等场景需要的鲁棒性测试,以及医疗领域重视的可解释性评估。补充建议纳入数据漂移监控、公平性测试等前沿评估方向,形成覆盖模型全生命周期的评估体系。
2025-08-17 00:03:53
697
原创 机器学习的特征工程(特征构造、特征选择、特征转换和特征提取)详解
特征工程是机器学习的关键环节,包含特征构造、选择、转换和提取四个核心流程。***特征构造***通过数学组合、时间衍生等方法创建新特征;***特征选择***利用过滤法、包裹法和嵌入法去除冗余特征;***特征转换***通过标准化、归一化等处理提升数据质量;***特征提取***则采用PCA、LDA等技术实现降维。***评估指标***包括模型性能指标和特征质量指标,需根据数据类型和任务需求选择合适方法。特征工程直接影响模型表现,是提升算法效果的重要手段。
2025-08-17 00:00:29
1543
2
原创 人工智能中的(特征选择)数据过滤方法和包裹方法
举个例子来理解假设你在做一个预测学生考试成绩的模型:#过滤方法#可能会告诉你“学习时间”和“睡眠时间”与成绩高度相关,因此你保留它们。#包裹方法#则会尝试不同的特征组合,比如“学习时间 + 上课出勤率”或“睡眠时间 + 饮食习惯”,然后看哪组特征让模型表现最好。
2025-08-16 23:43:44
410
原创 Win11更新0x80073712错误解决方法
摘要:Windows11更新错误0x80073712通常由系统文件损坏或更新组件异常引发。推荐分步解决:1️⃣ 优先运行系统修复命令(DISM工具和SFC扫描);2️⃣ 重置Windows更新组件(清除缓存);3️⃣ 使用系统自带的更新疑难解答;4️⃣ 删除冲突的Pending.xml文件;5️⃣ 手动下载更新安装(通过Microsoft更新目录)。注意需管理员权限、稳定网络及关闭杀毒软件干扰。前两步通常可解决问题,若无效建议联系官方支持或进行修复安装。操作前请备份重要数据。
2025-08-16 22:13:26
984
4
原创 什么是数据转换
数据预处理中的四种核心转换技术:1)标准化(Z-Score或Min-Max)消除量纲差异;2)离散化将连续值分箱处理;3)属性构造通过特征组合生成新变量;4)泛化用抽象概念替代具体值。这些技术可提升数据质量、增强模型性能并改善结果可解释性,适用于金融风控等多个领域,为数据分析和建模奠定基础。
2025-08-15 09:18:19
1062
原创 数据泛化与清洗预处理转换步骤
数据泛化是通过概念分层(如将年龄归为年龄段)或分箱聚类等方法,用抽象概念替代原始数据,以简化数据、提升泛化能力并保护隐私。数据预处理包括:1)数据清洗(处理缺失值、噪声、不一致和重复数据);2)数据集成(合并多源数据并解决冲突);3)数据转换(标准化、离散化、属性构造和泛化);4)数据归约(维度归约和数量归约)。这些步骤相互关联,共同确保数据质量,是构建高质量数据集的关键环节,通常占数据分析项目70%以上的工作量。
2025-08-15 09:11:46
703
原创 什么是主成分分析(PCA)和数据降维
主成分分析(PCA)是一种数据降维技术,通过正交变换将高维数据转换为低维表示,保留最大方差方向作为主成分。其核心步骤包括数据标准化、协方差矩阵计算和特征值分解。PCA能有效解决维度灾难,去除特征冗余,提升计算效率和模型泛化能力,但仅适用于线性关系且对异常值敏感。典型应用于图像处理、基因数据分析等领域,需注意标准化预处理和主成分数量选择。
2025-08-14 21:44:01
694
原创 软件著作权产生与登记关键点
软件著作权自开发完成之日起自动产生,无需申请、登记或发表。根据我国《著作权法》和《计算机软件保护条例》,软件一经创作完成即享有著作权,包括发表权、署名权等多项权利。软件发布仅是实现经济价值和行使部分权利的方式,并非确权前提。虽然著作权登记非强制要求,但作为权属证明有利于维权和商业活动。建议开发者保留开发过程文档作为证据,并在需要时及时办理登记。正确理解著作权的自动产生原则对保护软件知识产权至关重要。
2025-08-14 21:34:55
689
原创 PostgreSQL 批量COPY导入优化参数配置
本文针对高频批量导入场景(如日志表、临时数据)提出PostgreSQL性能优化方案。通过调整关键参数实现极致写入性能:禁用同步提交(synchronous_commit=off)、延长WAL写入延迟(wal_writer_delay=200-500ms)、增大检查点间隔(checkpoint_timeout=30min)等,可将吞吐量提升数倍。建议导入时采用事务批处理、禁用约束索引、控制批次大小(如每批10,000行),并在导入后手动执行CHECKPOINT。这套配置特别适合可容忍数据丢失、支持重导入的场景
2025-08-10 20:28:41
493
原创 PostgreSQL因为A/B switch以及group表过多导致WAL full的情况讨论
摘要:针对PostgreSQL数据库中因全量导入导致WAL文件满的问题,DBA建议将500个客户组(约15000张表)分散到10个schema中。但分析表明,这种分schema方式主要解决管理问题,并不能有效减少WAL日志量。解决方案建议从多个维度优化:1)流程层面采用TRUNCATE+COPY+后建索引方式;2)参数调优如开启wal_compression、调整检查点参数;3)架构改造采用分区交换替代A/B表切换;4)控制并发导入数量。重点是通过减少单次事务量、优化写入方式等来降低WAL生成,而非简单的s
2025-08-10 20:23:31
745
原创 Node.js 中基于请求 ID 实现简单队列(即时阻止策略/排队等待策略)
本文介绍了在Node.js中基于请求ID实现队列的两种策略:即时阻止策略(直接拒绝重复请求)和排队等待策略(后续请求挂起等待首个请求结果)。核心思路是使用Map存储正在处理的请求,其中key为请求ID,value包含执行Promise和挂起队列。文章提供了完整的队列管理类代码示例,演示了两种策略的实现方式,并比较了它们的优缺点:即时阻止策略响应快但需用户重试,排队策略能共享结果但可能积压请求。最后还讨论了错误处理、扩展应用以及分布式场景下的实现建议。
2025-07-20 22:13:20
772
原创 Node.js Express keep-alive 超时时间设置
本文探讨了在Node.js(Express)应用中优化keep-alive超时时间的策略。文章首先介绍了长连接原理及其性能优势,指出Node.js默认保持5秒空闲连接的局限性。针对BI系统等需要长时间连接的应用场景,详细说明了如何通过server.keepAliveTimeout参数将超时延长至30分钟,并建议headersTimeout应略高于此值。同时提出了优化建议:监控连接数、协调负载均衡配置、防范安全风险。文章还推荐结合HTTP/2、消息队列等方案实现更深层次的性能优化,为高并发Web应用提供了实用
2025-07-20 21:49:49
840
原创 Node.js + Express的数据库AB View切换方案设计
本文介绍了一种数据库AB表切换方案,通过视图动态指向当前活跃表实现平滑切换。系统包含数据表(data_a/data_b)、控制表(记录活跃组)和统一视图(current_data)。切换流程采用事务处理,确保数据导入、视图重建和控制表更新的原子性,并设置1分钟延迟清理旧表数据。Express实现提供了数据导入和查询接口,使用SELECT FOR UPDATE防止并发冲突。方案具有故障恢复能力,建议生产环境增加切换日志、重试机制和监控功能。该设计实现了服务无间断切换,通过延迟清理保障数据安全,适用于高可用性。
2025-07-14 23:26:31
576
原创 Spring Boot Cucumber 测试报告嵌入方法
在SpringBoot项目中结合Cucumber进行测试时,将图片、JSON等数据嵌入测试报告的方法。核心原理:通过Cucumber的Scenario对象使用attach()方法嵌入数据 实现步骤: 配置HTML/JSON报告格式 在步骤类中嵌入图片(失败截图)和JSON数据 注意事项:数据格式、钩子函数选择、大文件处理建议等 项目结构示例和报告效果说明 该方法能有效增强测试报告的可读性和调试信息,适用于UI和API测试场景。
2025-07-14 23:03:03
1010
原创 Appdynamic 配置 PostgreSQL 收集器
摘要:本文详细介绍了配置PostgreSQL收集器的步骤,包括连接设置、用户权限管理和高级选项。主要内容涵盖:1)数据库连接参数配置(主机、端口、JDBC字符串);2)安全认证方式(包括CyberArk集成);3)子收集器设置用于集群监控;4)监控用户权限配置(需创建特殊视图和函数);5)pg_stat_statements扩展的启用方法;6)pgvector向量数据库扩展的监控配置。特别强调超级用户权限要求,并提供了详细的SQL命令和验证方法。
2025-07-13 11:23:34
696
原创 PM2 守护进程监控与重启脚本
本文介绍了一套Windows环境下PM2进程监控与自动重启方案,包含PowerShell脚本和计划任务配置。脚本通过检测PM2进程状态,在异常时自动重启应用并记录日志;计划任务设置为每15分钟运行一次脚本。这套经过生产验证的方案,能有效保障Node.js应用的稳定性。文章详细解析了脚本逻辑(状态检测、时间戳、重启流程)和任务配置(触发条件、权限设置、执行参数),并提供了日志管理、错误处理等实践建议,为Node.js服务的持续运行提供可靠保障。
2025-07-13 11:17:25
971
原创 外企软技能之「Drive能力框架」
《Drive能力框架:外企银行高管的实战指南》摘要: 该框架系统化拆解了外企银行职场中的核心能力——Drive(驱动结果)。不同于被动执行,Drive强调为最终结果负责(Own the Outcome),包含三大方法论:1)提节奏:将模糊目标拆解为可执行节点;2)搞定人:通过利益交换促成跨部门协作;3)保结果:将交付转化为量化价值(如风险压缩率)。框架还提供沟通话术模板,如争取主导权时展示30-60-90天计划,述职时采用Challenge-Action-Result故事结构。关键避坑点包括避免责任稀释、用
2025-06-24 23:55:35
747
原创 珂芝K75系列按键说明
珂芝K75系列按键说明:切WIN/MAC系统功能(Fn+A/S)最重要,经常忘记***、蓝牙设备切换(Fn+QWE)、2.4G设备切换(Fn+P)、背光控制(Fn+/,/箭头键调节)、Fn+Win锁定Win、媒体控制(Fn+F5-F12)及快捷操作(Fn+F1-F4)。包含设备切换、背光效果、系统锁定等组合键功能。
2025-06-24 22:14:34
1614
原创 JMeter API 并发性能测试计划JMX文件解析
摘要:这是一个JMeter性能测试计划,用于评估两个API接口在20并发用户下的性能表现。测试计划包含随机控制器,会随机调用两个POST请求(/generator/template/all和/code/generate),每个请求都带有JSON请求体。测试将持续30秒,采用10秒的启动时间,并配置了多个结果监听器(聚合报告、汇总图等)来收集性能数据。测试目标地址最终被设置为http://localhost:1234/generator/,结果将输出到D:\Workspace\result.csv文件。该测试
2025-06-22 23:27:25
606
原创 JMeter通过结果树csv文件生成HTML报告(附加报告解读)
摘要:本文介绍如何配置JMeter进行API性能测试并生成HTML报告。主要内容包括:1) JMeter测试计划配置示例,包含线程组、HTTP请求和结果收集器;2) 测试结果CSV文件输出路径检查;3) HTML报告生成步骤及参数设置;4) 报告解读指南,涵盖测试概要、请求统计、错误分析和图表解读。报告关键指标包括响应时间、吞吐量、错误率等,需结合测试场景综合分析系统性能表现。测试结果可帮助识别性能瓶颈和系统稳定性问题。
2025-06-22 12:51:53
1154
原创 纯SpringBoot3应用暴露监控 API 给Prometheus并在Grafana配置显示
本文介绍了SpringBoot3应用监控系统的搭建方法。首先通过添加Actuator和Prometheus依赖,配置暴露监控端点;然后在Prometheus中设置抓取任务,确保能获取应用指标;接着通过Grafana配置可视化仪表板,导入官方模板实现监控展示。文章还提供了常见问题解决方案,如网络不通、指标不匹配等问题,并建议对监控端点进行安全加固。最后介绍了自定义业务指标、标签分组等高级配置技巧,以及如何在Grafana中设置告警规则。整个方案采用SpringBoot+Prometheus+Grafana技术
2025-06-22 07:30:00
712
原创 PowerShell 脚本将遍历指定目录中的所有修改时间为2小时内的文件
摘要:本文介绍了一个PowerShell脚本,用于检查指定目录中最近2小时内修改过的文件。脚本通过计算当前时间减去2小时作为临界点,遍历目录中的所有文件,比较文件的LastWriteTime属性。输出包括每个文件的修改状态,并统计符合要求的文件数量。脚本支持文件筛选、递归子目录检查等功能,并能自定义时间格式。所有时间比较均基于本地系统时间,自动处理时区和夏令时问题。(150字)
2025-06-21 20:51:19
445
Qlik Sense : 条形图练习资源(Interpreting-BarCharts)
2024-02-16
Qlik Sense May 2023 WITH CONNECTION ISSUE FIX
2024-01-03
itisscg.zip
2021-05-20
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人