自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(162)
  • 收藏
  • 关注

原创 Prompt工程师基础技术学习指南:从入门到实战

《Prompt工程师指南:精准对话AI的核心技术》摘要:Prompt工程师是AI时代新兴职业,专注于设计优化大语言模型的文本指令,实现"最少输入最大输出"的效果。掌握系统Prompt技术可降低40%以上的API成本,提升任务准确率并确保安全合规。核心方法包括四大原则(明确目标、结构化上下文、输出约束、分步任务)和五大技术(零样本提示、少样本提示、思维链等)。实战需解决指令忽略、事实错误和长文断裂三大问题,学习路径分基础认知、技术进阶和工程化部署三阶段。未来Prompt工程师将进化为AI心

2025-08-13 20:08:35 944

原创 Linux进阶命令详解

本文针对Linux系统管理员和运维工程师,总结了生产环境高级运维的核心技能点。文章从系统监控、网络诊断、存储管理、自动化运维、安全审计、性能调优、容器支持、硬件诊断到日志分析等9个维度,提供了50+个实用命令和配置示例,包括atop高级监控、tcpdump抓包分析、LVM动态扩容、eBPF性能追踪等深度技术。重点强调了从操作系统原理理解到自动化体系构建的系统化运维方法论,以及安全优先的运维思维,为Linux专家成长提供了清晰的技术路径和实用的工具指南。

2025-08-06 20:06:57 1082

原创 Linux基础命令详解手册

《Linux命令行简明手册》精选核心运维命令,涵盖文件操作(cd/ls/cp)、权限管理(chmod/chown)、系统监控(top/df)、网络工具(ping/ssh)及文本处理(grep/sed/awk)。重点标注危险操作(如rm -rf)和高频参数组合,特别推荐管道符|与重定向>的进阶用法。手册按功能模块分类,包含apt/yum等主流包管理器对比,每个命令均附实用示例。建议新手从基础文件操作入手,逐步掌握组合命令技巧,强调使用man命令查阅手册的安全意识。

2025-08-06 20:02:58 646

原创 Swift 难点深度剖析:优雅表象下的复杂性探索

Swift 的难点并非其设计的缺陷,而是其追求强大表达力、安全性和性能所必须付出的代价。可选类型的谨慎、泛型协议的抽象、值引用类型的交织、ARC 的隐形规则、协议扩展的微妙派发,以及底层Unsafe世界的危险与力量,共同构成了 Swift 语言深邃而迷人的另一面。克服这些难点没有捷径,唯有持续的学习、实践、调试与思考。每一次对编译器错误的解读,每一次对内存泄漏的追踪,每一次对复杂泛型签名的梳理,都是开发者向 Swift 大师境界迈进的坚实步伐。

2025-07-23 19:56:30 794

原创 泰迪杯特等奖案例深度解析:基于时空图卷积网络的城市排水系统水位精准重建与异常检测系统(技术详解)

针对城市排水系统(UDN)监测数据稀疏(覆盖率<1.5%)、异常响应延迟等问题,本文提出基于多模态时空图卷积网络(ST-GCN)的智能运维方案。通过融合水位、降雨、管网拓扑等多源数据,结合Chebyshev谱图卷积和空洞时间卷积,实现未观测节点水位重建(MAE<0.05m)和实时异常检测(F1-score>85%)。关键技术包括:PTPv2硬件同步(<1μs误差)、动态时间规整优化(计算效率提升300%)、TensorRT边缘部署(推理延迟<50ms)。

2025-06-05 09:54:54 595

原创 泰迪杯特等奖案例深度解析:基于量子启发优化与多尺度时空建模的港口物流智能调度系统

全球贸易量年增长5.2%的背景下,港口物流效率成为供应链核心瓶颈。需融合AIS船舶轨迹(1Hz)、RTG传感器(10Hz)、天气预警(API)等异构数据。1000+岸桥/场桥/集卡的实时调度涉及解空间达 $10^{2500}$ 量级。突发天气(风速>15m/s)导致设备停机,需在30秒内重建调度方案。创新调度算法保障<10ms端到端延迟。自适应决策模型降低响应延迟84%Unity3D实现毫米级运动仿真。实现2000+变量级实时优化。数学表达:多目标优化问题。碰撞预测准确率99.2%

2025-06-04 19:58:25 1063

原创 泰迪杯特等奖案例深度解析:基于多模态点云融合与域自适应的电力设备缺陷检测系统设计

本文提出了一种多模态融合的电力设备缺陷检测方法,针对传统检测面临的数据同步、小样本学习和边缘计算三大挑战。通过PTPv2协议实现激光点云与红外热成像的硬件级同步,采用动态图卷积网络(DGCNN)和跨模态注意力机制处理异构数据,结合Focal Loss和MMD域对齐损失解决样本不均衡问题。在Jetson AGX Orin边缘设备上,通过TensorRT优化实现30ms内完成推理,模型精度(mAP)提升至92%以上,跨设备泛化性能提升67%。工程部署采用MQTT分布式架构,支持联邦学习实现模型持续优化。

2025-05-28 20:22:25 721

原创 泰迪杯特等奖案例深度解析:基于联邦时空图卷积网络的跨区域碳排放协同预测与优化系统

本文提出一种基于联邦时空图卷积网络(Fed-STGCN)的工业园区碳排放智能监测方案。针对碳排放数据孤岛、时空动态建模复杂和边缘计算资源受限等痛点,系统构建了多模态感知网络与工业级数据库,采用动态加权联邦学习实现跨园区隐私保护协同建模,创新设计了分层图卷积架构捕获设备拓扑关系与突变事件特征。实验表明,该方案在5类工业园区的碳排放估算误差<3%,异常检测响应延迟<3秒,模型体积压缩88%。实际部署中实现年减碳150万吨,碳交易成本降低7800万元,为碳中和目标提供了可落地的智能化解决方案。

2025-05-27 20:12:50 1011

原创 泰迪杯特等奖案例深度解析:基于多模态时空图神经网络的工业园区碳排放实时监测与优化系统

本文提出一种基于多模态时空图神经网络(MM-STGNN)的工业园区碳排放智能监测方案。针对工业场景中多源数据融合困难、动态过程建模复杂和边缘计算资源受限三大挑战,构建了包含红外热像、气体浓度、电力参数的多模态感知网络,通过时空数据对齐与物理约束增强特征工程。

2025-05-27 17:19:25 862

原创 泰迪杯特等奖案例深度解析:基于联邦学习与时空Transformer的农业气象灾害跨区域协同预警系统

本文提出一种基于联邦时空Transformer的农业气象灾害预警系统,旨在解决传统预警模型数据孤岛、时空依赖性不足及边缘计算资源受限等问题。通过多源数据融合、联邦学习架构和轻量化部署方案,该系统实现了跨区域协同预警,模型准确率达94.8%,干旱预警提前量提升至14天,减少农业损失约8.7亿元/年。

2025-05-27 15:30:33 995

原创 泰迪杯特等奖案例深度解析:基于三维点云与深度学习的复杂零件装配质量检测系统设计

需同步处理三维点云(密度>10万点/零件)、RGB图像(500万像素)、扭矩传感器数据(采样率1kHz),多源数据时间对齐误差需<2ms。高精度装配场景下缺陷样本稀缺(良品率>99.9%),单个缺陷类别样本量<50,导致模型过拟合,跨产线泛化F1-score下降超25%。激光扫描仪:Creaform HandySCAN 3D,精度±0.025mm,采样率480,000点/秒,用于获取高密度点云。扭矩传感器:HBM T40B,量程0-50Nm,精度±0.1%,监测螺栓拧紧过程。

2025-05-26 20:12:35 783

原创 泰迪杯特等奖案例深度解析:基于层次化难样本挖掘与域自适应的工业过程故障诊断系统

本文提出了一种基于改进深度信念网络(SmdaNet)的工业故障诊断解决方案。针对工业场景中难样本识别(如偏差仅5%的早期故障)、跨工况泛化性差(设备升级后准确率骤降28%)和实时性要求(<100ms延迟)等核心痛点,通过层次化难样本挖掘(HSM)实现边界案例识别率提升15.2%,结合域自适应技术使模型在新传感器场景下F1-score仅下降2.3%。

2025-05-26 16:08:57 1016

原创 泰迪杯特等奖案例深度解析:基于多模态文本挖掘的智慧政务留言分析与热点预警系统设计

每条留言需3分钟分类(含阅读、标注、分发),日均处理量仅2000条。使用PaddleOCR提取图片文字(平均准确率92.3%):30%的答复使用固定话术(如"已转交相关部门处理")

2025-05-19 09:45:29 990

原创 泰迪杯特等奖案例深度解析:基于多模态融合与小样本学习的工业产品表面缺陷智能检测系统

第九届泰迪杯数据挖掘挑战赛特等奖案例聚焦于工业质检领域,针对3C电子和汽车零部件等高端制造中的表面缺陷检测问题,提出了一套创新的多模态小样本学习框架。该案例通过融合2D高光图像和3D点云数据,解决了小样本学习、多模态数据融合、实时性要求和复杂背景干扰等核心挑战。技术方案包括双流特征提取网络、小样本学习策略、模型压缩与加速等,最终实现了缺陷检测准确率超过95%、新缺陷类型识别率超过85%、检测速度小于0.5秒/件的目标。实际应用中,该方案显著降低了漏检率,年节约质量成本超1500万元。

2025-05-16 20:30:07 1147

原创 泰迪杯特等奖案例深度解析:基于多级二值化与CNN回归的车牌识别系统设计

本文详细拆解了第八届泰迪杯数据挖掘挑战赛特等奖案例,聚焦于智慧交通与无感支付场景中的车牌识别技术。传统车牌识别系统在复杂光照、污损车牌、多角度倾斜等场景下存在显著缺陷,导致支付延迟和运营效率下降。案例通过多源数据融合、改进MSER算法、CNN回归精定位与字符分割等核心技术,构建了多场景训练集,并采用多阶段训练策略和模型压缩与加速技术,最终实现了高准确率和低延迟的车牌识别系统。实验结果表明,该方案在识别准确率、平均延迟和模型大小等方面均优于现有方法,显著提升了智慧油站的支付成功率和处理效率。

2025-05-16 20:10:34 927

原创 泰迪杯特等奖案例深度解析:基于MSER-CNN的商品图片字符检测与识别系统设计

第四届泰迪杯数据挖掘挑战赛特等奖案例聚焦于电商平台商品图片中的促销文字检测与识别,旨在解决传统人工审核效率低、漏检率高的问题。案例通过构建高质量训练集,采用MSER-CNN融合架构进行字符检测与识别,并优化模型训练与部署策略。关键技术包括多尺度极值区域提取、轻量化CRNN字符识别网络、两阶段训练策略及INT8量化与加速部署。系统在边缘端与云端协同工作,显著提升了检测与识别的准确率和响应速度。

2025-05-16 19:51:09 1140

原创 泰迪杯特等奖案例学习资料:基于卷积神经网络与集成学习的网络问政平台留言文本挖掘与分析

本案例通过层次化模型设计与集成学习优化,实现了政务文本处理效能的革命性提升。层次化注意力机制:结合业务规则动态调整注意力权重,提升分类准确性。动态模型集成:根据实时性能调整基模型权重,适应数据分布变化。轻量化工程架构:通过知识蒸馏与分布式计算,满足高并发实时处理需求。行业启示技术赋能政务:AI技术可有效解决公共服务中的效率与公平性难题。持续迭代优化:需建立数据闭环系统,持续收集反馈数据优化模型。

2025-05-06 14:53:13 794

原创 泰迪杯特等奖案例学习资料:基于多模态时空图卷积网络的工业安全预警系统设计

每个设备或监控点作为一个节点,属性包含设备类型、坐标、历史状态。

2025-05-04 00:18:04 1140

原创 泰迪杯特等奖案例学习资料:基于时空图卷积网络的城市排水系统水位精准重建与异常检测

拓扑增强的时空建模:融合管网连接度先验知识,提升稀疏数据下的重建精度。边缘智能架构:通过PMTS策略与轻量化部署,实现毫秒级响应。跨域迁移能力:在MVD数据集上迁移误差仅8.7%,显著优于传统水力模型(23.5%)。四、应用价值与拓展方向。

2025-05-03 23:34:48 1015 1

原创 泰迪杯特等奖案例学习资料:基于时空图卷积网络的结构健康监测数据异常识别系统

(第十四届泰迪杯数据挖掘挑战赛A题特等奖案例解析)在桥梁、大坝、超高层建筑等基础设施的结构健康监测(SHM)中,传感器网络(如加速度计、应变计、倾角仪)持续采集多维数据以评估结构安全性。传统方法面临以下挑战:异常模式复杂:传感器故障:如温漂(温度变化导致零点偏移)、电磁干扰(EMI)、信号线接触不良等,占异常事件的60%。结构损伤:如混凝土裂缝扩展、钢索疲劳断裂等,其早期信号微弱(如0.01mm级位移变化),易被噪声掩盖。数据时空关联性:传播延迟:桥梁某点振动传递至相邻传感器需数毫秒,需精准对齐时空特征。模

2025-05-02 18:28:43 735

原创 泰迪杯特等奖案例学习资料:基于时空图卷积网络的物流车辆路径动态优化系统

(第十五届泰迪杯数据挖掘挑战赛B题特等奖案例解析)在智慧物流领域,车辆路径规划(Vehicle Routing Problem, VRP)直接影响运输成本与时效性。传统路径优化面临以下难题:动态扰动频繁:实时路况变化:交通事故、天气突变(如暴雨、大雾)导致路段通行时间波动,静态规划方案失效。例如,某城市早高峰期间,30%的主干道平均车速下降40%。订单动态插入:电商平台“即时达”服务要求系统在5分钟内响应新订单,传统重调度耗时超30分钟。多目标冲突:成本与时效矛盾:最短路径可能绕开高速公路(节省里程但增加时

2025-05-02 17:32:16 864

原创 泰迪杯特等奖案例学习资料:基于边缘计算与多模态融合的温室传感器故障自诊断系统设计

2024年3月,系统检测到某温室湿度传感器漂移(上报值稳定在65%,实际值波动于58-72%),触发告警并切换至备用传感器,避免过度灌溉导致的根系腐烂。传感器类型多样:模拟信号(4-20mA电流环)、数字信号(I2C、SPI)、图像流(RGB-D相机)。采样频率差异大:温度(0.1Hz)、光照(1Hz)、CO₂(10Hz)、图像(30fps)。环境数据:温度、湿度、光照、CO₂浓度,采样频率0.1-10Hz,总计1.2亿条记录。图像数据:RGB-D图像,分辨率1280×720,30fps,总计15万帧。

2025-05-02 16:27:36 1197

原创 泰迪杯特等奖案例学习资料:基于CLIP模型微调与知识蒸馏的多模态图文检索系统设计

在社交媒体(如微博、抖音)、电商平台(如淘宝、京东)及数字图书馆等场景中,用户对图像与文本的跨模态检索需求日益增长。:图像的低级视觉特征(如颜色、纹理)与文本的高级语义难以直接对齐,例如“红色连衣裙”可能对应多种视觉形态(长款、短款、蕾丝材质)。:图像数据维度高(如224×224×3),文本数据为离散符号序列,两者特征空间差异显著。:随机裁剪(保留率≥80%)、水平翻转(p=0.5)、旋转(-15°~15°)。:梯度裁剪(max_norm=1.0),降低学习率(降至1e-5)。

2025-05-02 16:02:44 890

原创 泰迪杯特等奖案例学习资料:基于多模态特征融合的图像文本检索系统设计

异构特征动态对齐:通过跨模态注意力机制实现图像与文本的细粒度语义匹配。轻量化联合训练:结合知识蒸馏与量化技术,在边缘设备上实现高效检索。数据增强策略:采用文本替换(如“红色→玫红”)与图像旋转(±15°)提升模型鲁棒性。四、应用价值与拓展方向电商平台:提升“以图搜货”与“文本推荐商品”的精准度,促进转化率增长。社交媒体:增强内容推荐系统的多模态理解能力,优化用户体验。扩展方向支持视频-文本跨模态检索,动态捕捉时序特征。结合知识图谱,实现语义推理与上下文感知检索。五、实践指南与代码示例。

2025-05-02 15:51:04 771

原创 泰迪杯特等奖案例学习资料:基于多模态数据融合与边缘计算的工业设备健康监测与预测性维护系统

多模态时空融合架构:通过跨模态注意力机制实现振动、温度、电流数据的动态加权融合。边缘-云协同推理:本地完成实时故障检测,云端执行RUL预测与模型迭代更新。小样本元学习:基于Prototypical Networks解决稀有故障模式识别难题。四、应用价值与拓展方向工业4.0:应用于数控机床、风电设备、轨道交通等场景,实现预测性维护。能源管理:结合设备健康状态优化能耗策略,降低单位产值能耗15%。扩展应用迁移至医疗设备(如MRI机组)状态监测。结合数字孪生技术,构建虚拟调试与故障模拟平台。

2025-04-30 14:31:04 1406

原创 泰迪杯特等奖案例学习资料:基于多模态融合与边缘计算的智能温室环境调控系统

多模态时空特征融合:结合环境时序数据与冠层空间结构,突破单一传感器局限性37。混合动作空间强化学习:离散-连续动作联合优化,平衡调控精度与设备损耗。边缘智能动态卸载:基于网络状态的实时任务分配算法,保证低延迟与高可靠性9。四、应用价值与拓展方向农业智能化:适用于连栋温室、植物工厂等场景,实现番茄、黄瓜等高附加值作物精准管理。能源互联网:与光伏发电系统联动,在电价谷段预储能,进一步降低能耗成本4。扩展应用集成害虫识别模块(YOLOv5迁移),实现环境-虫害联合调控8。

2025-04-30 14:20:10 955

原创 泰迪杯实战案例超深度解析:非侵入式电力负荷检测与分解系统设计

非侵入式负荷检测(Non-Intrusive Load Monitoring, NILM)通过在电网入口处安装单一传感器,分析总电流或总功率信号,分解出各设备的用电行为。:分离数据采集(1秒)、预处理(120ms)、推理(350ms)、后处理(30ms),总延迟<500ms8。:关键参数设置(初始温度1000,冷却速率0.95,马尔可夫链长度100),避免局部最优8。:设备启停事件稀疏,低功耗设备(如手机充电器)特征易被高功耗设备(如空调)掩盖。:0-1规划与决策树协同推理,解决多设备并发问题8。

2025-04-30 10:22:06 839 1

原创 泰迪杯实战案例超深度解析:特殊医学用途配方食品数据分析与智能推荐系统设计

PDF中的表格常因分页导致结构断裂。:利用PDFMiner分析页面布局,识别文本块和图像块的位置坐标。:构建双语词典映射(如“Protein”→“蛋白质”)。:本案例完整实现涉及15000+行代码,已开源至。基于图神经网络:在知识图谱上执行节点分类。的Scattergl替代Scatter。:相比REST API提升3倍吞吐量。:PDF解析+知识图谱构建+动态对齐。验证逻辑:检查每行单元格数一致性。:规则引擎+协同过滤+大模型增强。:微服务架构+实时监控+性能优化。后处理阶段根据坐标重建表格结构。

2025-04-28 10:36:05 926

原创 泰迪杯实战案例超深度解析:基于YOLOv5的农田害虫图像识别系统设计

使用初始模型在无标注图像上推理,保留置信度0.1~0.3的预测框作为困难负样本。:高频害虫(如褐飞虱)样本量>200,稀有类(如稻水象甲)仅1-5张。:利用大规模数据集(ImageNet)的通用特征,避免小样本过拟合。计算标注框长宽比异常值(昆虫通常1:1~1:3),标记离群样本。:浅层特征包含细节信息,但YOLOv5深层会丢失小目标特征。对每个GT框,选择k个候选anchor(IoU前10%)。针对小目标优化:限制拼接图中昆虫数量≤8,避免过度拥挤。其中II为原图,LL为光照分量,RR为反射分量。

2025-04-27 18:04:18 834

原创 泰迪杯实战案例超深度解析:运输车辆安全驾驶行为分析与安全评价系统设计

在道路运输行业,不良驾驶行为(如急加速、急减速、疲劳驾驶)是引发交通事故的主要诱因,占事故总量的70%以上。,推荐结合《Python数据挖掘:入门、进阶与实用案例分析》第11章“交通大数据应用”进行扩展学习。练习GeoPandas空间计算:计算轨迹曲率、急转弯检测。:GPS漂移点干扰路线分析,急变速行为需精准识别。构建驾驶行为知识图谱:Neo4j存储规则与历史事件。:需综合安全、效率、能耗构建多目标评价体系。:融合路侧单元(RSU)数据提升检测精度。:平衡安全、效率、能耗的帕累托前沿分析。

2025-04-27 15:59:47 1203

原创 泰迪杯实战案例超深度解析:基于多源数据的信用风险评估与反欺诈检测

中小微企业贷款违约率高达8%,传统评分卡模型AUC仅0.72。征信报告(人行、百融):200+字段,含历史借贷、还款记录等。:本文涉及的完整代码、Docker部署文件及仿真数据已开源至。:新型跨平台欺诈占比35%,传统规则引擎漏检率超40%。用户:"最近资金周转困难,能否延期还款?:多任务学习、图神经网络、异常检测的融合架构。:实时推理、可解释性、隐私保护的工程实现。交易流水:每秒处理10万+条记录,含。客服:"请提供近三月银行流水...":多源异构数据的融合与特征工程方法论。:欺诈样本占比仅0.3%。

2025-04-27 15:43:39 855

原创 泰迪杯实战案例超深度解析:旅游景点游客流量预测与资源优化

清洗逻辑:剔除停留时间超过24小时的异常记录(可能为员工卡)。时间滑动窗口:24小时历史数据(15分钟粒度,共96时间步)。:节假日热门景点游客密度超过10人/㎡,排队时间长达2小时。运行轻量模型:TensorRT加速的TFLite模型。特征维度:8维(客流量、温度、降雨量、舆情得分等)。:将DeepSTN++压缩为1/4大小的学生模型。空间维度:30个关键区域(景点+交通节点)。主任务:各区域未来3天客流量(MSE损失)。模型训练:分布式训练DeepSTN++。辅助任务:区域拥堵概率(交叉熵损失)。

2025-04-27 14:22:19 957

原创 泰迪杯实战案例学习资料:城市交通流量预测与信号灯优化控制

其中 Pf=A/rowsum(A)Pf​=A/rowsum(A), Pb=AT/rowsum(AT)Pb​=AT/rowsum(AT)min⁡∑i=1N(α⋅等待时间i+β⋅停车次数i)min∑i=1N​(α⋅等待时间i​+β⋅停车次数i​)全系统集成:部署模型至边缘计算设备(如Jetson Xavier),实现端到端实时控制。路网拓扑特征:基于图神经网络(GNN)提取路口影响力(PageRank值)。:交通流量具有时空传播特性(如上游拥堵扩散至下游)。:天气(降雨量、能见度)、节假日标记、道路施工信息。

2025-04-27 11:41:02 714

原创 泰迪杯实战案例学习资料:电商用户行为分析与个性化推荐系统设计

在电商场景中,用户行为数据(点击、加购、下单)的深度挖掘是提升转化率的核心。:训练需32GB内存 + GPU(如RTX 3090),推理可使用CPU集群。:为不同用户生成Top-N商品推荐列表,要求点击率(CTR)提升20%以上。:利用类目相似性进行流量扶持(“同类目老商品”的受众用户优先曝光)。:多路召回(协同过滤+热门商品+类目偏好)→ 生成1000候选集。:需兼顾平台GMV(成交总额)与用户体验(推荐多样性)。:长尾商品(80%商品点击量<10次)难以建模。

2025-04-27 10:34:12 1304

原创 泰迪杯实战案例学习资料:基于穿戴装备的身体活动监测与健康预警系统设计

随着可穿戴设备的普及(如智能手环、智能手表),如何从加速度计数据中挖掘用户行为特征,已成为健康管理领域的关键问题。本案例基于穿戴设备采集的。:根据代谢当量(MET值)划分用户活动类型(如睡眠、久坐、运动),并统计各类型时长8。:按国际标准划分活动等级(如MET<1.0为睡眠,MET≥6.0为高强度运动)8。:三轴加速度数据(采样频率50Hz)、MET值标签、用户属性(性别、年龄)。:通过聚类算法划分夜间睡眠状态(深度睡眠、浅睡眠、觉醒)8。:NVIDIA GPU(训练阶段)、树莓派4B(部署阶段)。

2025-04-27 10:04:29 672

原创 泰迪杯实战案例学习资料:生产线的故障自动识别和人员配置优化

toolbox.register("individual", tools.initRepeat, creator.Individual, toolbox.attr_schedule, n=10) # 10个任务。model.add(Dense(1, activation='linear')) # 回归任务,预测故障倒计时(小时)特征维度(feature_dim):10(温度、振动、电流等原始特征+衍生特征)。实时监测设备状态,预测故障类型(如机械磨损、电路故障)及发生时间(精确到小时)。

2025-04-26 22:58:10 1017

原创 WebUI可视化:第7章:系统优化与部署实战

demo.queue(concurrency_count=5) # 控制并发数。prevent_thread_lock=True, # 防止界面冻结。share=False # 关闭临时分享链接。:使用自动扩展组(Auto Scaling)能否独立完成Docker镜像的构建与推送?:选择计算优化型实例(如AWS C5):选择内存优化型实例(如AWS R5)# 示例:Gradio异步处理。使用Spot实例(适合可中断任务)# 防止敏感文件泄露。# 限制文件上传大小。使用预留实例(比按需便宜40%)

2025-04-25 21:45:01 933

原创 WebUI可视化:第6章:项目实战:智能问答系统开发

model = AutoModel.from_pretrained(...).float() # 使用CPU。outputs=gr.Textbox(label="最近10条记录")msg = gr.Textbox(label="输入问题")clear = gr.Button("清空历史")).half().cuda() # GPU加速。gr.Button("查看历史").click(gr.Button("提交评分").click(gr.Markdown("# 智能问答系统")

2025-04-25 21:43:09 792

原创 WebUI可视化:第5章:WebUI高级功能开发

✅ 掌握复杂交互逻辑的实现✅ 学会自定义界面样式与布局✅ 实现安全高效的文件处理✅ 优化性能与用户体验。

2025-04-25 21:08:13 1096

原创 WebUI可视化:第4章:Streamlit数据可视化实战

python<style></style>4.6 状态管理与缓存。

2025-04-25 21:06:58 978

交通灯检测图像集(捕捉各种交通状态的真实世界图像的精选集合)

该数据集包含在各种条件下捕获的交通信号灯的真实图像,包括一天中的不同时间、天气和城市环境。交通信号灯以不同的状态(红色、黄色和绿色)出现,图像旨在支持机器学习任务,例如自动驾驶系统的对象检测、状态分类和计算机视觉研究。照明、角度和背景的多样性确保了在该数据集上训练的模型可以很好地推广到现实场景中。该数据集不包含注释,允许用户灵活地为其特定用例创建自定义标记数据集。

2025-09-05

人体骨折(图像数据集)

人类骨折多模态图像数据集(HBFMID)是一个综合性医学影像数据集,专为骨折检测、分类和定位的研发而设计。该数据集由 Shahnaj Parvin 于 2024 年 12 月 2 日发布,集成了 X 射线和 MRI 模式,涵盖了广泛的人体骨骼区域。 数据集组成 原始图像总数:641 张 X 射线图像:510 核磁共振图像:131 涵盖的解剖区域: 肘部、手指、前臂、肱骨、肩部、股骨、胫骨、膝盖、髋骨、手腕、脊髓和其他健康骨骼样本。 数据拆分 训练集:449 张图像→增强为 1,347 张图像(×3 增强因子) 验证集:128 张图像 测试集:64 张图像 最终数据集总大小:1,539 张图像 预处理步骤所有 图像都经过以下预处理: 自动定向(校正旋转/翻转元数据) 调整大小为 640 × 640 像素 对比度调整以增强骨骼可见度 数据增强技术 为了提高模型泛化,应用了几种增强方法: 翻转:水平和垂直 旋转:−5° 和 +5° 之间 剪切:±2°(水平和垂直) 缩放:2% 饱和度调整:±5% 亮度调节:±10% 缩放、移位、剪切、裁剪、随机旋转

2025-09-04

公寓价格数据集-住宅公寓定价分析概述:特点、趋势

关于数据集 公寓价格数据集提供有关住宅物业的详细信息,主要关注影响公寓定价的因素。它包括各种属性,例如销售价格、位置、面积(以平方英尺为单位)、房间数量、楼层数、建筑物的总层数以及房产的建造年份。还包括其他特征,如建筑物类型、公寓状况、距市中心的距离以及靠近学校、医院和公共交通等便利设施。该数据集对于房地产市场分析、使用机器学习模型进行价格预测以及了解城市住房趋势非常有价值。它可以帮助开发商、投资者和政策制定者做出与房地产投资和城市规划相关的数据驱动决策。

2025-09-04

汽车销售数据集:型号、功能和定价

关于数据集 该数据集包含汽车销售的详细信息,涵盖多个制造商和车型。适用于数据分析、价格预测、市场趋势分析、机器学习和探索性数据分析(EDA)。 该数据集包括有关制造商、汽车型号、发动机规格、燃料类型、制造年份、里程和最终销售价格的信息。 研究人员、数据科学家和机器学习从业者可以将此数据集用于: 价格预测模型(例如,回归、XGBoost、深度学习) 转售市场的汽车估值分析 跨制造商和燃料类型的市场趋势分析 数据可视化项目 该数据集干净、结构化,非常适合初学者和高级项目。

2025-09-04

FBREF 英超联赛 2024/25 球员统计数据集

关于数据集 数据集概述: 该数据集包含 2024/25 赛季英超联赛的综合球员统计数据,摘自 FBref。它包括所有球队中约 500 名球员的详细表现指标,使其成为足球分析、机器学习模型和表现分析的宝贵资源。 数据来源: 数据来源于领先的足球统计平台FBref,收集于2025年9月2日。原始数据归功于 FBref。由[你的名字]编译。 包括的列: 玩家:玩家的全名 国家:玩家的国籍 位置:球员的主要位置(例如,FW、MF、DF) 小队:队名 年龄:玩家的年龄 出生:出生年份 已进行的比赛:已进行的比赛数 开始:开始的游戏数 分钟数:总上场时间 90 年代播放时间:分钟数除以 90 进球数:总进球数 助攻:总助攻 进球+助攻:进球和助攻的总和 点球:点球进球 尝试点球次数:总点球尝试次数 黄牌:黄牌数量 红牌:红牌数量 预期进球数(xG):基于射门质量的预期进球数 非点球 xG:xG(不包括点球) 预期助攻 (xAG):预期助攻 无罚球xG+xAG:无罚球xG和xAG组合 渐进式进位:渐进式进位数 渐进式通过次数:渐进式通过次数 每90分钟进球数:每90分钟进球数 每90次助攻数:每90分钟助攻数 每 90 个进球+助攻:每 90 分钟的总 G+A 每90分的非点球进球数:每90分的非点球数 每 90 分的非处罚 G+A:每 90 分的非处罚 G+A 每90场xG:每90分钟的预期进球数 每90分钟xAG:每90分钟的预期助攻数 每 90 分 xG+xAG:每 90 分 xG+xAG 合计 每90分无罚球xG:每90分无罚球xG 每90分无罚球xG+xAG:每90分无罚球xG+xAG

2025-09-04

香水数据集(全球香水品牌、香调、类型和寿命的数据集)

关于数据集 数据集描述 该数据集是来自多个品牌的香水的结构化集合。每一行代表一个特定的香水条目,其属性描述其特性、用途和性能。该数据集被设计为可扩展的,因为可以不断添加更多品牌和香水。 当前列 品牌 – 生产香水的公司或品牌(例如 Dumont)。 香水 – 香水的名称(例如,硝基红)。 类型 – 香水的浓度或配方(例如,EDP – 淡香精)。 类别 – 根据香味系列或风格对香水进行分类(例如,清新香味、木香辛香、东方香草)。 target_audience – 香水的预期佩戴者(例如,男性、女性、男女皆宜)。 长寿 – 在皮肤上持续时间方面的预期表现(例如,强、中)。 示例条目 硝基红(Dumont,EDP)——专为长寿男士设计的清新香味。 Celerio Oros (Dumont, EDP) – 一款东方香草香水,适合中等寿命的男女皆宜的佩戴者。 硝基黑 (Dumont, EDP) – 一款木质辛辣香水,适合男士,性能强劲。

2025-09-04

水下表面温度数据集(来自巴西沿海岛屿的水下温度数据集)

该数据集包含来自巴西南部圣卡塔琳娜州海岸的七个岛屿和两个水下岩礁的水下温度 (°C) 数据,位于南纬 26°22 分至 28°26' 之间。2012 年 12 月至 2014 年 7 月期间,使用 HOBO 吊坠温度数据记录仪 UA-002 每 20 分钟获取一次温度记录。数据记录仪由水肺潜水员安装在水下,并在岛屿上用环氧树脂锚定在 5 m 和 12 m 深的岩礁上,在水下珊瑚礁中用环氧树脂锚定在 22 m 深处。由于设备损失,特定站点缺少一些深度。该数据集由七个变量组成:地点、纬度、经度、日期、采样时间、温度 (°C) 和深度(米)。

2025-09-05

全球电动汽车充电站-数据集(具有功率等级 + 电动汽车型号的全球电动汽车充电站 )

数据集概述 行数:242,418 个充电点 国家:122(ISO-2 代码) 列:11(最少,实用) 您可以立即询问的内容: 按国家/城市划分的覆盖范围、快速直流可用性 (≥50 kW)、最大配电、每个站点的端口以及简单的全球汇总。 文件 charging_stations_2025_world.csv— 单个全局文件,每个站点一行(通过id) country_summary_2025.csv— 每个国家/地区计数和最大功率(辅助器) world_summary_2025.csv— 全局快速汇总(帮助程序) ev_models_2025.csv— 带有 EV 模型的配套文件(CC0 友好来源) 主要统计数据(来自数据) 快速直流分担 (≥50 kW):~20.97% 的站点 每个站点的端口数:最小 1,中位数 11,平均值 35.25,最大 3,160 最大功率(kW):最小值1.2,中位数22,平均值54.26,最大值2,500 排名靠前的国家(按站点数量 ): 美国 82,138 • 英国 26,825 • 德国 23,373 • 西班牙 17,825 • 加拿大 16,490 • 法国 13,820 • 意大利 10,354 • 荷兰 8,091 • 东南 4,953 • 否 4,790 数据架构(11 列) 列 描述 id OCM 唯一站点 ID name 网站名称 city 城市(在某些地区可能为空白) country_code ISO-2 国家代码 state_province 州/省 latitude,longitude WGS84坐标 ports 现场充电点数量 power_kw 现场连接器的最大功率 (kW) power_class 源自 (AC_Slow <7;AC_Std 7-22;DC_Fast 50-99;DC_HighPower ≥100

2025-09-04

电动汽车数据集:2025 年 3K+ 记录(真实电动汽车数据:特斯拉、宝马、日产车型的电池规格和 2025 年销售数据 )

电动汽车数据集 该综合数据集包含许多品牌和年份的电动汽车和插电式车型的记录,捕获了技术规格、性能、定价、制造原产地、销售和安全相关属性。每一行代表由Vehicle_ID标识的唯一车辆列表。 主要特征 覆盖范围:全球制造商和车型组合,包括纯电动汽车和插电式混合动力汽车。 范围:电池化学成分、容量、续航里程、充电标准和速度、价格、产地、自主水平、排放、安全等级、销售和保修。 时间跨度:模型跨越多个年份(旧版和即将推出的)。 数据质量说明: 某些行的某些字段可能缺失(空白)。 多个分类字段包含不同的特定于供应商的值(例如,Charging_Type、Battery_Type)。 单位在列之间混合;注意千瓦时、公里、小时、美元、克/公里和额定等级。 列 Vehicle_ID 每个车辆记录的唯一标识符。 制造者 车辆品牌或 OEM。 型 年 Battery_Type 使用的电池化学/技术 Battery_Capacity_kWh 标称电池容量(以千瓦时为单位)。 Range_km 充满电后声称的行驶里程(公里)。 Charging_Type 主要的充电接口或功能。 Charge_Time_hr 大致充电时间(小时),上下文因充电方法而异 Price_USD 以美元为单位的指示性车辆价格。 颜色 Country_of_Manufacture 车辆制造/组装的国家/地区。 Autonomous_Level 自动化能力级别(例如,0-5),可能包括子级别的小数。 CO2_Emissions_g_per_km 尾气二氧化碳排放量(以克/公里为单位)(纯电动汽车通常为 0) Safety_Rating 安全等级 Units_Sold_2024 在 2024 年售出的单位 Warranty_Years 保修期(以年为单位)。

2025-08-22

宝马销量(2010-2024)-数据集

关于数据集 该数据集包含了2010年至2024年BMW的详细销量记录,涵盖多个地区和车型类别。 它包括不同宝马车型的年销量和月销量、市场分布和性能趋势。

2025-08-22

中国大气污染(2015-2025)-数据集

关于数据集 该数据集包含来自中国五个主要城市的合成但真实的空气污染数据:北京、上海、广州、成都和深圳。它跨度为 2015 年至 2025 年,提供有关空气质量、气象条件和污染水平的宝贵信息。该数据集由 3,000 行和 24 列组成,涵盖各种空气污染物、天气条件和地理细节。 该数据集专为数据分析、机器学习模型和空气质量预测应用而设计。

2025-08-05

多类糖尿病数据集-zip

关于数据集 这个精炼的数据集最初基于 Ahlam Rashid 在 Mendeley Data 中上传的“糖尿病数据集”。原始数据集的链接为:https://data.mendeley.com/datasets/wj9rwkp9c2/1。原始数据集共包含 1000 名受试者,分为三类:糖尿病、非糖尿病和预测糖尿病。 在1000名受试者中,844名是糖尿病患者,103名是非糖尿病患者,53名是预测糖尿病患者,导致阶级极度不平衡。我们在原始数据集中总共发现了 174 个重复的受试者,随后我们删除了这些受试者。删除重复受试者后,还剩下 690 名糖尿病受试者、96 名非糖尿病受试者和 40 名预测糖尿病受试者。

2025-08-05

监控中的有害和危险物体-数据集

概述 该危险物品数据集是一个全面的可视化数据集,旨在检测和分类危险物品。它最初基于 Roboflow 上的危险对象数据集,通过额外的图像、新的对象类和改进的组织进行了显着增强,以便在计算机视觉应用中实际使用。 上下文 检测危险物体和环境对于公共安全、监控、机器人和自主系统中的应用至关重要。该数据集支持开发能够实时识别风险的人工智能模型,从而实现更智能、更安全的决策。它非常适合使用 YOLO、SSD 或其他深度学习框架训练对象检测算法。 数据集详细信息 图片总数:14, 676 拆分: 训练集:12,049 张图片 验证集:1, 749 张图片 测试集:878 张图像 类别(共 7 个): 0 : 弹药 1 : 枪支 2: 手榴弹 3 : 刀 4: 手枪 5 : 火箭 6 : 火

2025-08-05

胆结石数据集 (UCI)

关于数据集 概述 临床数据集收集自安卡拉 VM 医疗园医院内科门诊,包括 319 人(2022 年 6 月至 2023 年 6 月)的数据,其中 161 人被诊断患有胆结石病。它包含 38 个特征,包括人口统计学、生物阻抗和实验室数据,并获得了安卡拉市医院伦理委员会 (E2-23-4632) 的伦理批准。人口统计变量是年龄、性别、身高、体重和体重指数。生物阻抗数据包括总水、细胞外水和细胞内水;肌肉和脂肪量;蛋白;内脏脂肪区;和肝脏脂肪。实验室特征包括葡萄糖、总胆固醇、HDL、LDL、甘油三酯、AST、ALT、ALP、肌酐、GFR、CRP、血红蛋白和维生素 D。数据集完整,没有缺失值,并且在疾病状态方面是平衡的,无需额外的预处理。它为使用非成像特征进行基于机器学习的胆结石预测提供了坚实的基础。 上下文 胆结石病是一种常见的胃肠道疾病,其特征是胆囊内形成固体颗粒(胆结石)。这些结石会导致炎症、感染和胆管阻塞等并发症。了解与胆结石形成相关的医学、人口统计和生活方式因素对于早期诊断和预防策略至关重要。 该数据集经过精心策划,旨在支持专注于胆结石风险预测和临床决策的研究、探索性数据分析 (EDA) 和机器学习任务。 数据集详细信息 大小:数据集有 319 行和 40 列。 格式:单个 CSV 文件,兼容 Python、R 和其他工具。 所有功能都是干净的,格式一致。分类特征是人类可读和编码的。

2025-08-04

全球自然灾害数据-数据集

关于数据集 该数据集源自 NASA 的 EONET API,该 API 提供全球发生的重大自然事件的实时和历史数据。它包括全球自然灾害(如野火、严重风暴、洪水等)的清理和结构化记录。该数据集具有重要的分析价值,因为它提供了对历史趋势、地理空间模式、气候变化影响和备灾策略的见解。

2025-08-04

中国城景点详情-数据集

关于数据集 该数据集包括来自中国 352 个城市的旅游景点数据。每个城市 CSV 文件中包含 100 个位置。数据包括位置名称、网址、地址、网站介绍、开放时间、图片网址、评分、建议访问时长、建议季节、门票信息和提示。 所有数据都是通过网络抓取从 https://travel.qunar.com/ 获取的

2025-08-05

中国水污染监测数据-数据集

关于数据集 该数据集对2023年从中国10个主要省份的各个监测站收集的水污染水平进行了合成但真实的模拟。数据包括 pH 值、浊度、化学和生物需氧量、营养水平和重金属浓度等关键参数。这些指标被环境监测机构广泛用于评估水质对生态、人类和工业的影响。 该数据集可用于: 环境建模 水质预测 分类或回归任务的监督学习 环境系统中的异常检测 数据可视化和 EDA 项目

2025-08-05

NETFLIX 电视节目和电影-数据集

关于数据集 Netflix 电影和电视节目 关于此数据集: Netflix 是最受欢迎的媒体和视频流媒体平台之一。他们的平台上有超过 8000 部电影或电视节目,截至 2021 年年中,他们在全球拥有超过 200M 订阅者。这个表格数据集包含 Netflix 上所有电影和电视节目的列表,以及演员、导演、收视率、发行年份、持续时间等详细信息。 数据集概述: Netflix Titles 数据集是 Netflix 上可用的电影和电视节目的综合汇编,涵盖影片类型、导演、演员阵容、制作国家/地区、发行年份、评级、持续时间、类型(列在中)和简要描述等各个方面。该数据集有助于分析 Netflix 内容的趋势、了解类型受欢迎程度以及检查内容在不同地区和时间段的分布情况。

2025-08-05

多靶点生物活性 ChEMBL

与四个不同蛋白质靶标结合的 8,711 个分子的数据集。 关于数据集 EGFR、DRD2、BACE1 和 HDAC1 的生物活性数据集 该数据集包含针对四个具有药理学重要性的蛋白质靶标测试的化合物的精选分子数据。所有数据均来自 ChEMBL 数据库。 包括的目标 目标名称 ChEMBL 目标 ID 目标类 EGFR的 CHEMBL203 激酶(受体 TK) DRD2 CHEMBL217 GPCR(多巴胺 D2 受体) BACE1 CHEMBL1987 酶(天冬氨酸蛋白酶) HDAC1 CHEMBL325 酶(组蛋白脱乙酰酶) 数据集中的每个条目包括: ChEMBL 化合物 ID 经典微笑 分子特性(分子量、HBA、HBD、logP 和 TPSA) 目标标签 格式 数据集以 CSV 或 Parquet 格式提供,其中包含以下列: ChEMBL ID:ChEMBL 化合物标识符 SMILES:规范的 SMILES 字符串 Molecular weight:分子量(Da) LogP:辛醇-水分配系数 HBA:氢键受体数 HBD:氢键供体数量 TPSA:拓扑极表面积 Protein:蛋白质靶点名称

2025-08-04

航空公司航班数据-数据集

不同城市的航空公司航班数据集 各航空公司的航班预订数据集是从著名网站以结构化格式逐年抓取的。该数据集包含印度城市之间的航班旅行详细信息记录。这里存在多种功能,如出发地和目的地城市、到达和出发时间、航班的持续时间和价格等。 此数据以 CSV 文件的形式提供。我们将使用 Pandas DataFrame 分析此数据集。 此分析将对在航空公司、旅游领域工作的人有所帮助。 使用这个数据集,我们在项目中使用 Python 回答了多个问题。 Q.1. 数据集中有哪些航空公司,并附有它们的频率? Q.2. 显示代表出发时间和到达时间的条形图。 Q.3. 显示代表源城市和目的地城市的条形图。 Q.4. 价格因航空公司而异吗? Q.5. 票价会根据出发时间和到达时间而变化吗? Q.6. 价格如何随着来源和目的地的变化而变化? Q.7. 在出发前 1 或 2 天购买机票时,价格有何影响? Q.8. 经济舱和商务舱的票价有何差异? Q.9. Vistara 航空公司从德里飞往海得拉巴的商务舱航班平均价格是多少? 这些是数据集中可用的主要特征/列: 1)航空公司:航空公司名称存储在航空公司栏中。这是一个拥有 6 家不同航空公司的分类特征。 2) 航班:航班存储有关飞机航班代码的信息。这是一个分类特征。 3)始发城市:航班起飞的城市。这是一个拥有 6 个独特城市的分类特征。 4) 出发时间:这是通过将时间段分组到箱中而获得的派生分类特征。它存储有关出发时间的信息,并具有 6 个唯一的时间标签。 5) 停靠点:具有 3 个不同值的分类特征,用于存储源城市和目的地城市之间的停靠点数量。 6) 到达时间:这是通过将时间间隔分组到箱中而创建的派生分类特征。它有六个不同的时间标签,并保留有关到达时间的信息。 7) 目的地城市:航班降落的城市。这是一个拥有 6 个独特城市

2025-08-04

大学生安置因素数据-数据集

大学生安置数据集 一个包含 10,000 名学生的真实、大规模的合成数据集,旨在分析影响大学安置的因素。 数据集描述 该数据集模拟了 10,000 名大学生的学术和专业概况,重点关注影响安置结果的因素。它包括智商、学习成绩、CGPA、实习、沟通技巧等功能。 该数据集非常适合: 安置结果的预测建模 分类教育练习 特征重要性分析 端到端机器学习项目 列说明 列名称 描述 College_ID 学院的唯一 ID(例如,CLG0001 到 CLG0100) 智商 学生的智商分数(正常分布在 100 左右) Prev_Sem_Result 上学期的 GPA(范围:5.0 至 10.0) CGPA的 累积平均绩点(范围:~5.0 至 10.0) Academic_Performance 年度学术评分(等级:1 至 10) Internship_Experience 学生是否完成了任何实习(是/否) Extra_Curricular_Score 参与课外活动(分数从 0 到 10) Communication_Skills 软技能等级(等级:1 到 10) Projects_Completed 已完成的学术/技术项目数量(0 至 5) 放置 最终放置结果(是 = 已放置,否 = 未放置) 目标变量 放置:这是二元分类目标(是/否),您可以尝试根据其他特征进行预测。 使用案例 分类建模(逻辑回归、决策树、随机森林等) 探索性数据分析 (EDA) 特征工程和选择 模型评估实践 学术项目和顶点用途 数据集大小 行数:10,000 列数:10 文件格式:.csv 上下文 该数据集的生成类似于学术机构中用于研究和机器学习的真实世界数据。虽然它是综合的,但变量和关系经过精心设计,以模仿在学生安置中观察到的真实趋势。

2025-09-08

乳腺癌数据集(该数据集基于最适合笔记本和 EDA 的乳腺癌数据集)

概述 该数据集源自威斯康星州乳腺癌(诊断)数据集,这是医学诊断机器学习中广泛使用的基准。它包含对乳腺组织样本细胞核的详细测量,能够将肿瘤分类为良性(非癌性)或恶性(癌性)。该数据集对于开发和测试机器学习模型(例如逻辑回归、支持向量机或深度神经网络)特别有价值,以帮助早期准确地检测乳腺癌。 目的:二元分类以预测肿瘤类型(良性或恶性)。 应用:非常适合医学研究、机器学习模型开发和教育目的。 ##### 数据集结构 该数据集由569个实例(行)和32列组成,包括ID列、诊断标签和30个描述细胞核特征的数值特征。每个实例代表一个乳房肿块样本,其特征是根据数字化的 FNA 图像计算的。 关键列: ID:每个样本的唯一标识符(例如,842302)。 诊断:目标变量,标记为: M(恶性):表示癌性肿瘤。 B(良性):表示非癌性肿瘤。 特征(30 列):通过图像分析得出的细胞核的数值测量,例如半径、纹理、周长和面积。 功能类别: 根据细胞核的特征,这 30 个特征分为三个主要类别: 平均值:测量值的平均值(例如,平均半径、平均纹理)。 标准误差 (SE):测量的可变性(例如,半径的标准误差、面积的标准误差)。 最差:测量值的最大(最差)值(例如,最差半径、最差平滑度)。 每个类别包括 10 个特定测量值: 半径(从中心到周长上点的距离的平均值) 纹理(灰度值的标准差) 周边 面积 平滑度(半径长度的局部变化) 紧凑性(周长² / 面积 - 1.0) 凹陷(轮廓凹陷部分的严重程度) 凹点(轮廓的凹部分数量) 对称 分形维数(“海岸线近似值” - 1)

2025-09-08

客户分析实践数据-数据集

关于数据集 该数据集是流行的 Mall Customers 数据集的增强版本,旨在为实践数据科学和机器学习提供更丰富、更真实的资源。原始数据集仅包含基本的人口统计详细信息(年龄、性别、收入)和支出分数。虽然对于简单的集群很有用,但它缺乏更深入分析所需的各种功能。 为了解决这个问题,我们使用合成但逻辑一致的特征扩展了数据集,例如: 年龄组(用于人口统计分析的分箱类别) 估计储蓄(源自收入和支出模式) 信用评分(受收入和消费行为影响) 忠诚度年限(客户关系长度的近似度量) 首选类别(模拟购物偏好:奢侈品、经济型、时尚、电子产品) 这些增强功能使数据集在聚类、分类、回归和客户细分等任务中更加通用。 该数据集背后的灵感是弥合玩具数据集和现实世界业务数据之间的差距。通过包含零售、营销和财务分析中常用的功能,该数据集为学习者提供了以下机会: 练习无监督学习(客户细分、市场篮分析)。 应用监督学习(预测信用评分、类别偏好或储蓄)。 探索特征工程和可视化技术以获得业务洞察。 无论您是探索 K 均值聚类的初学者还是测试分类模型的高级从业者,该数据集都提供了一个全面的实验游乐场。

2025-09-08

多语言移动应用评论数据集 2025 年 9 月

2025 年多语言移动应用评论数据集 概述 这个全面的综合数据集包含 2,514 条真实的移动应用程序评论,涵盖 24 种不同语言的 40+ 流行应用程序,使其成为多语言 NLP、情感分析和跨文化用户行为研究的理想选择。 数据集统计 总记录: 2,514 条评论 专栏:15 个功能 涵盖的语言:24 种国际语言 包含的应用程序:40+ 流行的移动应用程序 时间范围:2023-2025(2年跨度) 文件格式:CSV 数据质量:有意包含缺失值和混合数据类型,以进行数据清理实践 色谱柱规格 列名称 数据类型 描述 样本值 空计数 review_id 整数 每条评论的唯一标识符 1, 2, 3, … 0 user_id 字符串* 用户标识符(应为整数) "1967825", "9242600" 0 app_name 字符串 移动应用程序的名称 WhatsApp、Instagram、TikTok 0 app_category 字符串 应用类别 社交网络, 娱乐 0 review_text 字符串 多语言审核内容 “这个应用程序太棒了!” 63 review_language 字符串 ISO 语言代码 en, es, fr, zh, hi, ar 0 rating 混合* 应用评分(1.0-5.0,部分为字符串) 4.5, "3.2", 1.1 38 review_date 日期时间 提交审稿的时间戳 2024-10-09 19:26:40 0 verified_purchase 布尔 购买验证状态 对,错 0 device_type 字符串 设备平台 安卓、iOS、iPad、Windows Phone 0 num_helpful_votes 混合* 有用性投票(有些作为字符串) 65, "209", 163 0 user_age 浮* 用户年龄(应为整数) 14.0, 18.0,

2025-09-08

Steam 销售历史数据集

Steam 销售历史数据集 概述 该数据集提供了 Steam 游戏销售的详细历史记录,捕获了 Windows、Linux 和 macOS 平台上的折扣、价格和可用性。 数据集中的每个条目都包含以下列: 游戏名称:Steam 上的游戏名称。 额定值:平均 Steam 用户评分(满分 10 分)。 #Reviews:用户提交的评论总数。 折扣 %:应用于游戏的当前折扣百分比。 价格(欧元):当前折扣价(欧元)。 原价(欧元):折扣前的原价以欧元为单位。 发布日期:游戏的正式发布日期。 Windows:如果在 Windows 上可用,则为 1,否则为 0。 Linux:如果在 Linux 上可用,则为 1,否则为 0。 MacOS:1 个(如果在 macOS 上可用),否则为 0 个。 获取位置:收集数据的时间戳。 潜在用途 跟踪游戏的历史价格趋势。 分析一段时间内的 Steam 销售和折扣模式。 构建折扣或价格变化的预测模型。 探索用户评分、评论和销售活动之间的相关性。

2025-09-08

国际酒店预订分析数据集

这是一个全面的综合数据集,旨在模拟主要酒店平台的预订和评论数据,非常适合有抱负的数据分析师和数据科学家建立强大的投资组合。除了简单的交易日志之外,该数据集还关注酒店、用户人口统计数据以及它们通过数字分数提供的宝贵反馈之间的关键关系。它提供了一个丰富、互联的环境来探索客户满意度、酒店绩效和市场趋势,使其成为任何希望掌握真实数据数据作、可视化和机器学习的人的强大资源。 该数据集围绕三个可以轻松链接的核心表构建: hotels.csv:此表用作酒店目录,包含具有hotel_id、名称、城市和star_rating等关键属性的独特酒店。这为所有其他数据提供了基础背景,使您能够根据位置和质量分析酒店绩效。 users.csv:此文件提供唯一客户列表,通过user_id、国家/地区和年龄等列提供基本的人口统计见解。这些数据对于细分客户和了解人口统计数据如何影响评论行为至关重要。 reviews.csv:作为中央事务表,它是数据集的核心。它将用户链接到他们评论过的酒店,捕获关键细节,如review_id、hotel_id、user_id和数字review_score。该表特别有价值,因为它专注于定量反馈。 该数据集因其集成设计而具有独特的价值,允许您执行各种分析项目,从简单的商业智能到高级预测建模。您可以构建可视化来跟踪按城市划分的平均评论分数,分析星级评定的分布,并了解哪些客户群留下的评论最多。对于更高级的项目,您可以使用复习分数来执行各种机器学习任务。例如,您可以构建一个模型来根据酒店的星级和位置来预测酒店的评论分数,或者创建一个客户细分模型来了解得分非常高或非常低的用户的个人资料。该数据集提供了一个完美的、独立的项目,以展示您使用完整、结构化数据集的能力。

2025-09-08

预测患者是否中风-数据集

根据世界卫生组织 (WHO) 的数据,中风是全球第二大死因,约占总死亡人数的 11%。 该数据集用于根据性别、年龄、各种疾病和吸烟状况等输入参数预测患者是否有可能中风。数据中的每一行都提供有关患者的相关信息。 属性信息 1) id:唯一标识符 2) 性别:“男性”、“女性”或“其他” 3) 年龄:患者 年龄 4) 高血压:如果患者没有高血压,则为 0,如果患者患有高血压 ,则为 1 5) heart_disease:如果患者没有任何心脏病,则为 0,如果患者患有心脏病 ,则为 1 6) ever_married:“否”或“是” 7) work_type:“儿童”、“Govt_jov”、“Never_worked”, “私人”或“个体经营者” 8) Residence_type:“农村”或“城市” 9) avg_glucose_level:血液 中的平均血糖水平 10) BMI:体重指数 11) smoking_status:“以前吸烟”、“从不吸烟”、“吸烟”或“未知”* 12) 中风:如果患者中风,则为 1,如果没有 ,则为 0 *注意:smoking_status中的“未知”表示该患者无法获得该信息

2025-09-08

亚马逊产品销售数据集 42K+ 商品 - 2025 年(电子产品数据集,包含 17 个关键特征,包括额定值、销售额和类别)

亚马逊电子产品销售数据集(42K+ 商品)– 2025 年 该数据集提供了 42,000+ 亚马逊电子产品的详细信息,包括销售、评级、定价趋势和子类别分布。该数据集有两个版本: 清理文件:完全预处理并准备好用于分析、可视化和机器学习项目 未清理文件:为那些想要练习数据清理、预处理和特征工程的人提供的原始抓取数据 该数据集 具有 17 个丰富的功能,非常适合数据科学、机器学习、推荐系统和业务分析。 功能概述 以下是清理数据集中包含的关键列(未清理的版本包含或多或少相同的字段): product_title – 产品的完整名称/名称 product_rating – 平均客户评分(数字)(满分 5 分) total_reviews – 客户评论总数 purchased_last_month – 上个月购买的单位 discounted_price – 折扣后的当前价格 original_price – 折扣前的原价 discount_percentage – 应用于产品的百分比折扣 is_best_seller – 指示产品是否被标记为畅销书 is_sponsored – 商品是商品推广还是有机商品 has_coupon – 特别折扣优惠券可用性(对/错) buy_box_availability – 亚马逊搜索页面上的按钮可用性,例如(nan 值代表 False)BuyBoxadd to cart delivery_date – 预计交货日期(转换为日期时间格式) sustainability_tags – 环保和可持续发展相关标签 product_image_url – 产品的直接图像链接 product_page_url – 亚马逊官方产品页面 URL data_collected_at – 收集数据的日期 product_category – 根据标题分配的产品类别

2025-09-08

饮食分析预测体重-数据集

该数据集包含来自 100 名参与者的信息,重点关注人口统计、饮食习惯、身体活动水平和生活方式因素,以预测体重随时间的变化。主要特征包括年龄、性别、当前体重、每日热量摄入量、常量营养素分解、睡眠质量和压力水平。该数据集旨在分析这些变量如何相互作用并影响体重波动,为营养和健康领域的研究人员和从业者提供宝贵的资源

2025-09-08

电动汽车分析数据集-数据集

该数据集提供了不同制造商、型号、地区和使用类型的电动汽车 (EV) 性能、充电行为、电池健康状况和成本分析的全面视图。 它是一个合成生成的数据集,旨在类似于真实世界的数据,可用于: 探索性数据分析 (EDA) 机器学习和预测建模 电池和充电优化研究 成本、转售和维护分析 可持续性和二氧化碳减排分析

2025-09-07

全球咖啡健康数据集-全球咖啡消费、睡眠模式和健康结果的数据集

描述: GlobalCoffeeHealth 数据集包含 10,000 条合成记录,反映了 20 个国家/地区的咖啡消费、睡眠行为和健康结果的真实模式。它包括人口统计、每日咖啡摄入量、咖啡因水平、睡眠时间和质量、BMI、心率、压力、身体活动、健康问题、职业、吸烟和饮酒量。 该数据集捕获了研究中观察到的真实相关性,例如咖啡因对睡眠、压力和健康的影响,使其成为统计分析、预测建模以及生活方式或健康研究的理想选择。 色谱柱/功能 列 类型 描述 ID 整数 唯一记录 ID (1–10000) Age 整数 参与者年龄(18-80 岁) Gender 分类 男, 女, 其他 Country 分类 居住国(20 个国家) Coffee_Intake 浮 每日咖啡摄入量(0-10) Caffeine_mg 浮 估计每日咖啡因摄入量(毫克)(1 杯≈ 95 毫克) Sleep_Hours 浮 每晚平均睡眠时间(3-10 小时) Sleep_Quality 分类 差、一般、好、优秀(基于睡眠时间) BMI 浮 体重指数 (15–40) Heart_Rate 整数 静息心率 (50–110 bpm) Stress_Level 分类 低、中、高(基于睡眠时间和生活方式) Physical_Activity_Hours 浮 每周体育锻炼(0-15 小时) Health_Issues 分类 无、轻度、中度、重度(基于年龄、BMI 和睡眠) Occupation 分类 办公室, 医疗保健, 学生, 服务, 其他 Smoking 布尔 0 = 否,1 = 是 Alcohol_Consumption 布尔 0 = 否,1 = 是 使用情况和见解 探索咖啡摄入量、睡眠质量和健康结果之间的相关性。 分析生活方式因素,如身体活动、吸烟和饮酒。 构建睡眠质量、压力水平或健康风险的预测模型。

2025-09-06

2025 年听力健康调查-数据集

2025 年听力健康调查记录了公众对听力健康的看法、习惯和意识,重点关注长期使用耳机和头戴式耳机带来的日益增长的风险。该调查在不同年龄段进行,探讨了个人如何重视听力、他们应对听力挑战的经历以及他们对听力保健数字解决方案的开放态度。 该提供了以下方面的详细见解: 人口统计 – 受访者的年龄组分布 聆听习惯 – 日常耳机/耳机使用模式 听力风险 – 不适、铃声或疼痛的发生率 听力测试的障碍 – 人们避免测试的常见原因 数字准备 – 对移动听力健康应用程序的兴趣和支付意愿 功能首选项 – 听力测试应用程序中所需的功能(例如,快速测试、医生咨询、声音个性化)

2025-09-06

Android SDK Installer (installer-r24.4.1-windows.exe)

资源名称:Android SDK Windows 安装程序 版本:r24.4.1 平台:Windows 类型:可执行安装程序 核心简介 installer_r24.4.1-windows.exe 是 Android 软件开发工具包(SDK)的官方 Windows 图形化安装程序。它为用户提供了在 Windows 系统上快速搭建 Android 应用开发环境的最简单方式,无需复杂的命令行操作,即可一键安装核心的 SDK 工具和平台组件。 主要功能与用途 该安装程序的核心任务是简化初始环境配置。它会自动安装最基础的 Android SDK 工具包,包括: ADB (Android Debug Bridge):用于与连接的安卓设备或模拟器进行通信和调试的关键工具。 Fastboot:用于刷写设备系统镜像的实用工具。 核心 SDK 工具:如 android.bat(旧版 SDK 管理器)等必要的构建和调试工具。 安装程序会引导用户完成安装路径选择、组件确认等步骤,并为用户设置好环境变量,为后续使用 Android Studio 或进行命令行开发打下坚实基础。 版本特点 此版本(r24.4.1)属于较早期的 SDK 工具版本,但其提供的核心工具(如 ADB 和 Fastboot)至今仍被广泛使用且保持向下兼容。对于需要特定旧版本环境进行开发、调试或设备维护的用户而言,它提供了一个稳定可靠的起点。 安装与使用指南 运行安装:双击下载的 .exe 文件启动安装向导。 遵循指引:按照屏幕提示逐步操作,选择想要安装的组件(通常保持默认即可)和安装路径。 完成设置:安装完成后,通常即可在命令提示符中直接使用 adb 和 fastboot 等命令。

2025-09-05

Gradle 8.13 二进制分发版 (gradle-8.13-bin.zip)

Gradle 是一款功能强大的开源构建自动化工具,它融合了 Ant 的灵活性与 Maven 的依赖管理优势,并采用基于 Groovy 或 Kotlin 的声明式语言,使构建脚本更简洁、可读性更强。作为 Android 开发的官方构建工具,Gradle 也广泛应用于 Java、C++ 等多种技术栈的项目中,是现代软件开发流程的核心组件之一。 核心优势 高性能:依托增量构建、构建缓存和并行执行技术,显著提升编译和部署效率。 高度可扩展:使用 Groovy 或 Kotlin DSL 编写脚本,轻松定制复杂构建流程,支持丰富的插件生态。 强大的依赖管理:可无缝对接 Maven、Ivy 等仓库,自动化解决依赖冲突。 关于 Gradle 8.13 该版本是 8.x 系列的长期支持(LTS)版本,注重稳定性和性能优化。其主要改进包括进一步优化配置缓存、增强对 Kotlin DSL 的支持,并修复了前期版本中的多项问题,适合用于企业级生产环境。 “-bin.zip” 是什么? “-bin” 表示二进制分发版,仅包含运行 Gradle 所必需的编译文件和基础文档,无源代码。该版本体积小、下载快,是大多数开发和持续集成环境的理想选择。 安装使用简要指南 解压 gradle-8.13-bin.zip 至目标目录(如 /opt/gradle)。 设置环境变量: 配置 GRADLE_HOME 指向解压目录 将 $GRADLE_HOME/bin 加入 PATH 终端执行 gradle -v,出现版本信息即表示安装成功。 总结 gradle-8.13-bin.zip 是 Gradle 官方推荐的稳定二进制发行包,兼顾高性能与可靠性。适用于个人学习、企业项目开发和自动化构建流程,能够有效管理项目依赖、优化构建效率,是构建现代化项目的首选工具。

2025-09-05

航空公司航班数据-数据集

不同城市的航空公司航班数据集 各航空公司的航班预订数据集是从著名网站以结构化格式逐年抓取的。该数据集包含印度城市之间的航班旅行详细信息记录。这里存在多种功能,如出发地和目的地城市、到达和出发时间、航班的持续时间和价格等。 此数据以 CSV 文件的形式提供。我们将使用 Pandas DataFrame 分析此数据集。 此分析将对在航空公司、旅游领域工作的人有所帮助。 这些是数据集中可用的主要特征/列: 1)航空公司:航空公司名称存储在航空公司栏中。这是一个拥有 6 家不同航空公司的分类特征。 2) 航班:航班存储有关飞机航班代码的信息。这是一个分类特征。 3)始发城市:航班起飞的城市。这是一个拥有 6 个独特城市的分类特征。 4) 出发时间:这是通过将时间段分组到箱中而获得的派生分类特征。它存储有关出发时间的信息,并具有 6 个唯一的时间标签。 5) 停靠点:具有 3 个不同值的分类特征,用于存储源城市和目的地城市之间的停靠点数量。 6) 到达时间:这是通过将时间间隔分组到箱中而创建的派生分类特征。它有六个不同的时间标签,并保留有关到达时间的信息。 7) 目的地城市:航班降落的城市。这是一个拥有 6 个独特城市的分类特征。 8) 等级:包含座位等级信息的分类特征;它有两个不同的价值观:商业和经济。 9) 持续时间:一种连续功能,显示城市之间旅行所需的总时间(以小时为单位)。 10) 剩余天数:这是一个派生特征,通过将旅行日期减去预订日期来计算。 11) 价格:目标变量存储票价信息。

2025-09-05

可口可乐股票最新数据集(可口可乐股票从 1962 年至今的表现)

可口可乐公司是一家北美跨国饮料公司,根据特拉华州普通公司法[a]注册成立,总部位于佐治亚州亚特兰大。可口可乐公司在非酒精饮料浓缩物和糖浆以及酒精饮料的制造、零售和营销方面拥有权益。该公司生产可口可乐,这是一种最著名的含糖饮料,由药剂师约翰·斯蒂斯·彭伯顿 (John Stith Pemberton) 于 1886 年发明。当时,该产品是用古柯叶制成的,古柯叶在饮料中添加了一定量的可卡因,而可乐果则添加了咖啡因,因此古柯和可乐一起提供了刺激作用。这种刺激作用是这种饮料作为健康“滋补品”出售给公众的原因,古柯和可乐也是产品名称和公司名称的来源。1889 年,该配方和品牌以 2,300 美元(2021 年约为 68,000 美元)的价格出售给 Asa Griggs Candler,后者于 1892 年在亚特兰大成立了可口可乐公司。 自 1919 年以来,可口可乐一直是一家上市公司。其股票在纽约证券交易所上市,股票代码为“KO”。1919 年以 40 美元的价格购买的一股股票,所有股息再投资,到 2012 年将价值 980 万美元,经通货膨胀调整后,年增长率为 10.7%。SunTrust 的前身银行因承销可口可乐 1919 年的公开募股而获得 100,000 美元;该银行在 2012 年以超过 20 亿美元的价格出售了该股票。1987年,可口可乐再次成为道琼斯工业平均指数的30只股票之一,道琼斯工业平均指数通常被用作股市表现的代表;它之前是 1932 年至 1935 年的道琼斯指数股票。可口可乐自 1920 年以来一直支付股息,截至 2019 年,已连续 57 年每年增加股息。

2025-09-05

用于胸部 X 光检查的 UNET 肺分割权重

CXR 通常周围包含大量噪音,对于心血管疾病识别,肺是 CXR 的重要组成部分,也是唯一感兴趣的对象。为了消除从噪声中学习,通常建议首先使用 UNET 肺分割对数据集进行预处理,然后应用对象检测/分类算法。因此正在上传此模型。

2025-09-05

学生学业压力真实世界数据集

该数据集捕捉了对不同教育阶段学生学业压力水平的真实见解。这些数据是通过 Google 表单从高中、本科和研究生阶段的不同学生群体中收集的。 学业压力是全世界学生日益关注的问题,严重影响他们的心理健康和学业成绩。该数据集旨在量化导致学业压力的因素,并为数据驱动的研究、心理健康分析和教育政策改进提供基础。

2025-09-05

1872年至2025年国际足球成绩-数据集

该数据集包括从 1872 年第一场正式比赛到 2025 年的 47,917 场国际足球比赛结果。比赛范围从 FIFA 世界杯到 FIFI Wild Cup,再到常规友谊赛。这些比赛严格来说是男子全国际比赛,数据不包括奥运会或至少有一支球队是该国 B 队、U-23 或联赛精选球队的比赛。 results.csv包括以下列: date- 比赛日期 home_team- 主队名称 away_team- 客队名称 home_score- 全场主队得分,包括加时赛,不包括点球大战 away_score- 全场客队得分,包括加时赛,不包括点球大战 tournament- 比赛名称 city- 比赛进行的城市/城镇/行政单位的名称 country- 比赛所在国家/地区的名称 neutral- TRUE/FALSE 列指示比赛是否在中立场地进行 shootouts.csv包括以下列: date- 比赛日期 home_team- 主队名称 away_team- 客队名称 winner- 点球大战的获胜者 first_shooter- 在点球大战中率先获胜的球队 goalscorers.csv包括以下列: date- 比赛日期 home_team- 主队名称 away_team- 客队名称 team- 进球的球队名称 scorer- 进球的球员姓名 own_goal- 进球是否乌龙球 penalty- 进球是否为点球 former_names.csv包括以下列: current- 当前使用的团队名称(如果团队不再存在,则为姓氏) former- 该团队使用的旧名称 start_date- 使用以前名称的开始日期 end_date- 使用旧名称的结束日期

2025-09-05

美国人口排名前 100 的城市-数据集

列出每个城市、其排名(基于 2020 年人口)、有关其面积的一些数据以及 2020 年和 2010 年的人口。

2025-09-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除