- 博客(10)
- 收藏
- 关注
原创 实验二 文件格式的转换
内容概要:本文档详细介绍了使用Kettle工具进行数据ETL(抽取、转换、加载)操作的实验,以学生成绩登记需求为例。首先,讲解了如何在MySQL中创建数据库和表,并利用Kettle将Excel格式的学生成绩表导入数据库;其次,针对成绩登记错误的情况,通过一系列Kettle控件(如Excel输入、排序记录、列转行、过滤记录、插入/更新)实现成绩修订表对原成绩表的修正;最后,满足数学老师的特殊需求,生成仅有数学成绩的排名表,涉及字段选择、排序记录、增加序列以及Excel输出等控件的使用。整个过程中涉及到的操作系
2025-08-15 16:47:08
250
原创 数据清洗基础训练一
内容概要:本文档详细介绍了关于安装数据清洗工具和下载数据集的实验,具体分为实验目的、实验内容、实验条件及要求、实验实施步骤四大部分。实验目的是安装相应软件、熟悉Python操作MySQL数据库方法和下载数据集。实验内容包括安装kettle、JDK、Python、MySQL,使用Python操作MySQL数据库完成查询特定学生所有成绩、查询成绩大于85的课程、更新课程学分、插入选课记录、删除指定学生记录等任务,以及从多个知名平台下载开源数据集。实验条件明确了所需的操作系统和软件版本。实验实施步骤详细描述了如何
2025-08-15 16:45:02
606
原创 基于Python的MySQL与HDFS操作实验报告:数据采集与预处理课程实践
内容概要:该文档是一份实验报告,涵盖了数据科学与大数据技术专业的六个实验内容,分别为:使用 Python 操作 MySQL 数据库和 HDFS、网络爬虫初级实践、Kafka 的基本使用方法、Flume 的基本使用方法、Kettle 的基本使用方法以及 Pandas 数据清洗初级实践。每个实验详细描述了实验目的、内容、条件及要求、实施步骤和总结。通过这些实验,学生能够掌握 MySQL、HDFS、网络爬虫、Kafka、Flume、Kettle 和 Pandas 的基本操作和应用场景。适合人群:数据科学与大数据
2025-08-14 17:59:35
952
原创 【酒店客户分析】基于机器学习的酒店客户流失预测与用户画像构建:数据预处理、特征工程及模型优化全流程解析
内容概要:本文旨在通过机器学习和数据分析技术对酒店客户数据进行分析,以预测客户流失并提供决策支持。文章首先介绍了研究背景与目标,指出酒店业竞争激烈,保持业务稳定和持续增长需要深入了解客户并预测潜在的客户流失。接着详细描述了研究内容与意义,包括客户数据收集与整理、客户分析、流失预测模型建立等。研究方案设计涵盖了数据收集、特征工程、模型选择、评估与改进等步骤。文中还展示了数据预处理与特征工程的具体操作,包括数据清洗、特征选择、PCA降维、数据标准化等。
2025-08-14 17:11:17
1017
原创 pandas读取excel提示ImportError: Missing optional dependency ‘xlrd’
提示:No module named 'xlrd'
2022-12-14 19:30:24
1048
原创 HBASE shell,ERROR: org.apache.hadoop.hbase.PleaseHoldException: Master is initializing
hbase可以启动但无法创建表格
2022-12-06 15:08:48
905
原创 《菅销在移动互联网时代》智慧树知到章节测试答案
智慧树知到《营销在移动互联网时代》2019章节测试答案2019年11月22日智慧树知到《营销在移动互联网时代》2019章节测试答案第1章 单元测试1、关于自媒体时代,克莱.舍基的三本著作有?答案:未来是湿的:无组织的组织力量、认知盈余:无组织的时间力量、人人时代:无组织的组织力量2、2013年是区块链元年。答案:错3、“风口理论”又叫“飞猪理论”,最早是雷军提出来的。答案:对4、互联网不是工业经济时代的延伸,而是对这个工业经济的整个思维方式的彻底的解构,即互联网时代要
2022-11-25 16:58:08
2445
2
【数据科学与大数据技术】基于Python的MySQL与HDFS操作实验报告:数据采集与预处理课程实践
2025-08-14
【酒店客户分析】基于机器学习的酒店客户流失预测与用户画像构建:数据预处理、特征工程及模型优化全流程解析
2025-08-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人