自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 实验二 文件格式的转换

内容概要:本文档详细介绍了使用Kettle工具进行数据ETL(抽取、转换、加载)操作的实验,以学生成绩登记需求为例。首先,讲解了如何在MySQL中创建数据库和表,并利用Kettle将Excel格式的学生成绩表导入数据库;其次,针对成绩登记错误的情况,通过一系列Kettle控件(如Excel输入、排序记录、列转行、过滤记录、插入/更新)实现成绩修订表对原成绩表的修正;最后,满足数学老师的特殊需求,生成仅有数学成绩的排名表,涉及字段选择、排序记录、增加序列以及Excel输出等控件的使用。整个过程中涉及到的操作系

2025-08-15 16:47:08 250

原创 数据清洗基础训练一

内容概要:本文档详细介绍了关于安装数据清洗工具和下载数据集的实验,具体分为实验目的、实验内容、实验条件及要求、实验实施步骤四大部分。实验目的是安装相应软件、熟悉Python操作MySQL数据库方法和下载数据集。实验内容包括安装kettle、JDK、Python、MySQL,使用Python操作MySQL数据库完成查询特定学生所有成绩、查询成绩大于85的课程、更新课程学分、插入选课记录、删除指定学生记录等任务,以及从多个知名平台下载开源数据集。实验条件明确了所需的操作系统和软件版本。实验实施步骤详细描述了如何

2025-08-15 16:45:02 606

原创 基于Python的MySQL与HDFS操作实验报告:数据采集与预处理课程实践

内容概要:该文档是一份实验报告,涵盖了数据科学与大数据技术专业的六个实验内容,分别为:使用 Python 操作 MySQL 数据库和 HDFS、网络爬虫初级实践、Kafka 的基本使用方法、Flume 的基本使用方法、Kettle 的基本使用方法以及 Pandas 数据清洗初级实践。每个实验详细描述了实验目的、内容、条件及要求、实施步骤和总结。通过这些实验,学生能够掌握 MySQL、HDFS、网络爬虫、Kafka、Flume、Kettle 和 Pandas 的基本操作和应用场景。适合人群:数据科学与大数据

2025-08-14 17:59:35 952

原创 【酒店客户分析】基于机器学习的酒店客户流失预测与用户画像构建:数据预处理、特征工程及模型优化全流程解析

内容概要:本文旨在通过机器学习和数据分析技术对酒店客户数据进行分析,以预测客户流失并提供决策支持。文章首先介绍了研究背景与目标,指出酒店业竞争激烈,保持业务稳定和持续增长需要深入了解客户并预测潜在的客户流失。接着详细描述了研究内容与意义,包括客户数据收集与整理、客户分析、流失预测模型建立等。研究方案设计涵盖了数据收集、特征工程、模型选择、评估与改进等步骤。文中还展示了数据预处理与特征工程的具体操作,包括数据清洗、特征选择、PCA降维、数据标准化等。

2025-08-14 17:11:17 1017

原创 pandas读取excel提示ImportError: Missing optional dependency ‘xlrd’

提示:No module named 'xlrd'

2022-12-14 19:30:24 1048

原创 第一次运行redis-server的时候可能出现闪退情况处理方法

第一次运行redis-server的时候可能出现闪退情况处理方法

2022-12-09 17:29:52 461

原创 Windows cmd窗口下使用Redis输入中文乱码解决

Redis中文输入问题解决方案

2022-12-09 16:26:41 1602 1

原创 Neo4j小白安装教程

Neo4j小白安装讲解

2022-12-08 16:22:24 6434 2

原创 HBASE shell,ERROR: org.apache.hadoop.hbase.PleaseHoldException: Master is initializing

hbase可以启动但无法创建表格

2022-12-06 15:08:48 905

原创 《菅销在移动互联网时代》智慧树知到章节测试答案

智慧树知到《营销在移动互联网时代》2019章节测试答案2019年11月22日智慧树知到《营销在移动互联网时代》2019章节测试答案第1章 单元测试1、关于自媒体时代,克莱.舍基的三本著作有?答案:未来是湿的:无组织的组织力量、认知盈余:无组织的时间力量、人人时代:无组织的组织力量2、2013年是区块链元年。答案:错3、“风口理论”又叫“飞猪理论”,最早是雷军提出来的。答案:对4、互联网不是工业经济时代的延伸,而是对这个工业经济的整个思维方式的彻底的解构,即互联网时代要

2022-11-25 16:58:08 2445 2

【数据科学与大数据技术】基于Python的MySQL与HDFS操作实验报告:数据采集与预处理课程实践

内容概要:该文档是一份实验报告,涵盖了数据科学与大数据技术专业的六个实验内容,分别为:使用 Python 操作 MySQL 数据库和 HDFS、网络爬虫初级实践、Kafka 的基本使用方法、Flume 的基本使用方法、Kettle 的基本使用方法以及 Pandas 数据清洗初级实践。每个实验详细描述了实验目的、内容、条件及要求、实施步骤和总结。通过这些实验,学生能够掌握 MySQL、HDFS、网络爬虫、Kafka、Flume、Kettle 和 Pandas 的基本操作和应用场景。 适合人群:数据科学与大数据技术专业的本科生,尤其是对数据采集、处理和分析有兴趣的学生。 使用场景及目标:①掌握 MySQL 和 HDFS 的基本操作,能够使用 Python 对 MySQL 进行增删改查操作;②理解网络爬虫的工作原理,能够编写简单的爬虫程序并保存数据;③熟悉 Kafka 的消息队列机制,能够编写生产者和消费者的 Python 程序;④了解 Flume 的日志采集功能,能够配置 Flume 与 MySQL 和 Kafka 的连接;⑤掌握 Kettle 的 ETL 功能,能够进行数据转换和作业管理;⑥熟悉 Pandas 的数据清洗和可视化功能,能够处理和分析数据。 阅读建议:实验报告详细记录了每个实验的具体步骤和代码实现,建议读者在学习过程中结合实际操作进行练习,加深对各工具的理解和掌握。同时,建议在实验过程中多查阅相关文档和资料,以应对可能遇到的问题和技术难点。

2025-08-14

【酒店客户分析】基于机器学习的酒店客户流失预测与用户画像构建:数据预处理、特征工程及模型优化全流程解析

内容概要:本文旨在通过机器学习和数据分析技术对酒店客户数据进行分析,以预测客户流失并提供决策支持。文章首先介绍了研究背景与目标,指出酒店业竞争激烈,保持业务稳定和持续增长需要深入了解客户并预测潜在的客户流失。接着详细描述了研究内容与意义,包括客户数据收集与整理、客户分析、流失预测模型建立等。研究方案设计涵盖了数据收集、特征工程、模型选择、评估与改进等步骤。文中还展示了数据预处理与特征工程的具体操作,包括数据清洗、特征选择、PCA降维、数据标准化等。实例建模部分则介绍了多种机器学习模型的应用,如逻辑回归、朴素贝叶斯、随机森林等,并进行了模型比较。最后,通过K-means聚类构建用户画像,将客户分为高价值、中等价值和低价值三类,为个性化服务、客户细分、流失预测和挽留提供了依据。 适合人群:具备一定数据分析和机器学习基础的从业者,特别是从事酒店业或相关服务业的数据分析师和管理人员。 使用场景及目标:①通过客户分析和流失预测,帮助酒店管理者了解客户需求和行为,制定个性化营销策略;②预测客户流失概率,提前采取挽留措施;③识别高价值客户和潜在客户,进行精准市场定位和客户细分;④通过用户画像分析,优化服务质量,增加客户忠诚度。 阅读建议:本文涉及大量数据分析和机器学习技术细节,建议读者在阅读过程中结合具体代码和图表,深入理解数据处理和模型构建的每一步骤。此外,关注模型评估和改进部分,以便在实际应用中不断优化预测效果。

2025-08-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除