what、why?-CSDN博客

原创实验二文件格式的转换

内容概要：本文档详细介绍了使用Kettle工具进行数据ETL（抽取、转换、加载）操作的实验，以学生成绩登记需求为例。首先，讲解了如何在MySQL中创建数据库和表，并利用Kettle将Excel格式的学生成绩表导入数据库；其次，针对成绩登记错误的情况，通过一系列Kettle控件（如Excel输入、排序记录、列转行、过滤记录、插入/更新）实现成绩修订表对原成绩表的修正；最后，满足数学老师的特殊需求，生成仅有数学成绩的排名表，涉及字段选择、排序记录、增加序列以及Excel输出等控件的使用。整个过程中涉及到的操作系

2025-08-15 16:47:08 250

原创数据清洗基础训练一

内容概要：本文档详细介绍了关于安装数据清洗工具和下载数据集的实验，具体分为实验目的、实验内容、实验条件及要求、实验实施步骤四大部分。实验目的是安装相应软件、熟悉Python操作MySQL数据库方法和下载数据集。实验内容包括安装kettle、JDK、Python、MySQL，使用Python操作MySQL数据库完成查询特定学生所有成绩、查询成绩大于85的课程、更新课程学分、插入选课记录、删除指定学生记录等任务，以及从多个知名平台下载开源数据集。实验条件明确了所需的操作系统和软件版本。实验实施步骤详细描述了如何

2025-08-15 16:45:02 606

原创基于Python的MySQL与HDFS操作实验报告：数据采集与预处理课程实践

2025-08-14 17:59:35 952

原创【酒店客户分析】基于机器学习的酒店客户流失预测与用户画像构建：数据预处理、特征工程及模型优化全流程解析

2025-08-14 17:11:17 1017

原创 pandas读取excel提示ImportError: Missing optional dependency ‘xlrd’

提示：No module named 'xlrd'

2022-12-14 19:30:24 1048

原创第一次运行redis-server的时候可能出现闪退情况处理方法

第一次运行redis-server的时候可能出现闪退情况处理方法

2022-12-09 17:29:52 461

原创 Windows cmd窗口下使用Redis输入中文乱码解决

Redis中文输入问题解决方案

2022-12-09 16:26:41 1602 1

原创 Neo4j小白安装教程

Neo4j小白安装讲解

2022-12-08 16:22:24 6434 2

原创 HBASE shell,ERROR: org.apache.hadoop.hbase.PleaseHoldException: Master is initializing

hbase可以启动但无法创建表格

2022-12-06 15:08:48 905

原创《菅销在移动互联网时代》智慧树知到章节测试答案

智慧树知到《营销在移动互联网时代》2019章节测试答案2019年11月22日智慧树知到《营销在移动互联网时代》2019章节测试答案第1章单元测试1、关于自媒体时代，克莱.舍基的三本著作有？答案：未来是湿的：无组织的组织力量、认知盈余：无组织的时间力量、人人时代：无组织的组织力量2、2013年是区块链元年。答案：错3、“风口理论”又叫“飞猪理论”，最早是雷军提出来的。答案：对4、互联网不是工业经济时代的延伸，而是对这个工业经济的整个思维方式的彻底的解构，即互联网时代要

2022-11-25 16:58:08 2445 2

【数据科学与大数据技术】基于Python的MySQL与HDFS操作实验报告：数据采集与预处理课程实践

内容概要：该文档是一份实验报告，涵盖了数据科学与大数据技术专业的六个实验内容，分别为：使用 Python 操作 MySQL 数据库和 HDFS、网络爬虫初级实践、Kafka 的基本使用方法、Flume 的基本使用方法、Kettle 的基本使用方法以及 Pandas 数据清洗初级实践。每个实验详细描述了实验目的、内容、条件及要求、实施步骤和总结。通过这些实验，学生能够掌握 MySQL、HDFS、网络爬虫、Kafka、Flume、Kettle 和 Pandas 的基本操作和应用场景。适合人群：数据科学与大数据技术专业的本科生，尤其是对数据采集、处理和分析有兴趣的学生。使用场景及目标：①掌握 MySQL 和 HDFS 的基本操作，能够使用 Python 对 MySQL 进行增删改查操作；②理解网络爬虫的工作原理，能够编写简单的爬虫程序并保存数据；③熟悉 Kafka 的消息队列机制，能够编写生产者和消费者的 Python 程序；④了解 Flume 的日志采集功能，能够配置 Flume 与 MySQL 和 Kafka 的连接；⑤掌握 Kettle 的 ETL 功能，能够进行数据转换和作业管理；⑥熟悉 Pandas 的数据清洗和可视化功能，能够处理和分析数据。阅读建议：实验报告详细记录了每个实验的具体步骤和代码实现，建议读者在学习过程中结合实际操作进行练习，加深对各工具的理解和掌握。同时，建议在实验过程中多查阅相关文档和资料，以应对可能遇到的问题和技术难点。

2025-08-14

【酒店客户分析】基于机器学习的酒店客户流失预测与用户画像构建：数据预处理、特征工程及模型优化全流程解析

内容概要：本文旨在通过机器学习和数据分析技术对酒店客户数据进行分析，以预测客户流失并提供决策支持。文章首先介绍了研究背景与目标，指出酒店业竞争激烈，保持业务稳定和持续增长需要深入了解客户并预测潜在的客户流失。接着详细描述了研究内容与意义，包括客户数据收集与整理、客户分析、流失预测模型建立等。研究方案设计涵盖了数据收集、特征工程、模型选择、评估与改进等步骤。文中还展示了数据预处理与特征工程的具体操作，包括数据清洗、特征选择、PCA降维、数据标准化等。实例建模部分则介绍了多种机器学习模型的应用，如逻辑回归、朴素贝叶斯、随机森林等，并进行了模型比较。最后，通过K-means聚类构建用户画像，将客户分为高价值、中等价值和低价值三类，为个性化服务、客户细分、流失预测和挽留提供了依据。适合人群：具备一定数据分析和机器学习基础的从业者，特别是从事酒店业或相关服务业的数据分析师和管理人员。使用场景及目标：①通过客户分析和流失预测，帮助酒店管理者了解客户需求和行为，制定个性化营销策略；②预测客户流失概率，提前采取挽留措施；③识别高价值客户和潜在客户，进行精准市场定位和客户细分；④通过用户画像分析，优化服务质量，增加客户忠诚度。阅读建议：本文涉及大量数据分析和机器学习技术细节，建议读者在阅读过程中结合具体代码和图表，深入理解数据处理和模型构建的每一步骤。此外，关注模型评估和改进部分，以便在实际应用中不断优化预测效果。

2025-08-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人