丁旭123456-CSDN博客

原创大数据技术之Spark

Spark是什么定义：Apache Spark是用于大规模数据（large-scala data）处理的统一（unified）分析引擎。Spark最早源于一篇论文 Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing，该论文是由加州大学柏克莱分校的 Matei Zaharia 等人发表的。论文中提出了一种弹性分布式数据集（即 RDD）的概念。

2025-06-20 12:09:50 1104

原创 Spark大数据分析与可视化实战案例

withColumn('cust_province', regexp_replace('cust_province','自治区|维吾尔|回族|壮族|省|市','')) \。.withColumn("od_quantity", regexp_replace('od_quantity','个','')) \。.withColumn("od_price", regexp_replace('od_price','元','')) \。yaxis_opts=opts.AxisOpts(name="金额(亿元)"),

2025-06-20 11:26:10 327

原创大数据：Spark实战经验总结（python版）

实际开发中，我们使用cache()方法就会自动调用persist(MEMORY_ONLY)，我们一般用rdd.cache()或rdd.persist()即可，不用再导包from pyspark.storagelevel import StorageLevel来传参，通过查看cache()和persist()源码，可以看到这两个方法会自动导入包。---- 默认这种。RDD在设计时采用了惰性机制的特性，指的是转换RDD的过程先记录而不发生真正的计算，只有遇到行动操作时，才会触发“从头到尾”的真正的计算。

2025-06-20 11:22:40 467

原创 Java实训项目--小型书店管理系统（ssm框架）

系列文章目录MyBatis专栏：一：Java实训项目–小型图书管理系统（ssm框架）二：“spring与mybatis整合”考试题目测试与解析三：“SSM框架整合+excel文件上传到数据库+数据更新“等！文章目录系列文章目录一、系统功能介绍二、系统实现1.登录注册子模块2.用户信息管理子模块3.用户密码管理子模块4.图书管理子模块5.图书类型管理子模块6.订单管理子模块7.前台购物模块三、关键代码1.mapper层。

2025-06-18 10:44:20 643

原创 Python 网络爬虫与数据采集

第1章序章网络爬虫基础1 爬虫基本概述1.1 爬虫是什么1.2 爬虫可以做什么1.3 爬虫的分类1.4 爬虫的基本流程1.4.1 浏览网页的流程1.4.2 爬虫的基本流程1.5 爬虫与反爬虫1.5.1 爬虫的攻与防1.5.2 常见的反爬与反反爬1.6 爬虫的合法性与 robots 协议1.6.1 robots 协议1.6.2 查看网页的 robots 协议1.7 Python 爬虫相关库2. Chrome 浏览器开发者工具。

2025-06-16 12:09:24 2290

原创数据可视化的发展趋势

在计算机学科的分类中，利用人眼的感知能力对数据进行交互的可视图表以增强认知的技术，称为可视化。可视化将不可见或难以直接显示的数据转换为可感知的图形、符号、颜色、纹理等，以增强数据识别效率，传递有效信息。可视化通常被理解为生成图形图像的过程。更深刻的说法是，是数据认知的过程，数据形成感知图像，强化认知理解的过程，而非绘制的可视图形本身。因此，可视化可理解为通过可视表达增强人们处理数据效率。

2024-12-20 09:41:18 859

原创 Hadoop生态圈之分布式环境搭建

点击ok完成，选择build目录下build arrifacts，就会在项目目录下生成jar包目录，如果要重新生成其他mainclass的jar包，需要把原来生成的jar以及配置的jar删掉，重新来过。core-site.xml，配置核心site文件，在/hadoop2.7.4/etc/hadoop目录下，其中第二个配置的temp文件夹可以原先不存在，会自动创建。hdfs-site.xml，目录同上，这里面有两个路径也可以原先不存在，会自动创建，配置可能不需要这么项，但多一项毕竟保险。

2024-12-14 21:34:18 743

原创 Python数据分析与可视化

总之，Python 中的数据可视化与关联规则、聚类分析和分类分析相结合，为我们打开了一扇深入理解数据的大门，让我们能够从复杂的数据中提取出有价值的信息，并以直观的方式呈现出来，为决策和进一步的数据分析提供有力支持。Python 数据可视化让我们能够以直观、生动的方式展现数据的魅力，无论是在学术研究、商业分析还是日常的数据探索中，都发挥着不可替代的作用。数据可视化不仅仅是为了让数据看起来更美观，更重要的是帮助我们从海量的数据中快速获取关键信息，发现潜在的模式和趋势，做出更明智的决策。一、数据可视化的重要性。

2024-11-08 21:15:26 877

原创数据分析#数据预处理#python

数据分析是指运用适当的统计分析方法对收集来的大量数据进行分析，提取有用信息和形成结论，对数据加以详细研究和概括总结的过程。• 处理策略：可以选择删除包含缺失值的行或列，用平均值、中位数、众数等统计值填充，或者使用基于模型的方法进行预测填充。二. 数据导入：将收集到的数据导入到 Python 中，常用的库如 pandas 用于读取和处理不同格式的数据文件。四. 数据探索：对数据进行初步的观察和分析，如查看数据的基本统计信息、分布情况等。三. 数据清洗：处理缺失值、异常值、重复数据等，确保数据的质量和准确性。

2024-06-19 15:04:40 610

2301_82162165的博客