- 博客(13)
- 收藏
- 关注
原创 大数据技术之Spark
Spark是什么定义:Apache Spark是用于大规模数据(large-scala data)处理的统一(unified)分析引擎。Spark最早源于一篇论文 Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing, 该论文是由加州大学柏克莱分校的 Matei Zaharia 等人发表的。论文中提出了一种弹性分布式数据集(即 RDD)的概念。
2025-06-20 12:09:50
1104
原创 Spark大数据分析与可视化实战案例
withColumn('cust_province', regexp_replace('cust_province','自治区|维吾尔|回族|壮族|省|市','')) \。.withColumn("od_quantity", regexp_replace('od_quantity','个','')) \。.withColumn("od_price", regexp_replace('od_price','元','')) \。yaxis_opts=opts.AxisOpts(name="金额(亿元)"),
2025-06-20 11:26:10
327
原创 大数据:Spark实战经验总结(python版)
实际开发中,我们使用cache()方法就会自动调用persist(MEMORY_ONLY),我们一般用rdd.cache()或rdd.persist()即可,不用再导包from pyspark.storagelevel import StorageLevel来传参,通过查看cache()和persist()源码,可以看到这两个方法会自动导入包。---- 默认这种。RDD在设计时采用了惰性机制的特性,指的是转换RDD的过程先记录而不发生真正的计算,只有遇到行动操作时,才会触发“从头到尾”的真正的计算。
2025-06-20 11:22:40
467
原创 Java实训项目--小型书店管理系统(ssm框架)
系列文章目录MyBatis专栏:一:Java实训项目–小型图书管理系统(ssm框架)二:“spring与mybatis整合”考试题目测试与解析三:“SSM框架整合+excel文件上传到数据库+数据更新“等!文章目录系列文章目录一、系统功能介绍二、系统实现1.登录注册子模块2.用户信息管理子模块3.用户密码管理子模块4.图书管理子模块5.图书类型管理子模块6.订单管理子模块7.前台购物模块三、关键代码1.mapper层。
2025-06-18 10:44:20
643
原创 Python 网络爬虫与数据采集
第1章 序章 网络爬虫基础1 爬虫基本概述1.1 爬虫是什么1.2 爬虫可以做什么1.3 爬虫的分类1.4 爬虫的基本流程1.4.1 浏览网页的流程1.4.2 爬虫的基本流程1.5 爬虫与反爬虫1.5.1 爬虫的攻与防1.5.2 常见的反爬与反反爬1.6 爬虫的合法性与 robots 协议1.6.1 robots 协议1.6.2 查看网页的 robots 协议1.7 Python 爬虫相关库2. Chrome 浏览器开发者工具。
2025-06-16 12:09:24
2290
原创 数据可视化的发展趋势
在计算机学科的分类中,利用人眼的感知能力对数据进行交互的可视图表以增强认知的技术,称为可视化。可视化将不可见或难以直接显示的数据转换为可感知的图形、符号、颜色、纹理等,以增强数据识别效率,传递有效信息。可视化通常被理解为生成图形图像的过程。更深刻的说法是,是数据认知的过程,数据形成感知图像,强化认知理解的过程,而非绘制的可视图形本身。因此,可视化可理解为通过可视表达增强人们处理数据效率。
2024-12-20 09:41:18
859
原创 Hadoop生态圈之分布式环境搭建
点击ok完成,选择build目录下build arrifacts,就会在项目目录下生成jar包目录,如果要重新生成其他mainclass的jar包,需要把原来生成的jar以及配置的jar删掉,重新来过。core-site.xml,配置核心site文件,在/hadoop2.7.4/etc/hadoop目录下,其中第二个配置的temp文件夹可以原先不存在,会自动创建。hdfs-site.xml,目录同上,这里面有两个路径也可以原先不存在,会自动创建,配置可能不需要这么项,但多一项毕竟保险。
2024-12-14 21:34:18
743
原创 Python数据分析与可视化
总之,Python 中的数据可视化与关联规则、聚类分析和分类分析相结合,为我们打开了一扇深入理解数据的大门,让我们能够从复杂的数据中提取出有价值的信息,并以直观的方式呈现出来,为决策和进一步的数据分析提供有力支持。Python 数据可视化让我们能够以直观、生动的方式展现数据的魅力,无论是在学术研究、商业分析还是日常的数据探索中,都发挥着不可替代的作用。数据可视化不仅仅是为了让数据看起来更美观,更重要的是帮助我们从海量的数据中快速获取关键信息,发现潜在的模式和趋势,做出更明智的决策。一、数据可视化的重要性。
2024-11-08 21:15:26
877
原创 数据分析#数据预处理#python
数据分析是指运用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论,对数据加以详细研究和概括总结的过程。• 处理策略:可以选择删除包含缺失值的行或列,用平均值、中位数、众数等统计值填充,或者使用基于模型的方法进行预测填充。二. 数据导入:将收集到的数据导入到 Python 中,常用的库如 pandas 用于读取和处理不同格式的数据文件。四. 数据探索:对数据进行初步的观察和分析,如查看数据的基本统计信息、分布情况等。三. 数据清洗:处理缺失值、异常值、重复数据等,确保数据的质量和准确性。
2024-06-19 15:04:40
610
原创 neo4j教程-Cypher操作
执行上述命令后,Web UI界面的控制台返回“Added 2 labels, created 2 nodes, set 2 properties, created 1 relationship, completed after 3 ms.”信息,说明我们新增两个标签、创建两个节点、设置两个属性、创建一个关系(注意:标签Person是节点的标签;标签Likes是关系的标签)。上述语法中,DELETE是用于永久删除节点或关系的命令,该命令需要与MATCH命令结合使用,删除满足某个条件的节点;
2024-06-18 11:05:07
733
原创 爬取链家二手房房价数据存入mongodb并进行分析
实验目的1.使用python将爬虫数据存入mongodb;2.使用python读取mongodb数据并进行可视化分析。实验原理MongoDB是文档数据库,采用BSON的结构来存储数据。在文档中可嵌套其他文档类型,使得MongoDB具有很强的数据描述能力。本节案例使用的数据为链家的租房信息,源数据来自于链家网站,所以首先要获取网页数据并解析出本案例所需要的房源信息,然后将解析后的数据存储到MongoDB中,最后基于这些数据进行城市租房信息的查询和聚合分析等。实验环境Python3。
2024-06-16 10:51:48
733
原创 爬取链家二手房房价数据存入mongodb并进行分析
实验目的1.使用python将爬虫数据存入mongodb;2.使用python读取mongodb数据并进行可视化分析。实验原理MongoDB是文档数据库,采用BSON的结构来存储数据。在文档中可嵌套其他文档类型,使得MongoDB具有很强的数据描述能力。本节案例使用的数据为链家的租房信息,源数据来自于链家网站,所以首先要获取网页数据并解析出本案例所需要的房源信息,然后将解析后的数据存储到MongoDB中,最后基于这些数据进行城市租房信息的查询和聚合分析等。实验环境Python3。
2024-04-24 10:18:25
699
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人