- 博客(16)
- 收藏
- 关注
原创 CentOS7+JDK8虚拟机安装
免密登录设置是分布式系统基础,需要突出ssh-keygen生成密钥对和ssh-copy-id分发的逻辑链条。JDK安装要注意两个技术细节:一是tar解压时-C参数指定目录的用法,二是/etc/profile环境变量配置的语法(特别是JAVA_HOME的路径符号)。是虚拟机基础配置,包含IP设置(静态IP避免变动)、主机名映射、防火墙关闭等关键操作。修改IP vi /etc/sysconfig/network-scripts/ifcfg-ens33。目的:实现虚拟机间无密码互访,方便集群管理。
2025-06-03 15:29:59
814
原创 PyCharm集成开发环境配置与项目运行
注意:PyCharm不会自动打印变量值,需显式使用print()。右键点击编辑器 → 选择Run 'main'。1. 安装PyCharm社区版。:适合大型项目管理与调试。:适合命令行交互式开发。:适合数据探索与可视化。
2025-05-27 09:19:27
224
原创 Jupyter Notebook环境配置与测试
启动服务:jupyter notebook # 浏览器自动打开 http://localhost:8888。print(rdd.collect()) # 输出:[1, 2, 3, 4, 5]在Notebook中运行代码:import findspark。注意:代码需写在同一个Cell中,按Shift+Enter执行。findspark.init() # 只需执行一次。:使PySpark在Jupyter中正常导入。1. 安装Jupyter与findspark。:提供交互式Web编程环境。
2025-05-27 09:18:25
314
原创 PySpark编程环境安装与基础使用
sc = SparkContext('local[1]', 'pyspark lib') # 本地模式,使用1个核心。注意:若使用Python 3.6,需确保pip命令对应Python 3.6环境(而非pip3)。print(rdd.collect()) # 输出:[1, 2, 3, 4, 5]pydj==0.10.7:Python与Java交互的桥梁,支持双向调用。pyspark==2.4.8:与本地Spark版本一致的Python包。:缺少Hadoop本地库,不影响基础功能。
2025-05-27 09:17:06
378
原创 搭建 Spark 伪分布式集群
首先,确保 Hadoop 的配置文件(如 core-site.xml, hdfs-site.xml, yarn-site.xml)已经正确配置。其中 <spark-master-url> 是你的 Spark Master 节点的 URL,例如 spark://vm01:7077。接下来,我们需要修改 /etc/hosts 文件,在这个文件中设置 IP 地址与主机名的对应关系,类似 DNS 域名服务器的功能。在浏览器中输入 http://vm01:8080/ 查看结果。
2025-05-07 13:42:10
1584
原创 PySpark 编程环境搭建与使用
在 PySpark 交互式编程环境中,只需输入一条语句,就会自动提交执行并显示运行结果。在 Python 软件库中也存在一个名为 pyspark 的软件包,可以脱离外部 Spark 运行环境而独立存在,对于第三方开发工具如 PyCharm、VSCode 等更加方便。
2025-05-06 15:48:25
676
原创 Kafka与Spark Streaming集成笔记
在Kafka生产者终端输入消息,观察Spark Streaming应用的输出结果。然后输入:(“:”也要打)
2025-05-03 10:52:42
589
原创 在Ubuntu上安装配置Apache Kafka及实时数据流实践指南
Apache Kafka是一款高吞吐量的分布式消息系统,广泛应用于实时数据管道和流处理场景。本文基于Ubuntu系统,详细演示Kafka的安装、配置、基础消息生产/消费,以及结合Netcat的流数据测试。Kafka的单节点环境搭建。Topic的创建与消息生产/消费测试。使用Netcat模拟实时数据流输入。
2025-04-19 14:10:51
2028
1
原创 MySQL与Spark SQL集成操作指南
模式 描述 危险等级。append 追加数据 ⭐⭐。ignore 表存在时跳过写入 ⭐。推荐使用MySQL Connector/J 8.0+版本。overwrite 清空表后写入 ⭐⭐⭐⭐。2.确保JDBC驱动版本与MySQL服务版本匹配。error 默认模式(表存在时报错)⭐。2. Spark连接配置。2. MySQL卸载。
2025-04-08 21:57:53
537
3
原创 Spark SQL与MySQL交互及数据处理操作笔记
JDBC连接配置:必须包含驱动类名,建议使用SSL参数(若未启用)写入模式选择overwrite:覆盖现有数据append:追加数据ignore:存在表时跳过error:默认模式(表存在时报错)文件读取优化CSV文件推荐使用自动推断类型JSON/Parquet格式自动识别数据结构条件表达式写法排序参数说明ascending参数支持布尔值或布尔值列表多列排序时需注意列顺序和排序方向的对应关系。
2025-04-08 21:46:30
435
原创 数据读取和分类计数
转为 ( '宋江',[('chinese',50),('math',60),('english',70)] )# 转为 ('宋江', {'chinese': 50, 'math': 60, 'english': 70})(12)总分大于150分,math科目大于或等于70分,且年龄小于或等于20岁的学生的平均分是多少?# 过滤:年龄小于或等于20岁,并转为 ('宋江', ('chinese', 50))12 宋江 25 男 english 70。13 李逵 25 男 english 70。
2025-03-22 15:00:11
429
原创 Spark RDD常用操作训练(RDD操作)
rdd = sc.parallelize([1,2,3,6,5,4,6,12,23]).groupBy(lambda x:x%3)#将元素分成3组,第1组x%3==0,第2组x%3==1,第3组x%3 ==2。sc.parallelize([1,2,3,4,5]).sortBy(lambda x:x,False).collect() #降序排列。输入:rdd1 = sc.parallelize([1,1,2,2,5])(8)归并(归类+合并计算):reduceByKey(lambda函数)
2025-03-11 15:42:52
1938
原创 Spark大数据环境搭建
请按照下面步骤将其安装进来。(1)打开一个 Linux终端,在其中执行以下命令将 Spark软件包解压到/usr/local目录中,并创建一个软链接文件指向 Spark目录并修改目录的用户属性。(3)再新开一个 Linux终端,在里面输入 jps命令查看 HDFS服务是否在运行,如果没有运行就要先将 HDFS服务启动,正如在配置 HDFS服务时所做的那样。(1)在 Linux终端执行下面的命令安装 pip工具,然后查看一下 pip的版本信息,以及和对应管理的 Python版本。
2025-03-03 00:31:44
595
原创 Spark大数据环境搭建
(1)继续在 Linux终端窗体中执行以下命令,因为远程登录服务 sshd已经在运行,因此先在本机通过 ssh命令执行一下远程连接,测试一下是否正常。(2)将解压的 hadoop-2.6.5目录的用户和组权限设一下,方便启动 Hadoop的时候能够完全控制这个目录,避免因为文件的访问权限导致出现问题。(1)切换到 Hadoop的配置文件目录,先修改其中的 hadoop-env.sh运行环境文件,找到里面的 JAVA_HOME变量进行修改。,指定 NameNode和 DataNode的数据保存位置。
2025-03-02 23:36:11
890
原创 Spark大数据环境搭建
(8)Ubuntu20.04 操作系统的初始界面如图所示,第一次启动时会相继提示几个信息的 设置,包括网络在线帐号设置、更新设置、问题提交、隐私设置等,直接点击右上角的“Skip” 和“Next”,直至最后一个窗体点击“Done”全部完成。(7)Vmware 完成新建虚拟机后,会自动启动 Ubuntu20.04 的安装过程,之后点击初始用户名(我个人的为“spark”),输入密码进入Ubuntu。(12)Linux 终端窗体启动后,在左侧任务栏的“Linux 终端”图标上点击鼠标右键,选择弹出菜单中的“
2025-03-02 22:05:39
1004
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人