酒城译痴无心剑
国家三级笔译。一手代码一手诗,酸甜苦辣寸心知。杏坛泊梦千秋事,万古云山日迟迟。讲授高等数学、Java高级程序设计、动态网站设计与开发(JSP、Servlet)、企业信息系统设计与开发(Spring Boot)、智能移动终端应用开发(Android)、Python Web开发(Django)、大数据离线分析(Hadoop、Hive、Spark)、计算机专业英语等课程,教学深入浅出,语言生动、经验丰富,深受学生好评。指导学生参加移动应用开发省赛和国赛,多次获奖,被授予优秀指导教师称号。热爱翻译,曾翻译西奥尼·帕帕斯数学科普读物《天天数学》与两千余首诗词,已形成独特的译诗风格。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
实训云上搭建分布式Hadoop集群[2025] 实战笔记
搭建一个高可用的**完全分布式 Hadoop 集群**,基于 Hadoop 3.3.4 版本,包含 1 个主节点(master)和 2 个从节点(slave1、slave2),实现 HDFS 分布式存储与 YARN 分布式资源调度,支持后续大数据应用开发与部署。原创 2025-09-02 23:01:16 · 215 阅读 · 0 评论 -
大数据时代:历史、发展与未来
大数据时代已经到来,它不仅改变了我们获取、处理和分析信息的方式,也为我们提供了前所未有的机遇和挑战。让我们拥抱大数据,用它来推动创新,解决复杂问题,共同创造一个更加智能、高效的未来。原创 2024-09-19 20:53:18 · 3068 阅读 · 0 评论 -
3.3 大数据核心工作
在数字化时代,大数据已成为推动创新和增长的关键因素。今天,我们将探讨大数据的核心工作,包括数据存储、数据计算和数据传输,以及它们如何协同工作以释放大数据的潜力。原创 2024-10-30 10:05:43 · 717 阅读 · 0 评论 -
3.4 大数据生态
大数据生态系统是一个复杂而强大的集合,它通过各种技术和工具,使得我们能够存储、处理和传输海量数据。这些技术的应用场景广泛,从数据存储到计算,再到传输,它们共同构成了大数据解决方案的基石。原创 2024-11-01 14:51:53 · 1063 阅读 · 0 评论 -
3.1 大数据时代
今天,我将与大家一同探讨大数据时代的发展及其对我们生活和未来的深远影响。大数据不仅是一个技术术语,它已经渗透到我们社会的每一个角落,改变着我们的工作方式、决策过程和生活方式。原创 2024-10-30 09:52:11 · 1416 阅读 · 0 评论 -
大数据概念与价值
在数字化时代,数据已成为最宝贵的资源之一。大数据技术的发展,让我们能够从海量的数据中提取有价值的信息,推动决策、创新和生产力的提升。今天,我们将探讨大数据的概念、特征以及它为我们带来的价值。原创 2024-09-19 20:59:47 · 1120 阅读 · 0 评论 -
4.5 了解大数据处理基本流程
通过今天的学习,希望大家能够对大数据处理有一个全面的了解,并能够将这些知识应用到实际工作中。数据是新时代的石油,掌握大数据处理技能,就是掌握未来。原创 2024-09-26 11:52:47 · 1047 阅读 · 0 评论 -
4.7 大数据应用场景
在这个信息爆炸的时代,大数据已经成为推动各行各业发展的重要驱动力。接下来,我将带领大家探索大数据在不同行业中的神奇应用。原创 2024-10-17 09:22:51 · 637 阅读 · 0 评论 -
3.2 大数据概念、特征与价值
今天,我们将深入探讨大数据的概念、特征以及它为我们带来的价值。大数据已经成为我们数字化时代的一个重要组成部分,它正在改变我们的世界。原创 2024-10-30 10:02:28 · 1342 阅读 · 0 评论 -
4.8 大数据发展趋势
我想与大家探讨一个充满潜力和变革的主题——大数据的发展趋势。大数据不仅正在改变我们的工作和生活方式,更是推动社会进步和经济发展的关键因素。原创 2024-10-17 09:46:48 · 917 阅读 · 0 评论 -
3.1 快速启动Flink集群
在本实战中,我们将快速启动Apache Flink 1.13.0集群,并在Hadoop集群环境中提交作业。首先,我们会在本地下载Flink安装包并上传至云主机,解压并配置环境变量。接着,我们将启动Flink集群,通过访问Web UI进行监控管理。然后,我们会配置集群,将Flink分发到从节点,并在集群上提交作业。最后,我们将通过命令行提交作业,并在Web UI上查看任务节点的输出结果。这个过程涵盖了Flink集群的部署、配置和作业提交,为大数据处理提供了一个完整的实战经验。原创 2024-10-31 18:29:00 · 566 阅读 · 0 评论 -
Hive数据库与表操作
hive数据库与表操作原创 2023-11-28 11:26:15 · 1096 阅读 · 0 评论 -
Hive实战:统计总分与平均分
在这次实战中,我们将深入探索Hive在大数据处理和分析中的应用。面对包含多个科目成绩的学生数据表,我们的目标是利用Hive框架计算每个学生的总分和平均分。通过实际操作,你将了解如何在虚拟机上准备数据文件,将其上传到HDFS,以及如何在Hive中创建表、加载数据和执行SQL查询。这个过程将展示Hive的强大功能和便捷性,同时也将提升你对大数据处理和分析的实际技能。让我们一起步入Hive的世界,发掘数据背后的深层信息。原创 2023-12-27 21:30:38 · 2525 阅读 · 0 评论 -
Hive实战:网址去重
本实战通过Hive对三个文本文件中的IP地址数据进行整合去重。首先在虚拟机创建并上传文本至HDFS,接着启动Hive服务与客户端,创建外部表加载数据,并用DISTINCT从原始表中提取不重复IP至新内部表,最终成功实现去重目标,展示了Hive处理大规模文本数据的高效能与便捷性。原创 2024-01-04 06:39:34 · 1303 阅读 · 0 评论 -
Hive安装配置 - 内嵌模式
安装配置内嵌模式Hive原创 2023-10-19 18:07:08 · 836 阅读 · 3 评论 -
Hive实战:学生信息排序
本次实战利用Hive处理HDFS中学生信息数据,通过创建外部表、执行SQL查询及排序操作,展示了Hive对结构化大数据的高效处理能力,包括按年龄降序和性别升序复合排序。该过程旨在深入教学Hive在数据建模、查询与分析中的应用价值。原创 2024-01-03 18:43:10 · 1051 阅读 · 0 评论 -
Hive实战:词频统计
本次实战聚焦于利用Hive在大数据环境下进行词频统计。我们首先在master虚拟机创建文本文件`test.txt`,并将其上传至HDFS作为数据源。接着,启动Hive Metastore服务和客户端,创建外部表`t_word`以读取和处理HDFS中的文本数据。通过精心编写的Hive SQL语句,我们运用`explode`和`split`函数拆分句子,子查询进行单词计数和分组,实现了词频统计。这个过程展示了Hive在文本数据分析处理中的强大功能,同时我们也积累了关于Hive使用细节的经验,为未来的数据处理工作原创 2023-12-26 13:53:58 · 1895 阅读 · 0 评论 -
Hive安装配置 - 本地模式
在Hadoop分布式集群上安装配置本地模式的Hive原创 2023-11-20 20:07:02 · 1628 阅读 · 0 评论 -
Hive分区表实战 - 单分区字段
本实战演练全面展示了如何在Hive中创建和管理分区表,通过实际操作演示了数据按国别分区存储、加载与查询的全过程。从创建`book`表开始,依次完成了数据文件准备、分区数据加载、分区查看及更新元数据等任务,并进一步演示了分区的增删改查操作,最后通过MySQL查看Hive Metastore中记录的分区元数据信息,充分体现了Hive分区表在提升查询效率与简化数据管理方面的优势。原创 2024-01-10 10:42:27 · 1403 阅读 · 0 评论 -
Hive分区表实战 - 多分区字段
本实战演练通过创建分区表`university`,并按省市划分加载本地学校数据文件至Hive,展示了大数据环境下高效的数据管理与查询方法。利用分区技术优化存储与查询性能,并通过SQL验证数据加载正确性及查看分区信息,实现了对大规模教育数据的组织和分析。原创 2024-01-11 18:25:32 · 2094 阅读 · 0 评论 -
Hive讲课笔记:内部表与外部表
Apache Hive作为大数据处理的重要工具,其内部表与外部表是两种核心的数据存储和管理机制。内部表由Hive全权管理,数据存储在HDFS特定目录下,删除时会连同元数据及HDFS数据一同删除;创建过程包括定义表结构、插入数据等步骤,并且完全依赖于Hive系统。原创 2023-12-28 11:50:07 · 1722 阅读 · 0 评论 -
Hive实战:分科汇总求月考平均分
本次实战运用Hive处理学生月考成绩数据,通过创建分区表、加载各科目成绩至对应分区,并使用SQL语句计算平均分,展示了Hive在大数据管理、分析查询及统计计算上的灵活性与便捷性。原创 2024-01-05 17:51:52 · 1910 阅读 · 0 评论 -
1.1 在实训云上安装配置虚拟机
搭建虚拟机原创 2023-09-05 09:57:08 · 1001 阅读 · 0 评论 -
HDFS Java API 基本操作实验
利用Hadoop Java API操作HDFS文件系统原创 2023-12-08 09:31:08 · 727 阅读 · 0 评论 -
MR实战:学生信息排序
在信息爆炸的时代,数据处理与分析的重要性日益凸显。MapReduce作为一种强大的分布式计算模型,以其高效并行处理能力解决了大规模数据集的处理难题。本次实践教程,我们将通过一个具体的任务——学生信息排序,深入浅出地引导大家掌握MapReduce的基本原理和应用。从数据准备到实现步骤,再到拓展练习,我们将一起领略MapReduce的强大魅力,揭示其在大数据处理中的关键作用。原创 2023-12-26 10:48:56 · 1303 阅读 · 0 评论 -
5.4.2-3 编写Java程序读取HDFS文件
本次实战通过Java程序实现了从Hadoop分布式文件系统(HDFS)读取文件。创建了`ReadFileOnHDFS`类,实现了`read1()`和`read1_()`方法,分别逐行读取和简化方式显示HDFS文件内容。`read2()`方法进一步将HDFS文件保存到本地。实战加深了对Hadoop文件操作的理解,并掌握了文件读取和保存的流程。原创 2024-11-22 12:43:20 · 388 阅读 · 0 评论 -
5.4.2-2 编写Java程序写入HDFS文件
本次实战通过Java程序实现了向Hadoop分布式文件系统(HDFS)写入数据。创建了`WriteFileOnHDFS`类,实现了`write1()`和`write2()`方法,分别演示了直接写入和从本地文件写入HDFS的过程。解决了权限问题,确保数据成功写入,并通过Hadoop命令行工具验证了结果,加深了对HDFS操作的理解。原创 2024-11-22 09:55:38 · 384 阅读 · 0 评论 -
MR实战:实现数据去重
本次实战任务旨在运用Hadoop MapReduce技术对含有重复数据的文本文件进行去重处理。我们启动Hadoop服务,创建并上传文件至HDFS,然后通过自定义Mapper和Reducer类实现去重操作。在Map阶段,我们将需要去重的数据设为key,value为空;在Reduce阶段,直接复制输入的key作为输出key,利用MapReduce自动去重。通过编写主类`DeduplicateDriver`设置参数并运行任务,我们将源文件去重后输出结果,从而提升对分布式计算的理解和应用能力。原创 2023-12-26 11:55:06 · 1646 阅读 · 0 评论 -
4.2-5 初试HDFS Shell
通过本次实战,我们学习了如何使用HDFS Shell进行基本的文件系统操作,包括查看目录、创建目录、上传文件、查看文件内容、删除文件和目录等。这些操作是Hadoop数据处理的基础,为后续的数据分析和处理提供了必要的技能。原创 2024-10-25 11:09:21 · 440 阅读 · 0 评论 -
5.4.1 了解HDFS Java API
HDFS Java API提供了一组丰富的类和接口,用于操作Hadoop分布式文件系统。原创 2024-11-11 18:06:56 · 242 阅读 · 0 评论 -
MR实战:IP地址去重
本次实战通过Hadoop MapReduce实现了IP地址的去重与统计。首先,使用Mapper读取IP地址并输出,Reducer进行去重操作。接着,扩展功能统计每个IP地址的访问次数,并按访问次数降序排列。通过自定义`IPBean`类和调整Reducer逻辑,解决了排序过程中重复次数相同的IP地址被删除的问题。最终,成功输出去重后的IP地址及其访问次数,并按访问次数降序排列。原创 2025-01-09 10:24:39 · 1237 阅读 · 0 评论 -
解决本地运行MR程序访问权限问题
在运行`DeduplicateIPsDriver`类时,遇到HDFS访问权限问题。临时解决方案是通过`hdfs dfs -chmod`和`hdfs dfs -chown`命令调整目录权限和所有者。永久解决方案是在Hadoop集群的`hdfs-site.xml`文件中添加`dfs.permissions.enabled`属性并设置为`false`,关闭权限检查,重启Hadoop服务后彻底解决问题。原创 2025-01-18 08:57:33 · 384 阅读 · 0 评论 -
2.3 初探Hadoop世界
1. 了解Hadoop的发展历史;2. 了解Hadoop的版本情况;3. 掌握Hadoop的生态体系原创 2023-10-16 18:10:19 · 1040 阅读 · 0 评论 -
初试HDFS Shell
通过本实战,你已经学会了HDFS Shell的基本操作,包括查看目录、创建目录、上传文件、查看文件内容以及删除文件和目录。这些技能对于管理和维护Hadoop集群非常重要。原创 2024-10-11 12:01:55 · 411 阅读 · 0 评论 -
4.2-6 使用Hadoop WebUI
在本次实战中,我们通过Hadoop WebUI成功监控了HDFS集群状态,并掌握了如何在HDFS上进行文件和目录的操作。通过访问端口9870,我们查看了集群状态,创建并上传了文件,以及执行了删除操作。此外,通过端口8088我们检查了YARN集群状态。这些操作加深了我们对Hadoop文件系统管理的理解,为后续的大数据处理打下了坚实基础。原创 2024-10-25 11:01:09 · 1012 阅读 · 0 评论 -
搭建ZooKeeper分布式集群
本次实战演示了ZooKeeper分布式集群的部署过程。首先,下载并解压ZooKeeper安装包,配置环境变量和`zoo.cfg`文件,指定`dataDir`和服务器映射关系。创建`myid`文件标识节点ID,并通过`scp`分发配置到slave1和slave2节点。依次启动各节点服务,使用`zkServer.sh status`验证集群状态,确保Leader和Follower角色正确分配。该部署实现了ZooKeeper的高可用性和容错能力,为分布式系统(如Hadoop、Kafka)提供了可靠的基础服务。原创 2024-12-31 18:01:27 · 596 阅读 · 0 评论 -
搭建伪分布式Hadoop
搭建伪分布式Hadoop原创 2023-10-17 16:19:48 · 2158 阅读 · 1 评论 -
2.1 初探大数据
1. 了解大数据的定义;2. 理解大数据的特征;3. 理解研究大数据的意义原创 2023-10-16 17:30:17 · 1473 阅读 · 1 评论 -
1.1 安装配置CentOS
1. 能安装VMware WorkStation;2. 能正确安装CentOS 7;3. 能熟练配置CentOS 7;4. 能使用FinalShell连接虚拟机原创 2023-09-19 11:58:05 · 925 阅读 · 0 评论 -
1.3 Linux目录操作
目录操作原创 2023-10-13 08:11:54 · 337 阅读 · 0 评论