sgxmr-CSDN博客

原创 Flink 流处理基础核心 API

文章目录Flink 流处理 API1.EnvironmentgetExecutionEnvironmentcreateLocalEnvironmentcreateRemoteEnvironmentSource2.从集合读取数据从文件读取数据读kafka 的数据自定义 SourceTransformmapflatMapFilterKeyBy滚动聚合算子（Rolling Aggregation）reduceSplit 和 SelectConnect 和 CoMapUnion3.支持的数据类型4.实现 UDF 函

2021-12-09 14:26:33 1252 1

原创 flink入门（wordcount）

Flink快速上手1.在IDEA创建maven工程FlinkTutorial2.在pom.xml中添加依赖和maven插件 <dependencies> <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-scala_2.11</artifactId> <v

2021-12-09 13:32:18 1384

原创 flink概述

文章目录flink概述flink应用场景重要特点事件驱动型(Event-driven)流与批的世界观分层 api其它特点对比sparkstreamingflink概述Apache Flink 是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。Flink 被设计在所有常见的集群环境中运行，以内存执行速度和任意规来执行计算。Apache Flink 是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架flink应用场景为什么选择flink流数据更真实地反映

2021-12-09 10:54:46 676

原创 storm搭建

Storm集群配置需要先开启zookeeper解压安装包[root@master software]# tar -zxvf apache-storm-1.2.3.tar.gz -C /usr/local/src[root@master software]# cd /usr/local/src[root@master src]# mv apache-storm-1.2.3/ storm配置环境变量[root@master src]# vim /etc/profile[root@master

2021-11-24 19:42:36 1513

原创 Hive+mysql搭建

文章目录Hive+Mysql安装mysql卸载amriadb下载mysql依赖包（yum安装）启动mysql服务查看mysql临时密码使用mysql安全向导登录登录mysql修改权限安装hive解压hive安装包配置环境变量解决jar包冲突修改配置文件格式化hive启动hiveHive+Mysqlhive基于hadoop hadoop配置完成再能继续配置hive安装mysql卸载amriadb[root@master software]# rpm -qa | grep mariadb[roo

2021-11-19 10:01:19 789

原创 Hbase搭建

文章目录HBase集群配置解压安装包配置环境变量分发环境变量修改配置文件建立软连接分发安装目录启动HBase集群HBase集群配置HBase基于hadoop和zookeeper所以进行HBase集群的配置安装要先进行hadoop和zookeeper的配置安装解压安装包[root@master software]# tar -zxvf hbase-1.2.4-bin.tar.gz -C /usr/local/src[root@master software]# cd /usr/local/src/

2021-11-19 10:00:07 546

原创 Spark搭建

文章目录Spark集群配置部署模式对比spark-localspark-standalonespark on yarnspark HAspark历史服务器spark提交任务Spark集群配置部署模式对比模式Spark 安装机器数需启动的进程所属者应用场景Local1无Spark测试Standalone3Master 及 WorkerSpark单独部署Yarn1Yarn 及 HDFSHadoop混合部署端口号Ø Spark 查看当前

2021-11-19 09:58:36 408

原创 flink搭建

文章目录Flink集群配置flink-local解压安装包配置环境变量启动查看进程Flink-standalone模式解压安装包配置环境变量分发环境变量修改配置文件分发配置文件启动集群Flink on yarnSession-Cluster启动hadoop集群解压安装包配置环境变量分发环境变量分发配置文件启动session运行自带wordcount程序关闭sessionPer-Job-Cluster启动hadoop集群解压安装包配置环境变量分发环境变量分发配置文件Flink集群配置flink-local

2021-11-19 09:57:45 777

原创 HadoopHA搭建

文章目录HadoopHA环境部署配置主机映射配置免密登录安装jdk配置zookeeper解压zookeeper安装包配置环境变量修改配置文件分发zookeeper目录启动zookeeper集群配置hadoop配置环境变量尚大修改配置文件core-site.xmlhdfs-site.xmlyarn-site.xmlmapred-site.xml修改配置文件core-site.xmlhdfs-site.xmlyarn-site.xmlmapred-site.xml声明集群修改JAVA_HOME启动集群启动jou

2021-11-19 09:54:31 708

原创 flume搭建

Flume集群配置+案例解压flume安装包[root@master src]# tar -zxvf apache-flume-1.6.0-bin.tar.gz -C /usr/local/src[root@master src]# cd /usr/local/src/[root@master src]# mv apache-flume-1.6.0-bin/ flume //更名配置环境变量[root@master src]# vim /etc/profile[root@master

2021-11-19 09:53:24 1362

原创 kafka集群搭建

Kafka集群配置kafka集群基于zookeeper 配置kafka时要保证zookeeper配置完毕并且能顺利启动解压安装包[root@master software]# tar -zxvf kafka_2.11-1.0.1.tgz -C /usr/local/src[root@master software]# cd /usr/local/src//更名[root@master src]# mv kafka_2.11-1.0.1/ kafka配置环境变量[root@master sr

2021-11-19 09:52:40 954

原创 zookeeper集群搭建

Zookeeper集群配置zookeeper基于java没有java zookeeper集群起不来解压安装包[root@master software]# tar -zxvf zookeeper-3.4.5.tar.gz -C /usr/local/src/改名[root@master software]# cd /usr/local/src/[root@master src]# mv zookeeper-3.4.5/ zookeeper配置环境变量[root@master src]#

2021-11-19 09:50:58 1410

原创 hadoop全分布式搭建

Hadoop全分布式前提准备好三台服务器关闭防火墙[root@master ~]# systemctl stop firewalld[root@master ~]# systemctl disable firewalld添加主机映射[root@master ~]# vim /etc/hosts分发映射[root@master ~]# scp /etc/hosts slave1:/etc/hosts[root@master ~]# scp /etc/hosts slave2:/etc/

2021-11-19 09:50:18 540

原创 hadoop伪分布式搭建

Hadoop伪分布模式配置映射[root@master software]# vim /etc/hosts最下面增加自己ip和映射名ip 映射名配置自己的免密登录[root@master software]# ssh-keygen三次回车[root@master software]# ssh-copy-id master解压安装包[root@master software]# tar -zxvf jdk-8u144-linux-x64.tar.gz -C /usr/local/sr

2021-11-19 09:47:46 1246 2

原创 Maven的基本使用

文章目录MavenMaven项目架构管理工具下载安装Maven配置环境变量阿里云镜像本地仓库在IDEA中使用Maven创建一个普通的Maven项目标记文件夹功能pom文件解决导出无法生效问题Maven仓库的使用Maven我为什么要学习这个技术？在Javaweb开发中，需要使用大量的jar包，我们手动去导入；如何能够让一个东西自动帮我导入和配置这个jar包。由此，Maven诞生了！Maven项目架构管理工具我们目前用来就是方便导入jar包的！Maven的核心思想：约定大于配置有

2021-07-24 21:58:30 149 1

原创 SparkCore学习笔记

文章目录Spark核心编程RDDRDD概述RDD核心属性（五大属性）执行原理RDD基础编程从集合（内存）中创建 RDD从外部存储（文件）创建RDD从其他 RDD 创建直接创建 RDD（new)RDD并行度和分区RDD算子介绍RDD 转换算子(value类型)mapmapPartitionsmapPartitionsWithIndexflatMapglomgroupByfiltersampledistinctcoalescerepartitionsortByRDD转换算子(双value类型)intersect

2021-07-15 16:06:58 1551

原创 spark开发环境搭建+wordcount案例

环境准备1.打开IDEA新建一个maven项目2.增加 Scala 插件Spark 由 Scala 语言开发的，开发前请保证 IDEA 开发工具中含有 Scala 开发插件[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nG8iJkqt-1626079796853)(spark快速上手.assets/image-20210123152434018.png)]3.下载scala由于需要scala进行编写，所以要安装scalahttps://www.scala-lan

2021-07-12 16:50:24 299

原创 java操作spark案例

@TOCspark入门使用（java）官方文档：https://spark.apache.org/docs/latest/api/java/index.html导入依赖创建maven项目并导入依赖，注意spark的版本  <dependency> <groupId>org.apache.spark</groupId> <artifactId&

2021-07-12 14:37:51 4626 2

原创 scala模式匹配-异常-泛型-隐式转换

文章目录1.模式匹配基本语法模式守卫模式匹配类型匹配对象样例类异常处理scala异常护理隐式转换泛型协变和逆变泛型上下限上下文限定1.模式匹配基本语法Scala 中的模式匹配类似于 Java 中的 switch ,但是 scala 从语法中补充了更多的功能，所以更加强大。java中如下:int i = 10switch (i) { case 10 :System.out.println("10");break; case 20 : System.out.println("20");b

2021-07-12 11:00:11 414

原创 scala集合

文章目录1.集合简介不可变集合继承图可变集合继承图2.数组2.1 不可变数组2.2 可变数组可变与不可变数组转换多维数组3. 列表List可变 ListBuffer4. Set集合不可变 Set可变 mutable.Set5.Map集合不可变 Map可变 Map6.元组7.集合的常用函数基本操作衍生集合集合计算简单函数集合计算高级函数案例：wordcount8.队列9.并行集合1.集合简介1）Scala 的集合有三大类：序列 Seq、集 Set、映射 Map，所有的集合都扩展自 Iterable2）对

2021-07-12 10:58:36 586

原创 scala面向对象

文章目录1、Scala包1.1.1、包的规范1.1.2、包说明（包语句）1.1.3、包对象1.4、导包说明2、scala类2.1、定义类2.2、属性2.3、封装2.3.1、访问权限2.4 方法+创建对象2.5 构造器构造器参数2.6 继承和多态2.7 抽象类匿名子类2.8 单例对象（伴生对象）apply 方法单例设计模式2.9 特质（Trait）特质基本语法动态混入特质叠加特质和抽象类的区别特质自身类型2.8 类型检查和转换2.9 枚举类和应用类Type定义新类型Scala 的面向对象思想和 Java 的

2021-07-12 10:57:58 516

原创 scala函数式编程

文章目录1.1、函数基础1.1.2、语法1.1.2、函数定义1.1.3、函数参数1.2、函数至简原则(重点)1.3、函数高级1.3.1、高阶函数1.3.2、匿名函数1.3.2、柯里化和必包1.3.3、递归1.4.4 控制抽象1.4.5 惰性加载1）面向对象编程解决问题，分解对象，行为，属性，然后通过对象的关系以及行为的调用来解决问题。对象：用户行为：登录、连接 JDBC、读取数据库属性：用户名、密码Scala 语言是一个完全面向对象编程语言。万物皆对象对象的本质：对数据和行为的一个封装

2021-07-12 10:56:54 350

原创 scala语法基础

文章目录1、为什么学习1.1、发展历史：1.2、Scala和Java的关系1.3 scala语言特点2、环境搭建2.1、安装idea的scala插件新建helloworld类3、基础语法3.1、HelloWorld的说明3.2、变量和基础用法3.2.1、变量注意点3.2.2、标识符3.2.3、字符串输出3.2.4、键盘输入从文件中读取数据3.3、数据类型Unit 类型、Null 类型和 Nothing 类型（重点）3.4、运算符Scala 运算符本质3.5、流程和控制语句3.5.1、for循环3.5.1.1

2021-07-12 10:55:49 195

原创 Centos7下mysql的安装，下载，忘记密码

1. Centos安装mysql(通过yum）基于Debian平台的Linux系统，可以直接使用apt命令安装mysqlsudo apt install -y mysql-server mysql-client由于历史原因，如果在CentOS里运行 yum install mysql 不会安装mysql数据库，而是会安装MariaDB(关于MySql和MariaDB的关系，参考百度百科)。在CentOS里安装mysql要稍微复杂一些。卸载amriadbrpm -qa | grep mariadb

2021-07-11 17:36:28 169

原创 HDFS常用操作

文章目录1.HDFS简介1.1 优点1.2 缺点1.3 组成架构1.4 HDFS文件块大小（面试重点）2.HDFS的shell操作(开发重点)3.HDFS的API操作3.1 准备3.2 代码1.HDFS简介主要解决大数据中海量存储的问题产生背景随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS 只是分布式文件管理系统中的一种。比如windows磁盘一般都是NF

2021-07-08 14:38:29 836 1

原创 hadoop集群常用脚本

前提必须修改过映射/etc/hosts文件scp（secure copy）安全拷贝（1）scp定义：scp可以实现服务器与服务器之间的数据拷贝。（from server1 to server2）（2）基本语法scp -r $pdir/$fname $user@hadoop$host:$pdir/$fname命令递归要拷贝的文件路径/名称目的用户@主机:目的路径/名称（3）案例实操#（a）在hadoop101上，将hadoop101中/opt/module目录.

2021-07-07 17:40:38 254

原创 hadoop概述

文章目录大数据简介1.hadoop简介1.1 hadoop是什么1.2 发展历史1.3 发行版本1.4 hadoop特性2.hadoop组成2.1 hadoop1,2,3版本区别2.2 HDFS简介2.3 YARN简介2.4 MapReduce简介2.5 HDFS,YARN,MapReduce关系大数据简介大数据（Big Data）：指**无法在一定时间范围**内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信

2021-07-07 16:20:23 216

原创 python对字典排序

文章目录引言对字典进行排序引言python中内置的排序函数是sorted()。python中还有一个排序函数是sort() ，这两个函数的区别主要是：sort() 是作用于 list 的函数，所以list.sort() 方法只为 list 定义。sort 函数对列表进行排序，结果是改变了原列表的顺序，但是无返回值。sorted() 函数可以接收任何的 iterable对象，并可以返回排序后的列表。举例说明sort排序原列表，而sorted返回一个排序后的新列表：>>> a =

2021-07-04 11:15:17 840

原创 Vue学习笔记01-基础部分

文章目录VUE笔记-01基础1、简介mvvmES6补充js高阶函数let/varconst增强字面量写法2、基础2.1、引入2.2、第一个Vue程序el挂载点data数据对象methodsVue的生命周期(补)2.3、Vue指令**Mustache: 胡子/胡须.****v-once** 不经常**v-pre**cloak(了解)v-htmlv-textv-on绑定事件v-onv-on修饰符v-on参数问题综合案例计数器和跑马灯couputed的计算属性用法计算属性的getter和settermethod

2021-06-15 16:02:03 862

原创 HTTP学习笔记

HTPPHTTP协议（HyperText Transfer Protocol，超文本传输协议）是因特网上应用最为广泛的一种网络传输协议，所有的WWW文件都必须遵守这个标准。HTTP是一个基于TCP/IP通信协议来传递数据（HTML 文件, 图片文件, 查询结果等）。1.工作原理HTTP协议工作于客户端-服务端架构上。浏览器作为HTTP客户端通过URL向HTTP服务端即WEB服务器发送所有请求。Web服务器有：Apache服务器，IIS服务器（Internet Information Service

2021-05-27 16:05:51 106

原创数据提取（json）

文章目录数据提取概念数据分类JSON数据提取json模块json模块使用实例：获取豆瓣热映电影信息实现爬虫四部曲:使用来封装上面的代码实现分页效果方式1: 根据URL规律找生成下一页URL,当返回的数据条数小于请求的数据条数的时候退出方式2:数据提取概念什么是数据提取？简单的来说，数据提取就是从响应中获取我们想要的数据的过程数据分类非结构化数据, 如html 处理方法: 正则表达式/xpathhtml数据结构化数据, 如json/xml - 处理方法

2021-03-30 10:44:18 3786

原创数据分析环境搭建(Anaconda)

数据分析环境搭建自己搭建1）安装python环境，配置环境变量，安装所需要的库，如numpy，pandas，jupyter，scipy，skelearn、matplotlib、tensorflow、seaborn、pycharts… jupyter,数据分析开发工具，浏览器中编程代码；启动jupyter：cmd中输入jupyter notebook，命令行一直运行，命令行中写代码，映射到浏览器上 2）安装集成的开发环境Anaconda3，里面有数据分析所用到的所有环境，集成：代码，图

2021-03-17 22:21:35 267

原创 spark的windows模式

下载自己对应的版本网址：http://spark.apache.org/downloads.html解压缩文件将文件 spark-3.0.0-bin-hadoop3.2.tgz 解压缩到无中文无空格的路径中启动本地环境执行解压缩文件路径下 bin 目录中的 spark-shell.cmd 文件，启动 Spark 本地环境在 bin 目录中创建 input 目录，并添加word.txt 文件, 在命令行中输入脚本代码sc.textFile("input/word.txt").flatMa

2021-03-16 18:31:13 289

原创 VUE课堂笔记1-课前准备

文章目录1.课前准备vscode常用方法1.课前准备vscode下载课程资料软件老师推荐教程超星学习通、腾讯课堂、中国大学mooc（手机app）菜鸟教程网博学谷-《vue.js基础教程》https://xuexi.boxuegu.com/video.html?courseId=1546/传智高校教辅平台系列视频资源http://stu.ityxb.com/resources/list传智高校教辅平台-教师登录《Vue.js前端开发实战》课程全视频http://tch.ity

2021-03-08 14:24:43 206

原创 urllib的学习

文章目录urllib2库的基本使用urlopen 请求数据Request 对象Request对象添加更多参数User-AgentGET和POST请求urllib2介绍除了requests模块可以抓取数据之外, python2中urllib2模块也可以操作,只是操作方法略有不同!在 python3 中，urllib2 被改为urllib.requesturllib2 是 Python2.7 自带的模块(不需要下载，导入即可使用)urllib2 官方文档：https://docs.python.o

2021-03-08 14:23:29 92 1

原创 request的使用2

文章目录1.使用requests模块访问登录后才能访问的资源cookie与session区别如何获取服务端登录后的资源(三种方式)1.在请求头上指定cookie信息2.发送请求的时候单独指定cookie信息3.使用requests模块中的session对象,带上cookie利弊与抉择cookie使用建议2.如何找POST请求的URL和要发送的数据方式1: 通过表单找出POS的URL方式2 抓包，寻找POST的url地址js逆向-定位和调试js调试js3.requests模块发送请求的小技巧reqeusts.

2021-03-03 19:28:15 1021

原创 request的使用1

文章目录概述作用：发送网络请求，返回响应数据request的基本使用request的常用属性：response.text 和response.content的区别实例1：爬取百度首页解决乱码问题练习2:下载图片requests带有请求头使用requests模块发送带有参数的请求练习3 如何模拟搜狗搜索内容 ?实例:爬取百度贴吧概述问题：为什么要学习requests，而不是urllib？requests的底层实现就是urllibrequests简单易用requests在python2 和python

2021-03-02 15:31:14 797

原创爬虫理论基础

文章目录概念主要用途爬虫流程HTTP和HTTPSHTTP常见请求头响应状态码(status code)浏览器的使用谷歌浏览器的使用概念网络爬虫（又被称为网页蜘蛛，网络机器人）就是模拟客户端发送网络请求，获取请求响应数据，一种按照一定的规则，自动地抓取互联网信息的程序。只要是浏览器能做的事情，原则上，爬虫都能够做主要用途数据采集爬虫的更多用途(了解)12306抢票/各种抢购网站上的投票短信轰炸网络攻击Web漏洞扫描器进行数据分析金融金融新闻/数据制定投资策略，进行量化交易

2021-02-28 18:07:59 388

原创 Spark简介+3种运行模式安装

文章目录spark概述spark核心模块Ø Spark CoreØ Spark SQLØ Spark StreamingØ Spark MLlibØ Spark GraphX与MapReduce的区别spark核心模块大数据框架体系spark组件spark安装spark的运行模式(基于spark3.0)local模式启动local环境命令行工具退出本地模式提交引用，执行jar包Standalone 模式解压缩文件修改配置文件启动集群提交应用配置历史服务Yarn 模式解压缩修改配置文件启动 HDFS 以及 Y

2021-02-24 17:32:18 407

原创 Echarts的基本使用

文章目录Echarts应用Echarts示例1.引入Echarts2、绘制一个简单的柱状图组件介绍核心用 option 描述图表常用图表柱状图饼状图折线图词云图散点热力图基本散点图热力雷达图Echarts应用官方中文网址：https://www.echartsjs.com/zh/index.html基本上看官方网站就可以学会Echarts示例1.引入Echarts下载:https://echarts.apache.org/zh/download.html<!DOCTYPE html&

2021-02-24 10:44:18 1295

leetcode python结题代码

空空如也