- 博客(60)
- 收藏
- 关注
原创 Spark1
Hadoop历史2003,2004 Google2篇论文2011年发布1.0版本2012年发布稳定版2013年发布2.x版本(Yarn)
2019-12-01 16:17:57
173
原创 广告推销01
文章目录DSP原理图DSP原理图DSP:各各广告主的代理商,帮助广告主投放广告,也是一个Web平台,可以存储广告主的诉求信息(目标用户画像)。流程解析:1.当用户打开APP,APP会发送一条请求到Ad Exchange(广告交易平台),请求中携带有用户相关信息(userId);2.一个Ad Exchange平台与多个DSP平台合作,Ad Exchange接收到APP的请求后,将用户信息...
2019-08-20 09:51:46
427
原创 摩拜单车项目03--Nginx
文章目录Nginx简介安装配置负载均衡安装kafka插件微信小程序对接nginx-kafkaNginx简介安装配置负载均衡安装kafka插件微信小程序对接nginx-kafka
2019-08-14 09:16:06
391
原创 摩拜单车项目01
文章目录相关的技术相关的技术1.微信小程序开发()2.springboot后台管理()3.mysql(集群)()4.mongdb(集群)()5.redis(集群)()6.Elasticsearch(实时查找和数据分析)()7.Spark(Spark core, SQL,streaming)()8.Nginx(负载均衡)()...
2019-08-12 19:25:18
870
原创 Nginx
文章目录NginxNginx相关概念反向代理负载均衡安装下载nginx上传并解压nginx编译nginx检查安装环境编译安装配置nginx配置反向代理负载均衡NginxNginx相关概念反向代理反向代理(Reverse Proxy)方式是指以代理服务器来接受internet上的连接请求,然后将请求转发给内部网络上的服务器,并将从服务器上得到的结果返回给internet上请求连接的客户端,此...
2019-07-27 11:26:37
125
原创 ElasticSearch
文章目录Lucene简介工作流程示意图Lucene的Lucene的查询总结Lucene简介Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中...
2019-07-26 18:57:40
783
原创 Sqoop
文章目录Sqoop简介sqoop安装数据的导入与导出将mysql的表导入 hdfs将mysql的表导入 hive将mysql的表的增量数据导入 hdfs将hdfs的文件数据导出到mysqlSqoop简介sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。本质上是mapreduce程序,负责hdfs和关系型数据库之间的数据传输(数据仓库中那些经过ETC的数据...
2019-07-25 22:10:48
240
原创 Hadoo06
文章目录ETC模拟ETC流程ETC模拟ETC流程0.Flume采集1.将数据通过Flume从指定位置采集到hdfs(/app-log-data/data/2019-07-*);2.将mr程序打成jar备用,package com.initialize;import com.alibaba.fastjson.JSON;import com.alibaba.fastjson.JS...
2019-07-22 19:38:27
179
转载 Flume
文章目录概述Flume定义概述Flume定义Flume是Cloudera提供的一个高可用的,高可靠,分布式的海量日志采集,聚合和传输的系统。Flume基于流式框架,灵活简单。...
2019-07-21 12:45:00
885
转载 HBase
文章目录HBase各数据库中的差别比较Hive特点普通数据库(sql/nosql)什么是HBaseHBASE相比于其他nosql数据库(mongodb、redis、cassendra、hazelcast)的特点HBase安装流程HBase各数据库中的差别比较Hive特点1.Hive是数据仓库,Hive是基于Hdfs强大的存储能力,保证了可存储的数据量非常大,数据存储的文件为普通的文件;...
2019-07-20 13:36:17
194
原创 Hive
文章目录HiveHIVE是什么?HIVE的用途?安装mysql数据库卸载mysql安装mysqlHIVE的使用方式?本地交互式查询(一)将hive启动为一个服务(二)beeline配置远程连接将hive作为命令运行(三)可以将hive作为命令一次性运行:可以将较长语句写入一个xxx.sh脚本中HIVE的DDL语法建库建内部表建外部表删除表导入数据建分区表插入数据到指定分区HIVE的DMLHIVE的...
2019-07-18 14:32:53
1363
原创 zookeeper
zookeeper数据存储形式zookeeper中对用户的数据采用kv形式存储,只是zk有点特别:key:是以路径的形式表示的,那就以为着,各key之间有父子关系,比如/ 是顶层key用户建的key只能在/ 下作为子节点,比如建一个key: /aa 这个key可以带value数据也可以建一个key: /bb也可以建key: /aa/xxzookeeper中,对每一个数据key...
2019-07-15 17:16:06
458
原创 Hadoop05
文章目录hadoop集群搭建hadoop集群搭建hadoop2.0已经发布了稳定版本了,增加了很多特性,比如HDFS HA、YARN等。最新的hadoop-2.6.4又增加了YARN HA注意:apache提供的hadoop-2.6.4的安装包是在32位操作系统编译的,因为hadoop依赖一些C++的本地库,所以如果在64位的操作上安装hadoop-2.6.4就需要重新在64操作系统上重新编...
2019-07-15 16:56:14
220
原创 Hadoop04
文章目录mr编程案例-文档索引创建-输入切片maptask与输入切片关系示意图倒排索引案例订单topnmr编程案例-文档索引创建-输入切片maptask与输入切片关系示意图倒排索引案例目的:统计单词在每个文件中出现的次数测试数据hello tomhello jimhello kittyhello rosehello jerryhello jimhello kittyhe...
2019-07-14 10:34:59
121
原创 Hadoop01
文章目录大数据基本概念 在互联网技术发展到现今阶段,大量日常、工作等事务产生的数据都已经信息化,人类产生的数据量相比以前有了爆炸式的增长,以前的传统的数据处理技术已经无法胜任,需求催生技术,一套用来处理海量数据的软件工具应运而生,这就是大数据!处理海量数据的核心技术:海量数据存储:分布式海量数据运算:分布式这些核心技术的实现是不需要用...
2019-07-07 09:06:20
312
原创 Shell
Shell编程shell是命令解析器,是Unix操作系统的用户接口,程序从用户接口得到输入信息,shell将用户程序以及输入翻译成操作系统内核(kernel)能够识别的指令,并且操作系统内核执行完返回输出通过shell呈现给用户。Shell也是一门编程语言,即Shell脚本。shell是一种解释执行的脚本语言,可以直接调用Linux命令。一个系统可以存在多个shell,可以通过cat /etc...
2019-07-03 16:35:38
171
原创 Linux操作基础02
帮助命令man 作用:获取命令或配置文件的帮助信息 语法:man [命令] eg:man ls man service (查看配置文件时,不需要配置文件的绝对路径,只需要文件名即可)调用的是more命令来浏览帮助文档,按空格翻下一页,按回车翻下一行,按q退出。使用/加上关键的参数可直接定位搜索,n查找下一个,shift+n查找上一个。&...
2019-06-30 11:07:24
224
原创 Linux操作基础01
背景和环境Linux是一种自由和开放源码的操纵系统,存在着许多不同的Linux发行版本,但它们都使用了Linux内核。Linux内核网站:www.kernel.org基于内核,再增加一些桌面,应用程序,就可以发行,称为开发版。Linux两大阵营:Redhat系列:redhat,suse,CentOS,Fedora等Debian系列:debian,ubuntu等区别:命令细微的区别,安...
2019-06-30 09:08:34
213
原创 Spark_10
文章目录Redis介绍SparkStreaming程序计算多个指标spark-on-yarnRedis介绍百度百科:Redis是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。redis是一个key-value存储系统。安装1.下载redis3的稳定版本,下载地址http://download.redis.io/...
2019-06-16 10:18:45
145
原创 Spark_09
文章目录kafka分区相管知识Spark Streaming原理简介DStream介绍关于nc介绍SparkStreaming整合kafkakafka分区相管知识Spark Streaming原理简介DStream介绍DStream是SparkStream中一个高级的抽象(对RDD的封装)。关于nc介绍案例package day9import org.apache.spark...
2019-06-14 21:54:57
248
原创 Spark_07
文章目录回顾Spark SQL的join自定义聚合函数Dataset回顾线程安全问题的起因:静态类或公用的对象中成员变量进行更改。about:DataFrameDataFrame也是一个分布式数据集,是一个描述,不没有真正的数据。类似于RDD。再执行前会对程序进行优化。创建方法1:先生成RDD,通过RDD的toDF()将RDD变成DataFrame,2:通过SparkSession对象...
2019-06-04 11:55:55
171
原创 Spark_05
文章目录回顾自定义排序回顾cache方法,没有生成新的RDD,也没有触发任务执行,只会标记该RDD分区对应的数据(第一次触发Action时)放入到内存checkpoint方法,没有生成新的RDD,也是没有触发Action,也是标记以后触发Action时会将数据保存到HDFS中根据IP地址计算归属地IP转换成十进制二分法查找广播变量(广播出去的内容一旦广播出去,就不能改变了),如果需要...
2019-05-28 19:03:55
437
原创 Spark_04
文章目录回顾RDD的cacheRDD做Checkpoint(保存到分布式文件系统中)单机程序计算IP归属地广播变量回顾一个分区对应一个Task,一个分区对应的Task只能在一台机器里面(在Executor),一台机器上可以有多个分区对应的Task。分组TopN1.聚合后按照学科进行分组,然后在每个分组中进行排序(调用的是Scala集合的排序)2.先按学科进行过滤,然后调用RDD的方法进行...
2019-05-27 20:50:30
315
原创 Spark_03
文章目录RDD与普通集合有那些区别CombineByKey案例:最受欢迎的老师自定义分区器RDD与普通集合有那些区别RDD里面记录的是描述信息(从哪里读数据,以后对数据如何进行计算),RDD的方法分为两类Transformation(lazy),Action(生成Task,并发送到Executor中执行)Scala存储的是真正要计算的数据,执行方法后立即返回结果。RDD特征:1.一系列分...
2019-05-27 13:42:11
215
原创 Scala05
回顾 /** * Akka * 开发高并发的一个工具包 * * Actor * Actor和Actor可以相互通信,通信的方式是通过传递消息。 * * ActorSystem的作用其实创建,管理Actor * * Actor和Actor不能直接通信,是通过ActorRef进行通信。 ...
2019-05-26 13:11:28
105
原创 Spark_01
Spark相关介绍Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因...
2019-05-25 13:50:48
145
原创 Scala04
回顾object 回顾 { /** * 类 * 类的定义: class ClassName() * 类后面的括号,类的主构造器(val name: String, var age: Int) * val(get) | var(get|set) * * 类的辅助构造器 def this(构造参数...)...
2019-05-05 18:56:30
131
原创 Scala03
元组的创建方式:回顾object 回顾 { /** * Array(定长数组),ArrayBuffer(变长数组) * * 集合 * 可变集合(collection.mutable) * ListBuffer => 内容和长度都可以改变 * * 不可变集合(collection.immutab...
2019-05-01 11:16:06
1019
原创 Scala02
1.可变参数/** * 可变参数,在参数变量通配符后面添加一个* */ def add(ints: Int*): Int = { var sum = 0; for(v <- ints){ sum += v } sum } //可变参数一般放在参数列表的末尾 def add2(initValue: Int, ints...
2019-04-28 18:19:52
114
原创 Scala01
1.什么是ScalaScala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序。优点:1.优雅,直接影响用户的体验2.速度快,Scala语言表达能力强,一行代码抵得上java多行;Scala是静态编译的。3.能融合到hadoop生态圈;2.在IDEA下创建Scala项目在创建项目前...
2019-04-24 20:28:22
125
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人