2021-11-07大数据脚本化

最新推荐文章于 2022-09-01 16:15:32 发布

TSBigDate

最新推荐文章于 2022-09-01 16:15:32 发布

阅读量111

点赞数

CC 4.0 BY-SA版权

文章标签：数据仓库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_58421245/article/details/121199005

本文详细阐述了如何通过自定义脚本将Hive表迁移到MySQL，包括数据导出到文本文件、创建词频表、使用LOAD DATA LOCAL INFILE导入数据，以及讨论了InnoDB和MyISAM引擎的选择。同时涉及数据验证和MySQL存储引擎的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、将hive表推送到mysql中

1. 实现方法分析

- 自行实现，而不用sqoop等第三方数据传输同步插件
- 备注：sqoop是实现hive与其他各种关系型数据（rdb）的最受欢迎的第三方组件

2. 自行实现步骤

- 将hive表数据生成到文件weibo_hot_result.txt(原名000000_0)中
- 拥有一个mysql库，以及相应的读写权限
- 在mysql中创建词频表weibo_hot_words
- 执行mysql命令将weibo_hot_restlt.txt导入到weibo_hot_words表中

3. 将hive表数据生成到文件中

- 生成一个weibo_seg_wc表的一个分区到文件中
- 需求
- 获取每个天分区下的Top100热词
- 技术实现
- 先落地到hdfs目录
- 再从hdfs目录中将数据下载到入口机本地机器中

4. 拥有一个mysql库，以及相应的读写权限（经典的多用户共享使用关系型数据库操作方法）

5. 在mysql中创建词频表weibo_hot_words

6. 执行mysql命令将weibo_hot_restlt.txt导入到weibo_hot_words表中

```shell
#! /bin/sh
mysql –h host -uroot -p******** -e "
use yuqing_oncourse;
LOAD DATA LOCAL INFILE './hot_words/000000_0' INTO TABLE weibo_hot_words FIELDS TERMINATED BY '\t' (word,freq,day_seq);
"

```

二、mysql存储引擎

1. innodb

- 有事务，在操作性能上略低于myisam

2. myisam

- 无事务，在操作性能是哪个比较高，高于innodb

三、如何证明数据挖掘的效果是准确ok的，可以被信任采纳的

1. 直接证明
2. 间接证明

- 抽样检查

四、一个高级工程师需要具备的素质

1. 一专多能
2. 工作过程当中，往往都是有工作交叉的

五、maven的项目打包

1. 项目打包分类

- 可运行jar，即rennable jar
- All in one 打包的jar
- 分离式打包
- 将自己的jar包和依赖的jar分开打
- 非独立运行jar，即dependency jar

六、web类开发项目的代码梳理技巧

1. 以功能开发为依据，针对每个功能进行自前往后，然后自后往前的请求流程的梳理即可
2. 端到端的闭环系统

七、springboot的常用注解

1. SpringBootApplication

- 定义springboot项目的根类，自此开始

2. ComponentScan

- 组件浏览配置，解决spring组件装配的扫件路径问题

3. Controller

- MVC当中的C,即拦截器
- 用来拦截用户的路径请求，并进行转向，到对应的Model当中进行处理
- 完成后，再返回给指定的View视图

4. RestController

- 微服务，Controller+ResponseBody
- 响应数据请求，将得到的处理结果，一般是json返回给前端的view进行渲染处理

5. EnableAutoConfiguration

- 让某个controller或是restcontroller可以独立启动，对外提供独立的微服务
- 常用于微服务接口当中

6. AutoWired

- 自动织入，或者叫自动注入。

- 将标记有该注解的对象，进行自动初始化，注入到spring容器当中。

7. RequestMapping

- 请求路径映射作用，将指定的映射路径交给对应的controller的方法去处理。

8. Component

- 将写的类纳入到spring容器管理当中。

八、cdn

1. content delivery network，内容传输网络
2. 像云计算都有自己的cdn网络结点
3. 优缺点说明

- 有点
- 访问速度更快，不占用自家宽带资源
- 缺点
- 不够灵活，需要按照cdn有的东西来进行cdn的数据使用

九、echarts的使用方法

1. 引入echarts的核心，js依赖和相关插件依赖
2. 定义main div画板
3. 初始化画板，拿到对应的echarts对象
4. 定义参数对象option
5. 设置chart的option参数，使之生效
6. 响应式设置

- window.onresize=chart.resize

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。