2021-11-07大数据脚本化

本文详细阐述了如何通过自定义脚本将Hive表迁移到MySQL,包括数据导出到文本文件、创建词频表、使用LOAD DATA LOCAL INFILE导入数据,以及讨论了InnoDB和MyISAM引擎的选择。同时涉及数据验证和MySQL存储引擎的影响。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、将hive表推送到mysql中

1. 实现方法分析

- 自行实现,而不用sqoop等第三方数据传输同步插件
- 备注:sqoop是实现hive与其他各种关系型数据(rdb)的最受欢迎的第三方组件

2. 自行实现步骤

- 将hive表数据生成到文件weibo_hot_result.txt(原名000000_0)中
- 拥有一个mysql库,以及相应的读写权限
- 在mysql中创建词频表weibo_hot_words
- 执行mysql命令将weibo_hot_restlt.txt导入到weibo_hot_words表中

3. 将hive表数据生成到文件中

- 生成一个weibo_seg_wc表的一个分区到文件中
  - 需求
    - 获取每个天分区下的Top100热词
  - 技术实现
    - 先落地到hdfs目录
    - 再从hdfs目录中将数据下载到入口机本地机器中

4. 拥有一个mysql库,以及相应的读写权限(经典的多用户共享使用关系型数据库操作方法)

5. 在mysql中创建词频表weibo_hot_words

6. 执行mysql命令将weibo_hot_restlt.txt导入到weibo_hot_words表中

   ```shell
   #! /bin/sh
   mysql –h host -uroot -p******** -e "
      use yuqing_oncourse;
      LOAD DATA LOCAL INFILE './hot_words/000000_0' INTO TABLE weibo_hot_words FIELDS TERMINATED BY '\t' (word,freq,day_seq);
   "
   
   ```

二、mysql存储引擎

1. innodb

- 有事务,在操作性能上略低于myisam

2. myisam

- 无事务,在操作性能是哪个比较高,高于innodb

三、如何证明数据挖掘的效果是准确ok的,可以被信任采纳的

1. 直接证明
2. 间接证明

- 抽样检查

四、一个高级工程师需要具备的素质

1. 一专多能
2. 工作过程当中,往往都是有工作交叉的

五、maven的项目打包

1. 项目打包分类

- 可运行jar,即rennable jar
  - All in one 打包的jar
  - 分离式打包
    - 将自己的jar包和依赖的jar分开打
- 非独立运行jar,即dependency jar

六、web类开发项目的代码梳理技巧

1. 以功能开发为依据,针对每个功能进行自前往后,然后自后往前的请求流程的梳理即可
2. 端到端的闭环系统

七、springboot的常用注解

1. SpringBootApplication

- 定义springboot项目的根类,自此开始

2. ComponentScan

- 组件浏览配置,解决spring组件装配的扫件路径问题

3. Controller

- MVC当中的C,即拦截器
- 用来拦截用户的路径请求,并进行转向,到对应的Model当中进行处理
- 完成后,再返回给指定的View视图

4. RestController

- 微服务,Controller+ResponseBody
- 响应数据请求,将得到的处理结果,一般是json返回给前端的view进行渲染处理

5. EnableAutoConfiguration

- 让某个controller或是restcontroller可以独立启动,对外提供独立的微服务
- 常用于微服务接口当中

6.  AutoWired

- 自动织入,或者叫自动注入。

- 将标记有该注解的对象,进行自动初始化,注入到spring容器当中。

7. RequestMapping

- 请求路径映射作用,将指定的映射路径交给对应的controller的方法去处理。

8. Component

- 将写的类纳入到spring容器管理当中。

八、cdn

1. content delivery network,内容传输网络
2. 像云计算都有自己的cdn网络结点
3. 优缺点说明

- 有点
  - 访问速度更快,不占用自家宽带资源
- 缺点
  - 不够灵活,需要按照cdn有的东西来进行cdn的数据使用

九、echarts的使用方法

1. 引入echarts的核心,js依赖和相关插件依赖
2. 定义main div画板
3. 初始化画板,拿到对应的echarts对象
4. 定义参数对象option
5. 设置chart的option参数,使之生效
6. 响应式设置

- window.onresize=chart.resize

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值