
大数据开发
文章平均质量分 63
一蓑烟雨紫洛
一蓑烟雨任平生
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数仓面试100题
事实表事实表( Fact Table)是指存储有事实记录的表,如系统⽇志、销售记录等;事实表的记录在不断地动态增⻓ ,所以它的体积通常远⼤于其他表。事实表作为数据仓库建模的核⼼,需要根据业务过程来设计,包含了引⽤的维度和业务过程有关的度量。维度表( Dimension Table)或维表,有时也称查找表(Lookup Table),是与事实表相对应的⼀种表;它保存了维度的属性值,可以跟事实表做关联;相当于将事实表上经常重复出现的属性抽取、规范出来⽤⼀张表进⾏管理。原创 2024-05-24 15:21:14 · 2224 阅读 · 0 评论 -
数据治理----数据治理
数据治理是指通过制定策略、规程和程序,确保数据在整个⽣命周期内保持⾼质量、易于访问和安全性。它涉及到制定数据标准、数据分类、数据质量、数据安全等⽅⾯的政策和流程, 旨在确保数据在组织内得到正确使⽤和管理。原创 2024-05-24 14:05:52 · 277 阅读 · 0 评论 -
数据质量-数据治理
①单表数据质量监控,②单表空值检测,③单表重复值检测,④单表值域检测,⑤跨表数据量对⽐等五⼤原则。原创 2024-05-24 14:01:12 · 528 阅读 · 0 评论 -
idea搭建spark开发环境完整版(windows)
利用intellij idea 搭建spark开发环境(windows)本文配置所有环境Win10 企业版2016长期服务版Jdk1.8.0.131Hadoop2.7.3Spark2.2.0Scala2.11.12一、Jdk环境配置下载http://www.oracle.com/technetwork/cn/java/javase/downloads/jdk8-downloads-2133151-zhs.html可能需要oracle账号,目前更新到了151版。没有账号的可以移步链接:原创 2020-08-03 09:55:37 · 5337 阅读 · 0 评论 -
HIVE日期代码
日期:SELECT unix_timestamp('2017-12-01 00:15:30') # 1512058530select from_unixtime(1512058530) # 2017-12-01 00:15:30select from_unixtime(1512058530,'yyyy-MM-dd') # 2017-12-01select to_date('...原创 2019-01-14 15:17:05 · 278 阅读 · 0 评论 -
分组排序函数在mysql和hive中的应用
mysqlSELECT * from (SELECT k.*,case when @app_code=k.app_code then @row:=@row+1 else @row:=1 end as rownum,@app_code:=k.app_code from (SELECT l.* from table_a lORDER BY app_code, p.create_date DES...原创 2019-01-14 14:30:22 · 130 阅读 · 0 评论 -
scala学习总结03
1、递归和尾递归1 找到递归的算法 f(5)=5*f(n-1) f(n)=n=f(n-1) 3随着递归的深入,要有机会到达结束条件Scala会对尾递归做一个优化,尾递归优化,就不会出现stackoverflowError在递归的时候,只有递归,没有任何其他的运算,这就是尾递归。Scala做了优化(迭代算法)。java没有要找到一个合适的累加器,走到最深层的时候,结果出来之后,也是最后结果package com.atguigu.scala1015.day01.recursiveobject原创 2020-09-02 09:34:40 · 215 阅读 · 0 评论 -
scala学习总结02
1、值类型之间的转换:Byte short Long Int Float…自动转换(提升):byte->short->int->long->float->doublechar->intscala中照样是适用强制转换:java:(int)1Lscala: toInt toDouble如何转字符串: 123+"" tostring object type2 { def main(args: Array[String]): Unit原创 2020-08-28 09:31:59 · 247 阅读 · 0 评论 -
大数据开发---Scala总结1
1、idea初始配置:1、统一字符编码file-setting-editor-file Encoding-global encoding(UTF-8)-project enconding(utf-8)-defalaut encoding for properties file(utf-8)2、配置默认换行符file-setting-editor-code style-line separator(unix and macOS)3、字体大小file-setting-editor-font-s原创 2020-08-10 17:00:34 · 387 阅读 · 0 评论 -
大数据开发---OLTP和OLAP的关系【1】
文章目录1、OLTP和OLAP的定义2、OLTP和OLAP的关系3、OLTP和OLAP的区别4、大数据时代对数据存储的挑战1、OLTP和OLAP的定义OLAP系统:联机分析处理系统:Data Warehouse数据仓库 (On-Line Analytical Processing)OLTP系统:联机事务处理系统 (On-line transaction processing)2、OLTP和OLAP的关系3、OLTP和OLAP的区别4、大数据时代对数据存储的挑战1、高并发读写需求2、海量原创 2022-05-26 09:48:40 · 644 阅读 · 0 评论