ITA1024
www.ita1024.com
雪球大数据体系
实践
@唐福林 雪球首席架构师
2
❑ 关于雪球,关于我
❑ 雪球大数据体系搭建
❑ 大数据推广应用
❑ 未来规划和思考总结
大纲
3
❑ 雪球 聪明的投资者都在这里
❑ web 1.0:新闻资讯,股价信息,K线图
❑ web 2.0:SNS 订阅,分享,聊天
❑ web 3.0:移动 APP,交易闭环
❑ 非互联网:资产管理,私募工场
❑ https://xueqiu.com/about
关于雪球
❑ 员工 100+ ,技术人员占一半
❑ Java,Scala,Akka,Finagle,Nodejs,
Docker
❑ CDH,Hadoop,Impala,Hive,Storm
❑ 租用IDC机房自建私有云,正在往“公有云+
私有云”方向发展
关于雪球
❑ 前新浪微博架构师,微博ID @唐福林
❑ 微博短链 t.cn
❑ 微博计数器 redis,rediscounter
❑ 微博用户关系服务
❑ 微博稳定性、性能改进
关于我
❑ 雪球首席架构师,雪球ID @唐福林
❑ 性能,稳定性,代码质量改进
❑ 平台项目:用户关系,搜索,IM
❑ 基础组件,微服务容器建设
❑ XDC 雪球数据中心
关于我
❑ 起因
❑ 交易业务精细运营
❑ 服务端日志集中存储,分析
❑ 客户端行为日志收集,分析
搭建
8
❑ 定位
❑ 全量数据落地存储
❑ 新数据准实时流式访问计算
❑ 大数据交叉关联查询计算
搭建
9
❑ 模块组成
❑ 数据收集聚合系统:实时日志收集,
离线日志收集,数据库抽取
❑ 数据存储平台:队列系统, Nosql系统,
分布式文件系统
❑ 数据计算平台:实时计算,即席计算,
离线计算,任务调度
搭建
10
搭建
11
❑ 系统容量指标
❑ 存储容量:半年到一年的存储量,
200TB
❑ 计算容量:半年后,日均 200+ jobs
搭建
12
❑ 硬件准备
❑ namenode:2 台
❑ CPU:32core
❑ 内存:128G
❑ 系统盘:sas 硬盘 * 2 做 raid 10
❑ 数据盘:不需要
❑ 网卡:千兆 * 2
搭建
13
❑ 硬件准备
❑ datanode:8 台
❑ CPU:32core
❑ 内存:128G
❑ 系统盘:sas 硬盘 * 2 做 raid 10
❑ 数据盘: sata 硬盘 4T * 10,做 raid 0
❑ 网卡:千兆 * 2
搭建
14
❑ 软件准备
❑ CDH 5.4.3,Parcel
❑ Zookeeper,YARN,HDFS,HBase,
Hive,Impala,Hue,Kafka,
Sentry,Sqoop2,Oozie
❑ Storm,Spark
搭建
15
❑ 安装配置
❑ 机器账号权限:sudo with no
password
❑ Kerberos
搭建
16
❑ 数据导入
❑ DB:Sqoop 2
❑ Queue/File:Flume ng,Kafka
搭建
17
❑ 数据导入
❑ SNS社区:用户,关系,帖子,评论,组合
❑ 实时行情:股价,盘口,五档
❑ 服务端 Access Log,业务Log
❑ App 端用户行为日志
搭建
18
❑ 数据清洗
❑ ETL:自己写 shell job
❑ 定期压缩:hadoop streaming
搭建
19
❑ Meta信息管理
❑ Hive Metastore
❑ 库表字段说明,数值约束,数据来源,
更新频率等等,只能依靠手工文档
搭建
20
❑ 使用方式
❑ Hue
❑ Impala
❑ Hive
❑ Http API,Java Client
搭建
21
❑ 数据权限管理
❑ Ldap
❑ HDFS 文件属主隔离
搭建
22
❑ 资源列表
❑ 所有 web ui 的统一入口
搭建
23
搭建
24
❑ 面向工程师的推广
❑ Impala SQL 培训
❑ 线上业务技术指标
❑ 监控报警
推广应用
25
推广应用
26
❑ 监控报警
❑ Exception 流
❑ Metrics 流
❑ Access log 流
推广应用
27
❑ 面向产品,运营人员的推广
❑ 业务指标
❑ 用户行为分析
❑ 尝试过 umeng,flurry,zhugeio,最
终还是决定自己做
推广应用
28
❑ 用户转化
❑ 新增,留存,活跃,流失
推广应用
29
❑ 用户行为分析
❑ 点击路径,功能漏斗
❑ 常用功能
❑ 太阳图
❑ 火焰图
推广应用
30
❑ 用户分类对比
❑ 当前活跃 vs 本月流失
❑ 当前活跃 vs 本月新增
推广应用
31
❑ 大数据产品
❑ 反垃圾
❑ 推荐
❑ 用户画像,信用体系
❑ 广告
❑ 量化投资
推广应用
32
❑ 反垃圾
❑ 用户分类
❑ 文本聚类:类似帖子
❑ 行为聚类:同ip注册的用户
推广应用
33
❑ 推荐
❑ 用户分类
❑ 效果数据准实时监控
推广应用
34
❑ 用户画像,雪球信用系统
❑ 好用户,好贴,好组合:推荐
❑ 差用户,差贴:反垃圾
❑ 普通用户,普通贴:反 SEO,提升粘性
推广应用
35
❑ 广告
❑ 多维度条件筛选目标用户
❑ 用户分类对比广告效果
推广应用
36
❑ 量化投资
❑ 将社区和组合的数据作为投资决策的依
据来源之一
❑ 雪球大数据指数
❑ 雪球大数据基金
推广应用
37
❑ 深度挖掘
❑ 深入业务本质
❑ 更多的应用场景
❑ 更大的价值发挥
未来规划
38
❑ 效果改进
❑ 推荐效果改进
❑ 广告效果改进
❑ 量化投资的效果改进?
未来规划
39
❑ 大数据体系的价值
❑ 数据说话,杜绝拍脑袋
思考总结
40
❑ 什么时候开始
❑ 越早越好
思考总结
41
❑ 难点
❑ 数据意识,驱动频繁使用
❑ 全员使用:降低门槛
❑ 深度挖掘价值
思考总结
42
Keep	Calm	
And	
Ask	Me	Anything
43
• Thank You

More Related Content

PDF
股市动荡下的雪球架构进化历程
PDF
雪球服务化实践历程.Print
PPTX
移动时代端到端的稳定性保障经验谈
PDF
Redis大数据之路 dtcc-唐福林
PPTX
我的奋斗 @ weibo
PPTX
订阅互联网
PDF
一个Nosql的故事
PPTX
6 rexsee:会html就会android
股市动荡下的雪球架构进化历程
雪球服务化实践历程.Print
移动时代端到端的稳定性保障经验谈
Redis大数据之路 dtcc-唐福林
我的奋斗 @ weibo
订阅互联网
一个Nosql的故事
6 rexsee:会html就会android

Similar to 雪球大数据体系实践 (20)

PDF
高速移動網路新時代 - 雲端與物聯網發展新趨勢 (An Integration Trend of Terminal Devices, IoT and C...
PDF
海通证券金融云思考与实践(数据技术嘉年华2017)
PDF
区块链与金融科技的未来
PDF
保护您在云端中的信息——是时候回到基础
PDF
About grow up
PDF
雲端技術的新趨勢
PDF
腾讯组织架构及其战略
PDF
課程1 1:雲端運算初探
PDF
如何快速实现数据编织架构
PPT
2010中国云计算调查报告
PPTX
台中市創業平台建置計畫
PDF
淺談台灣巨量資料產業供應鏈串聯現況
PPT
535 dust cloud
PDF
壹點通行銷同步雲 雲端服務說明會簡報
PPT
使用GoogleAppEngine建立个人信息中心
PDF
使用者中心的網站設計原則 以英國政府入口網gov.uk 為例 / 悠識 蔡明哲
PPTX
使用Asp.net mvc搭配windows azure建構可擴展網站
PPT
Powerpoint SHOW
DOC
美国云计算发展现状及趋势-2010
PPT
新浪云计算公开课第一期:Let’s run @ sae(丛磊)
高速移動網路新時代 - 雲端與物聯網發展新趨勢 (An Integration Trend of Terminal Devices, IoT and C...
海通证券金融云思考与实践(数据技术嘉年华2017)
区块链与金融科技的未来
保护您在云端中的信息——是时候回到基础
About grow up
雲端技術的新趨勢
腾讯组织架构及其战略
課程1 1:雲端運算初探
如何快速实现数据编织架构
2010中国云计算调查报告
台中市創業平台建置計畫
淺談台灣巨量資料產業供應鏈串聯現況
535 dust cloud
壹點通行銷同步雲 雲端服務說明會簡報
使用GoogleAppEngine建立个人信息中心
使用者中心的網站設計原則 以英國政府入口網gov.uk 為例 / 悠識 蔡明哲
使用Asp.net mvc搭配windows azure建構可擴展網站
Powerpoint SHOW
美国云计算发展现状及趋势-2010
新浪云计算公开课第一期:Let’s run @ sae(丛磊)
Ad

More from fulin tang (10)

PDF
新浪微博开放平台中的 Redis 实践
PDF
Redis 坑
PDF
Gizzard, DAL and more
PDF
音乐搜索的极致
PDF
基于Lucene的站内搜索 Beta
ODP
基于 lucene 的站内搜索
PPT
Voldemort Intro Tangfl
PPT
基于Lucene的站内搜索
ODP
基于Lucene的站内搜索
PDF
毕业设计-Slide
新浪微博开放平台中的 Redis 实践
Redis 坑
Gizzard, DAL and more
音乐搜索的极致
基于Lucene的站内搜索 Beta
基于 lucene 的站内搜索
Voldemort Intro Tangfl
基于Lucene的站内搜索
基于Lucene的站内搜索
毕业设计-Slide
Ad

雪球大数据体系实践