
框架案例
文章平均质量分 88
weixin_42073629
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大白话理解分布式事务
实现分布式事务转载 2022-06-11 23:44:34 · 361 阅读 · 0 评论 -
分布式锁的 3 种实现方案
前言今天跟大家探讨一下分布式锁的设计与实现,希望对大家有帮助,如果有不正确的地方,欢迎指出,一起学习,一起进步。分布式锁概述我们的系统都是分布式部署的,日常开发中,秒杀下单、抢购商品等等业务场景,为了防止库存超卖,都需要用到分布式锁。分布式锁其实就是,控制分布式系统不同进程共同访问共享资源的一种锁的实现。如果不同的系统或同一个系统的不同主机之间共享了某个临界资源,往往需要互斥来防止彼此干扰,以保证一致性。业界流行的分布式锁实现,一般有这 3 种方式: 基于数据库实现的分布式锁转载 2022-05-21 18:53:08 · 6468 阅读 · 0 评论 -
开源大数据OLAP引擎最佳实践
01开源OLAP综述如今的开源数据引擎多种多样,不同种类的引擎满足了我们不同的需求。现在ROLAP计算存储一体的数据仓库主要有三种,即StarRocks(DorisDB),ClickHouse和Apache Doris。应用最广的数据查询系统主要有Druid,Kylin和HBase。MPP引擎主要有Trino,PrestoDB和Impala。这些引擎在行业内有着广泛的应用。02开源数仓解决方案接下来,我们讲讲开源大数据以及数仓的解决方案。上图是EMR的..转载 2022-05-16 20:00:26 · 228 阅读 · 0 评论 -
5种限流算法,7种限流方式,挡住突发流量
前言最近几年,随着微服务的流行,服务和服务之间的依赖越来越强,调用关系越来越复杂,服务和服务之间的稳定性越来越重要。在遇到突发的请求量激增,恶意的用户访问,亦或请求频率过高给下游服务带来较大压力时,我们常常需要通过缓存、限流、熔断降级、负载均衡等多种方式保证服务的稳定性。其中限流是不可或缺的一环,这篇文章介绍限流相关知识。1. 限流限流顾名思义,就是对请求或并发数进行限制;通过对一个时间窗口内的请求量进行限制来保障系统的正常运行。如果我们的服务资源有限、处理能力有限,就需要对调用我们服务的上游请转载 2022-05-16 19:57:42 · 1009 阅读 · 0 评论 -
淘宝 10 年,高并发分布式架构演进之路
概述本文以淘宝作为例子,介绍从一百个到千万级并发情况下服务端的架构的演进过程,同时列举出每个演进阶段会遇到的相关技术,让大家对架构的演进有一个整体的认知,文章最后汇总了一些架构设计的原则,架构演进过程如下: 单机架构 第一次演进:Tomcat与数据库分开部署 第二次演进:引入本地缓存和分布式缓存 第三次演进:引入反向代理实现负载均衡 第四次演进:数据库读写分离 第五次演进:数据库按业务分库 第六次演进:把大表拆分为小表 第七次演转载 2022-05-16 19:48:35 · 239 阅读 · 0 评论 -
最全工作流引擎 Activiti
一、工作流介绍1.1 概念工作流(Workflow),就是通过计算机对业务流程自动化执行管理。它主要解决的是“使在多个参与者之间按照某种预定义的规则自动进行传递文档、信息或任务的过程,从而实现某个预期的业务目标,或者促使此目标的实现”。1.2 工作流系统一个软件系统中具有工作流的功能,我们把它称为工作流系统,一个系统中工作流的功能是什么?就是对系统的业务流程进行自动化管理,所以工作流是建立在业务流程的基础上,所以一个软件的系统核心根本上还是系统的业务流程,工作流只是协助进行业务流程管理。即使转载 2022-05-15 17:14:47 · 1155 阅读 · 0 评论 -
ES+Redis+MySQL,高可用架构设计
背景会员系统是一种基础系统,跟公司所有业务线的下单主流程密切相关。如果会员系统出故障,会导致用户无法下单,影响范围是全公司所有业务线。所以,会员系统必须保证高性能、高可用,提供稳定、高效的基础服务。随着同程和艺龙两家公司的合并,越来越多的系统需要打通同程 APP、艺龙 APP、同程微信小程序、艺龙微信小程序等多平台会员体系。例如微信小程序的交叉营销,用户买了一张火车票,此时想给他发酒店红包,这就需要查询该用户的统一会员关系。因为火车票用的是同程会员体系,酒店用的是艺龙会员体系,只有查到对应的转载 2022-04-10 15:49:29 · 254 阅读 · 0 评论 -
50000字,数仓建设保姆级教程,离线和实时一网打尽(理论+实战) 下
五、实时数仓建设核心1. 实时计算初期虽然实时计算在最近几年才火起来,但是在早期也有部分公司有实时计算的需求,但是数据量比较少,所以在实时方面形成不了完整的体系,基本所有的开发都是具体问题具体分析,来一个需求做一个,基本不考虑它们之间的关系,开发形式如下:早期实时计算如上图所示,拿到数据源后,会经过数据清洗,扩维,通过Flink进行业务逻辑处理,最后直接进行业务输出。把这个环节拆开来看,数据源端会重复引用相同的数据源,后面进行清洗、过滤、扩维等操作,都要重复做一遍,唯一不同的是业务的代码转载 2022-04-10 15:36:54 · 567 阅读 · 0 评论 -
50000字,数仓建设保姆级教程,离线和实时一网打尽(理论+实战) 上
一、数仓基本概念1. 数据仓库架构我们在谈数仓之前,为了让大家有直观的认识,先来谈数仓架构,“架构”是什么?这个问题从来就没有一个准确的答案。这里我们引用一段话:在软件行业,一种被普遍接受的架构定义是指系统的一个或多个结构。结构中包括软件的构建(构建是指软件的设计与实现),构建的外部可以看到属性以及它们之间的相互关系。这里参考此定义,把数据仓库架构理解成构成数据仓库的组件及其之间的关系,画出下面的数仓架构图:数仓架构上图中显示的整个数据仓库环境包括操作型系统和数据仓库系统两大部分。操转载 2022-04-10 15:22:01 · 596 阅读 · 0 评论 -
Activity工作流入门篇
什么是 Activity 工作流引擎 ?什么是工作流,比如说,我们在公司请假,可能要走审批的流程,从你自己到 Leader,然后从 Leader 到部门经理,然后部门经理再到人事部门,这一系列的流程实际上就相当于是一个工作流程,而这个就是一个工作流的最容易理解的模型。这肯定官方解读肯定不是这样,不然也太接地气了点,那么什么是 Activity 工作流呢?工作流(Workflow),指“业务过程的部分或整体在计算机应用环境下的自动化”。是对工作流程及其各操作步骤之间业务规则的抽象、概括描述。在计算原创 2021-09-06 00:26:01 · 28051 阅读 · 43 评论 -
猿辅导 x DorisDB:构建统一OLAP平台,全面升级数据分析能力
平台选型的业务背景业务特点和需求猿辅导作为互联网教育行业赛道中的领先品牌,每日有海量数据生成,为实现科技助力教育,十分重视数据在公司发展中发挥的作用,需要不断解决在数据建设上遇到的诸多挑战。在互联网教育数据体系中,不仅仅要关注用户活跃、订单收入,也很看重渠道推广转换率和用户续报率。这些指标存在不同的维度和不同的计算口径,以及多样化的业务系统接入模式,给我们OneService的底层设计带来了挑战。另一方面,数据时效性需求逐渐增强,离线T+1的数据已经越来越无法满足驱动业务的需求,数据逐步实时化也原创 2021-09-05 14:15:37 · 207 阅读 · 0 评论 -
小红书 x DorisDB:实现数据服务平台统一化,简化数据链路,提升高并发极速查询能力
OLAP引擎在小红书的演进史第一阶段,在2017年之前,数据总量还不是特别大,这个阶段使用AWS的Redshift,此时数仓体系还没有完全建立,很多数据需求的实现都是用短平快、烟囱式开发的方式来满足。数据ETL、数仓模型到最后报表端展现,在Redshift中一站式完成。但随着业务复杂度不断提升,以及数据量的快速增长,这种模式很快遇到了瓶颈。主要有以下问题: Redshift无法在不影响线上查询性能的前提下弹性扩展,一旦涉及到扩容,就会涉及到数据重分布,从而影响集群的性能以及可用性。原创 2021-09-05 14:06:31 · 419 阅读 · 0 评论 -
好未来 x DorisDB:全新实时数仓实践,深入释放实时数据价值
业务背景业务场景分类在教育场景下,根据数据时效性划分,数据分析处理可分为离线和实时两大部分:离线离线数据以8大数据域(日志、营销、交易、服务、教学、内容、学习、画像)建设为主,主要处理核心历史数据,解决“业务运营、分析师、算法”等海量数据多维度分析和挖掘等,采用批处理的方式定时计算。实时实时数据分析处理,主要包括由埋点产生的各种日志数据,数据量大,以结构化或半结构化类型为主;另外还包括由业务交易产生的业务数据,通常使用数据库的Binlog获取。实时数据分析的需求越来越多,特别原创 2021-09-05 13:18:23 · 270 阅读 · 0 评论 -
Apache Kudu 对频繁更新数据场景下的大数据实时分析
Apache Kudu 对频繁更新数据场景下的大数据实时分析最佳用例由于最近两次在大数据项目中使用Apache Kudu,写一篇文章谈谈对Kudu的一些看法和使用心得。一.对大规模数据实时分析的商业价值几乎所有的企业都有随着时间推移贬值的资产。直观地说,延长使用设备会降低设备的价值,如我们日常生活中的汽车、电子产品等。然而,数据通常不被视为随时间失去价值的资产,这种想法是错误的。虽然可能不是会计部门可以支付的费用,但是在可能导致更好的行动过程的时间段内,业务数据将失去价值。无论数据是否告诉您原创 2021-09-05 12:46:13 · 809 阅读 · 0 评论 -
微服务架构下的静态数据通用缓存机制
什么是静态数据这里静态数据是指不经常发生变化或者变化频率比较低的数据,比如车型库、用户基本信息、车辆基本信息等,车型库这种可能每个月会更新一次,用户和车辆基本信息的变化来源于用户注册、修改,这个操作的频率相对也是比较低的。推荐下自己做的 Spring Boot 的实战项目:https://github.com/YunaiV/ruoyi-vue-pro另外这类数据的另一个特点是要求准确率和实时性都比较高,不能出现丢失、错误,以及过长时间的陈旧读。具体是不是应该归类为静态数据要看具体的业原创 2021-09-04 17:26:33 · 252 阅读 · 0 评论 -
Redis 热点 Key的解决方案
一、热点Key问题产生的原因1、用户消费的数据远大于生产的数据(热卖商品、热点新闻、热点评论、明星直播)。在日常工作生活中一些突发的的事件,例如:双十一期间某些热门商品的降价促销,当这其中的某一件商品被数万次点击浏览或者购买时,会形成一个较大的需求量,这种情况下就会造成热点问题。同理,被大量刊发、浏览的热点新闻、热点评论、明星直播等,这些典型的读多写少的场景也会产生热点问题。2、请求分片集中,超过单 Server 的性能极限。在服务端读数据进行访问时,往往会对数据进行分片切分,此过程中会原创 2021-09-04 17:24:07 · 509 阅读 · 0 评论 -
实现延迟队列的4种方案
在我们日常生活中,我们可以发现: 在淘宝、京东等购物平台上下单,超过一定时间未付款,订单会自动取消。 打车的时候,在规定时间没有车主接单,平台会取消你的单并提醒你暂时没有车主接单。 点外卖的时候,如果商家在10分钟还没接单,就会自动取消订单。 收快递的时候,如果我们没有点确认收货,在一段时间后程序会自动完成订单。 在平台完成订单后,如果我们没有在规定时间评论商品,会自动默认买家不评论。 ....... 这时,我们可以想想为什么要这样做?因为这样原创 2021-06-03 21:43:43 · 4239 阅读 · 0 评论 -
三种分布式限流方案
业务背景介绍 对于web应用的限流,光看标题,似乎过于抽象,难以理解,那我们还是以具体的某一个应用场景来引入这个话题吧。 在日常生活中,我们肯定收到过不少不少这样的短信,“双11约吗?,千款….”,“您有幸获得唱读卡,赶快戳链接…”。这种类型的短信是属于推广性质的短信。为什么我要说这个呢?听我慢慢道来。 一般而言,对于推广营销类短信,它们针对某一群体(譬如注册会员)进行定点推送,有时这个群体的成员量比较大,譬如京东的会员,可以达到千万级别。因此相应的,发送推广短信的量也会增大。然而,要完成这些短...原创 2021-05-27 00:52:11 · 1582 阅读 · 0 评论 -
双十一秒杀架构模型设计
一:秒杀应该考虑哪些问题1.1:超卖问题分析秒杀的业务场景,最重要的有一点就是超卖问题,假如备货只有100个,但是最终超卖了200,一般来讲秒杀系统的价格都比较低,如果超卖将严重影响公司的财产利益,因此首当其冲的就是解决商品的超卖问题。1.2:高并发秒杀具有时间短、并发量大的特点,秒杀持续时间只有几分钟,而一般公司都为了制造轰动效应,会以极低的价格来吸引用户,因此参与抢购的用户会非常的多。短时间内会有大量请求涌进来,后端如何防止并发过高造成缓存击穿或者失效,击垮数据库都是需要考虑的问题。原创 2021-05-28 21:54:43 · 127 阅读 · 0 评论 -
搭建业务数据监控平台
业务监控, 主要侧重对业务状态数据的实时监控, 收集数据后对业务数据进行深入的统计分析, 帮助业务方发现问题, 定位问题根源。这其中数据分为:1.业务自身输出的业务日志(比如: 提单, 推单, 接单等状态数据)2.业务异常3.报警事件发现问题原因之后我们需要解决问题, 最终目的是可以基于我们分析的结果给运维动作做出决策, 以达到自动化运维的目的。另外, 明确系统用户将有助于把控业务监控产品的设计方向, 业务监控系统的第一用户是RD, 不是老板, 我们是要帮助RD更快的发现问题, 预知原创 2021-05-01 11:56:59 · 1278 阅读 · 0 评论 -
ElasticSearch实用化订单搜索方案
一、为什么选择ES搜索引擎中,主要考虑到ES支持结构化数据查询以及支持实时频繁更新特性:二、总体系统架构整个业务线使用服务化方式,ES集群和数据库分库,作为数据源被订单服务系统封装为对外统一接口;各前后台应用和报表中心,使用服务化的方式获取订单数据。三、数据更新设计ES数据更新有批量更新和实时更新两种:1、手动更新为初始化数据,或者修复数据时使用2、实时更新通过监控数据库订单表的binlog,进行实时同步四、机器、索引、参数配置五、...原创 2021-03-28 20:24:41 · 1118 阅读 · 0 评论 -
HBase、Kudu 和 ClickHouse 全视角对比
前言Hadoop生态圈的技术繁多。HDFS一直用来保存底层数据,地位牢固。Hbase作为一款Nosql也是Hadoop生态圈的核心组件,它海量的存储能力,优秀的随机读写能力,能够处理一些HDFS不足的地方。Clickhouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。能够使用SQL查询实时生成分析数据报告。它同样拥有优秀的数据存储能力。Apache Kudu是Cloudera Manager公司16年发布的新型分布式存储系统,结合CDH和Impala使用可以同时解决随机读写和s原创 2021-03-05 17:34:34 · 179 阅读 · 0 评论 -
关于数据仓库、数据湖、数据平台和数据中台的概念和区别
我们谈论数据中台之前,我们也听到过数据平台、数据仓库、数据湖的相关概念,它们都与数据有关系,但他们和数据中台有什么样的区别,下面我们将分别介绍数据平台数据仓库数据湖和数据中台。相关概念数据仓库数据仓库(Data Warehouse),也称为企业数据仓库,它是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合存储系统,它将来自不同来源的结构化数据聚合起来,用于业务智能领域的比较和分析,数据仓库是包含多种数据的存储库,并且是高度建模的。数据仓库逻辑架构数据仓库系统的作用能实现跨业务条原创 2021-03-04 16:12:36 · 955 阅读 · 1 评论 -
Flink + Iceberg 全场景实时数仓的建设实践
一.背景及痛点如图 1 所示,这是当前已经助力的一些内部应用的用户,其中小程序和视频号这两款应用每天或者每个月产生的数据量都在 PB 级或者 EB 级以上。图1这些应用的用户在构建他们自己的数据分析平台过程中,他们往往会采用图 2 这样的一个架构,相信大家对这个架构也非常的熟悉了。1.数据平台架构业务方比如腾讯看点或者视频号的用户,他们通常会采集应用前端的业务打点数据以及应用服务日志之类的数据,这些数据会通过消息中间件(Kafka/RocketMQ)或者数据同步服务(flume/..原创 2021-03-04 15:53:41 · 549 阅读 · 3 评论 -
贝壳找房基于Flink的实时平台建设
原创 2020-10-26 23:19:19 · 227 阅读 · 0 评论 -
基于Kafka+Flink+Redis的电商大屏实时计算案例
前言阿里的双11销量大屏可以说是一道特殊的风景线。实时大屏(real-time dashboard)正在被越来越多的企业采用,用来及时呈现关键的数据指标。并且在实际操作中,肯定也不会仅仅计算一两个维度。由于Flink的“真·流式计算”这一特点,它比Spark Streaming要更适合大屏应用。本文从笔者的实际工作经验抽象出简单的模型,并简要叙述计算流程(当然大部分都是源码)。数据格式与接入简化的子订单消息体如下。{ "userId": 234567, "ord..原创 2020-10-25 21:51:02 · 389 阅读 · 0 评论 -
如何使用 Flink 每天实时处理百亿条日志?
Sherlock.IO 是 eBay 现有的监控平台,每天要处理上百亿条日志、事件和指标。Flink Streaming job 实时处理系统用于处理其中的日志和事件。本文将结合监控系统 Flink 的现状,具体讲述 Flink 在监控系统上的实践和应用,希望给同业人员一些借鉴和启发。监控系统 Flink 的现状eBay 的监控平台 Sherlock.IO 每天处理着上百亿条日志(log),事件(event)和指标(metric)。通过构建 Flink Streaming job 实时处理系原创 2020-10-25 21:50:51 · 1244 阅读 · 0 评论 -
滴滴实时计算发展之路及平台架构实践
滴滴的核心业务是一个实时在线服务,因此具有丰富的实时数据和实时计算场景。本文将介绍滴滴实时计算发展之路以及平台架构实践。实时计算演进随着滴滴业务的发展,滴滴的实时计算架构也在快速演变。到目前为止大概经历了三个阶段: 业务方自建小集群阶段; 集中式大集群、平台化阶段; SQL化阶段。 下图标识了其中重要的里程碑,稍后会给出详细阐述:在2017年以前,滴滴并没有统一的实时计算平台,而是各个业务方自建小集群。其中用到的引擎有Storm、JStorm、Spark Str原创 2020-10-25 01:18:31 · 446 阅读 · 0 评论 -
基于 Flink 构建关联分析引擎的挑战和实践
随着云计算、大数据等新一代IT技术在各行业的深入应用,政企机构IT规模和复杂程度不断提高,网络流量、日志等各类数据规模大幅提升。与此同时,网络攻防日益激烈,网络安全威胁逐渐凸显出来,这对于SOC/SIEM产品的性能提出了一个很大的挑战。因此,奇安信独立研发了国内首款流式分布式关联分析引擎Sabre,搭载于公司旗下态势感知与安全运营平台(下文简称NGSOC),从而大幅提升NGSOC的数据分析能力和网络安全检测能力。本文将从技术研发的角度,全面阐述Sabre的由来。1.Sabre是什么?Sabre是原创 2020-10-25 01:18:18 · 1339 阅读 · 1 评论 -
58 同城基于 Flink 的千亿级实时计算平台架构实践
58 同城作为覆盖生活全领域的服务平台,业务覆盖招聘、房产、汽车、金融、二手及本地服务等各个方面。丰富的业务线和庞大的用户数每天产生海量用户数据需要实时化的计算分析,实时计算平台定位于为集团海量数据提供高效、稳定、分布式实时计算的基础服务。本文主要介绍 58 同城基于 Flink 打造的一站式实时计算平台 Wstream。实时计算场景和很多互联网公司一样,实时计算在 58 拥有丰富的场景需求,主要包括以下几类:实时数据 ETL:实时消费 Kafka 数据进行清洗、转换、结构化处理用于下游计算处理原创 2020-10-25 01:18:03 · 335 阅读 · 1 评论 -
Flink 踩坑经验:如何大幅降低 HDFS 压力?
众所周知,Flink 是当前最为广泛使用的计算引擎之一,它使用 Checkpoint 机制进行容错处理 [1],Checkpoint 会将状态快照备份到分布式存储系统,供后续恢复使用。在 Alibaba 内部,我们使用的存储主要是 HDFS,当同一个集群的 Job 到达一定数量后,会对 HDFS 造成非常大的压力,本文将介绍一种大幅度降低 HDFS 压力的方法——小文件合并。背景不管使用 FsStateBackend、RocksDBStateBackend 还是 NiagaraStateBacken原创 2020-10-24 00:05:39 · 1233 阅读 · 0 评论 -
基于 Apache Flink 的大规模准实时数据分析平台
一、Lyft 的流数据与场景关于 LyftLyft 是位于北美的一个共享交通平台,和大家所熟知的 Uber 和国内的滴滴类似,Lyft 也为民众提供共享出行的服务。Lyft 的宗旨是提供世界最好的交通方案来改善人们的生活。Lyft 的流数据场景Lyft 的流数据可以大致分为三类,秒级别、分钟级别和不高于 5 分钟级别。分钟级别流数据中,自适应定价系统、欺诈和异常检测系统是最常用的,此外还有 Lyft 最新研发的机器学习特征工程。不高于 5 分钟级别的场景则包括准实时数据交互查...原创 2020-10-24 00:05:27 · 617 阅读 · 0 评论 -
美团点评基于 Flink 的实时数仓平台实践
数据仓库的建设是“数据智能”必不可少的一环,也是大规模数据应用中必然面临的挑战,而 Flink 实时数仓在数据链路中扮演着极为重要的角色。本文中,美团点评高级技术专家鲁昊为大家分享了美团点评基于 Apache Flink 的实时数仓平台实践。本文授权转自社区公众号,原文地址目录:一、美团点评实时计算演进美团点评实时计算演进历程在 2016 年,美团点评就已经基于 Storm 实时计算引擎实现了初步的平台化。2017 年初,我们引入了 Spark Streaming 用于特定场景的原创 2020-10-24 00:05:13 · 377 阅读 · 1 评论 -
Flink 维表关联多种方案对比
提到 Flink SQL 如何 Join 两个数据流,有读者反馈说如果不打算用 SQL 或者想自己实现底层操作,那么如何基于 DataStream API 来关联维表呢?实际上由于 Flink DataStream API 的灵活性,实现这个需求的方式是非常多样的,但是大部分用户很难在设计架构时就考虑得很全面,可能会走不少弯路。针对于此,笔者根据工作经验以及社区资源整理了用 DataStream 实现 Join 维表的常见方式,并给每种的方式优劣和适用场景给出一点可作为参考的个人观点。衡量指标总原创 2020-10-24 00:05:00 · 3370 阅读 · 2 评论 -
趣头条基于 Flink+ClickHouse 构建实时数据分析平台
一、业务场景与现状分析趣头条查询的页面分为离线查询页面和实时查询页面。趣头条今年所实现的改造是在实时查询中接入了 ClickHouse 计算引擎。根据不同的业务场景,实时数据报表中会展现数据指标曲线图和详细的数据指标表。目前数据指标的采集和计算为每五分钟一个时间窗口,当然也存在三分钟或一分钟的特殊情况。数据指标数据全部从 Kafka 实时数据中导出,并导入 ClickHouse 进行计算。二、Flink-to-Hive 小时级场景1.小时级实现架构图如下图所示,Database 中.原创 2020-10-24 00:04:42 · 540 阅读 · 0 评论 -
Flink 流批一体的实践与探索
自 Google Dataflow 模型被提出以来,流批一体就成为分布式计算引擎最为主流的发展趋势。流批一体意味着计算引擎同时具备流计算的低延迟和批计算的高吞吐高稳定性,提供统一编程接口开发两种场景的应用并保证它们的底层执行逻辑是一致的。对用户来说流批一体很大程度上减少了开发维护的成本,但同时这对计算引擎来说是一个很大的挑战。作为 Dataflow 模型的最早采用者之一,Apache Flink 在流批一体特性的完成度上在开源项目中是十分领先的。本文将基于社区资料和笔者的经验,介绍 Flink 目前(1原创 2020-10-24 00:04:33 · 896 阅读 · 0 评论 -
日均万亿条数据如何处理?爱奇艺实时计算平台这样做
1.爱奇艺 Flink 服务现状爱奇艺从 2012 年开始开展大数据业务,一开始只有二十几个节点,主要是 MapReduce、Hive 等离线计算任务。到 2014 年左右上线了 Storm、Spark 实时计算服务,并随后发布了基于 Spark 的实时计算平台 Europa。2017 年开始引入 Flink,用来替代部分 Spark Streaming 场景,满足更低延迟的实时计算需求。在这之后,相继推出流式 SQL 引擎、实时分析平台、实时数据生产平台等一系列工具,用来提升实时计算开发效率。原创 2020-10-24 00:04:21 · 452 阅读 · 0 评论 -
基于 Flink 和 Drools 的实时日志处理
背景日志系统接入的日志种类多、格式复杂多样,主流的有以下几种日志: filebeat采集到的文本日志,格式多样 winbeat采集到的操作系统日志 设备上报到logstash的syslog日志 接入到kafka的业务日志 以上通过各种渠道接入的日志,存在2个主要的问题: 格式不统一、不规范、标准化不够 如何从各类日志中提取出用户关心的指标,挖掘更多的业务价值 为了解决上面2个问题,我们基于flink和drools规则引擎做了实时的日志处理服务。原创 2020-10-24 00:04:11 · 695 阅读 · 0 评论 -
你公司到底需不需要引入实时计算引擎?
前言小田,你看能不能做个监控大屏实时查看促销活动销售额(GMV)?小朱,搞促销活动的时候能不能实时统计下网站的 PV/UV 啊?小鹏,我们现在搞促销活动能不能实时统计销量 Top5 啊?小李,怎么回事啊?现在搞促销活动结果服务器宕机了都没告警,能不能加一个?小刘,服务器这会好卡,是不是出了什么问题啊,你看能不能做个监控大屏实时查看机器的运行情况?小赵,我们线上的应用频繁出现 Error 日志,但是只有靠人肉上机器查看才知道情况,能不能在出现错误的时候及时告警通知?小夏,我们 1原创 2020-10-24 00:04:02 · 303 阅读 · 0 评论 -
新一代大数据实时数据架构
随着互联网的发展进入下半场,数据的时效性对企业的精细化运营越来越重要, 商场如战场,在每天产生的海量数据中,如何能实时有效的挖掘出有价值的信息, 对企业的决策运营策略调整有很大帮助。此外,随着 5G 技术的成熟、广泛应用, 对于工业互联网、物联网等数据时效性要求非常高的行业,企业就更需要一套完整成熟的实时数据体系来提高自身的行业竞争力。本文从上述现状及实时数据需求出发,结合工业界案例、笔者的实时数据开发经验, 梳理总结了实时数据体系建设的总体方案,本文主要分为三个部分: 第一部分主要介绍了当下在工原创 2020-10-23 00:53:57 · 381 阅读 · 0 评论