SRE(SiteReliabilityEngineering)是Google于2003年提出的概念,将软件研发引入运维工作。现在渐渐已经成为各大互联网公司技术团队的标配。美团点评作为综合性多业务的互联网+生活服务平台,覆盖“吃住行游购娱”各个领域,SRE就会面临一些特殊的挑战。业务量的飞速增长,机器数量剧增,导致人工维护成本增大;而交易额的增长,对SLA的要求也不断提高。与此同时,一些新业务会面临大流量冲击,资源调度的挑战也随之增大。业务类型复杂多样、业务模型千差万别,对应的技术方案也多种多样,因此SRE的整体维护成本大大提高。根 【美团点评的SRE发展与实践】 SRE(Site Reliability Engineering)是Google提出的一种运维理念,它将软件工程的方法引入到系统运维中,旨在提高服务的可用性和稳定性,同时降低运营成本。随着互联网行业的快速发展,SRE已经成为大型互联网公司的标准配置。美团点评作为一个综合性的互联网+生活服务平台,其业务涵盖了餐饮、住宿、出行、旅游、购物和娱乐等多个领域,这就给SRE带来了独特的挑战。 面对业务量的快速增长和机器数量的急剧增加,美团点评的SRE团队需要应对人工维护成本上升和SLA(Service Level Agreement,服务等级协议)提升的压力。新业务可能会遭受大流量冲击,资源调度问题也日益突出。由于业务类型的多样化和业务模型的差异性,技术方案也相应复杂,导致整体维护成本大幅增加。 为了解决这些挑战,美团点评的SRE实践主要围绕以下几个核心原则: 1. **稳定**:确保服务的高可用性是SRE工作的核心,任何优化和改进都应以此为基础。 2. **效率**:提升云主机交付效率,优化内部系统,以实现快速响应和高效运维。 3. **成本**:以最小的硬件投入提供最优质的服务,降低成本的同时保证服务质量。 美团点评的SRE历程可以分为以下几个阶段: 1. **手工时代**:早期采用简单的4层负载均衡,静态资源通过缓存处理,动态请求运行在LAMP架构下。运维工作主要是手工操作,没有专门的运维系统。 2. **云基础设施**:随着业务发展,架构逐渐转向微服务化,引入了Java、Python、C++等多种开发语言。2014年后,所有业务迁移到云端,通过云平台提供的统一接口进行资源管理。同时,SRE团队成立,负责业务侧的运维工作,包括机器环境、架构优化和问题处理。 在构建云基础设施的过程中,美团点评遇到了一些问题,例如资源隔离、VM打散和调度成功率低。为了解决这些问题,SRE团队进行了以下优化: - **资源隔离**:通过设置VM的网络资源配额,并根据业务特性划分宿主集群,避免资源争抢导致的服务中断。 - **VM打散**:通过优化调度策略,确保同一服务的VM分散部署,降低单点故障的风险。 - **调度成功率**:与云计算团队合作,提升了VM调度的成功率,目前达到3个9的水平,提高了服务的可靠性。 此外,美团点评的云计算基础设施采用了高冗余的网络架构,包括多机房高速专线和自研的组件,如MGW和NAT,以增强流量管理和网络稳定性。 通过不断优化和改进,美团点评的SRE实践不仅提升了服务的稳定性和效率,也在成本控制方面取得了显著成效。这表明,SRE在复杂多变的互联网业务环境中,对于保障服务质量和业务连续性起着至关重要的作用。


剩余6页未读,继续阅读

















- 粉丝: 4
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源
- 网络信息安全讲义.ppt
- 高中物理深度学习策略研究.docx
- 软件开发成本估算(20211215121701).pdf
- 电力二次系统安全防护事故处置演练.doc
- 蚁群算法最优路径.doc
- 现代项目管理理论与实践标准.doc
- 论网络人际互动结构的基本构成[最终版].pdf
- 高中信息技术-合法下载网络中的文件课件-粤教版选修3.ppt
- 算法设计与分析期末试卷A卷完整含答案.pdf
- 用MATLAB进行AR模型功率谱分析.doc
- 无线网络优化行业概述.ppt
- 软件公司职位说明书.doc
- CAD工程师精髓.doc
- 热工过程自动化.ppt
- 2022年注册监理工程师网络继续教育市政试卷及答案要点.doc
- 工程项目管理整套教学课件.ppt



评论0