百度大规模在离线混部系统架构演进

合集下载

百度文库系统架构

源的动态管理和调度。利用虚拟化技术和容器化技术，提高服务器资源的利用率和灵活性。通过自动化运维和监控系统，确保系统的稳定性和可用性。
基于MySQL+PHP的技术架构体系，使用了thinkphp框架
服务层
用户认证服务、文档存储服技术架构体基于MySQL+PHP的技术架构体系，其中MySQL是一种关系型数据库管理系统。thinkphp是一种基于MVC模式的PHP开发框架，它提供了一系列的工具和方法，使得开发者可以更加高效地进行Web应用程序的开发。
核心技术存储在多个节点上，保证数据的安全性和可靠性。同时，通过负载均衡技术，实现文件存储的高效利用和带和关键词检索。通过建立索引和优化查询算法，实现快速准确的文档检索和匹配。同时，支持对文档内容的关键词提取和推荐，提高用户搜核和管理，防止恶意文件上传和不良内容传播。采用基于深度学习的图像识别和文本分类技术，对文档内容进行智能识别和分类，确保文档的安全性和行处理和分析。利用分布式计算框架和数据挖掘算法，实现数据的实时处理和价值挖掘。通过对用户行为数据的分析，优化用户体验和资源推荐。
业务层
位于应用层的下一层，主要负责处理业务逻辑和业务规则。这一层并不依赖于具体的用户界面或数据存储方式，而是独立于应用层，可以被多个应用层共享和复用。业务层的作用是对外提供服务，处理和执行业务逻辑
数据层
系统的最底层，主要负责数据的存储、检索、处理和保护等。数据层可以包含数据库管理系统、文件系统、分布式存储系统和其，为用户提供海量的文档资源共享与阅读服务。其系统架构设计以及所涉及的核心技术，旨在实现高效、稳定、安全地提供文档上传、存储、管理、检索、阅读等一站式服务。
基础设施层
包括服务器、网络设备、存储设备等，提供计算、存储、网络等基础设

百度X_精品文档

百度X当地时间12月2日，在加拿大举行的第32届NeurIPS神经信息处理系统大会上，百度正式发布自主研发的超级AI计算平台X-MAN3.0。

该平台专为AI深度学习场景优化设计，每秒完成2000万亿次深度神经网络计算，极大的加快了AI深度学习模型的训练速度。

NeurIPS作为机器学习和神经计算领域的顶级会议，吸引了机器学习、人工智能、统计等领域的众多国际专家参与。

近年来，在计算机视觉、语音识别、自然语言处理等领域也出现了大量的创新应用，NIPS在AI深度学习领域的学术影响力变得举足轻重。

算法、数据和计算是推动AI深度学习技术快速发展的三大要素。

为支持更强的泛化能力，更高的预测精度，算法模型日趋复杂，越来越多的数据需要被及时标注和处理，计算性能成为关键。

百度X-MAN 超级AI计算平台提供极致的计算性能，支持超大复杂算法模型，能够快速及时处理海量数据。

自2016年诞生以来，百度X-MAN超级AI计算平台历经3代发展，3次架构升级，创造6项业界第一，同时期关键技术&性能保持领先，引领行业发展趋势。

目前，X-MAN 系列产品已在百度大规模应用，正在助力百度AI战略快速落地。

X-MAN解决的3大关键技术挑战为提供更强的计算性能和最佳的计算效率，X-MAN在系统设计中面临了三大关键技术的挑战：如何有效提升单机计算性能、如何实现多机加速的高可扩展性以及如何均衡CPU与AI加速芯片的配比关系，以避免系统瓶颈。

在有限的单机空间内，集成更多数量、性能更强、互联带宽更高的AI加速卡，是提升单机计算性能的直接手段，但带来了高速互联、结构、散热、供电等硬件技术难题；单机训练方式难以满足超大规模数据集和复杂的模型场景下的计算力需求，大规模分布式训练成为必然，解决多机加速的可扩展性就成了关键技术难题；深度学习模型的负载差异较大，CPU密集型，计算密集型，通信密集型，存在着多种需求场景，为了避免系统性能瓶颈、充分发挥计算效率，如何快速灵活的调整CPU和AI计算芯片的配比并支持独立迭代升级成了关键的技术难题。

百度的分布式文件系统之路

MFS的问题和改进
• 问题 • Master元信息单点 • Master单线程性能瓶颈 • 修复与写入互斥
• 改进 • poll->epoll • 调大hash桶 • fuse调参
CCDB存储体系
Table
File
Object
Permission
Isolation
Priority
Replication
MFS
• 简介 • MFS是MooseFS的简称，是一个分布式网络文件系统，将数据切片分散到多个存储设备上实现数据容错，可以像本地文件系统一样进行挂载使用。
• 特点 • 类GFS的开源C实现 • 通用文件系统(POSIX支持) • 高易用性(Mount、Trash、Snapshot……)
MFS的读写流程
CCDB-NFS架构
• Master • 目录树 • 集群管理
• FileServer • 文件元信息 • 文件数据
CCDB-NFS链式复制
• 链式复制 • Primary最后Commit • 读Primary强一致 • 选主简化
CCDB-NFS的多租户支持
• User • Region • ACL • Quota
Recovery
Control
Table Engine
File Engine
KV Engine
Replica Block System
Raid-like Block System
Memory
SSD
Disk
Interface Platform Distributed Engine Block Hardware
AFS压缩支持
• DataNode透明压缩 • Client写入时压缩 • 分级压缩(LZ4/LZO->LZMA)

大数据离线计算平台流式Shuffle服务

环境初始化
机器故障自动化
机器自动流转
结算
高精硬件
FPGA
GPU整机柜背景-大数据计算平台C++
API层
Python
Java
……
Simplified Unified API
计算引擎
TM
DStream
DCE
(MR/DAG)
MPI/E LF
Spark
资源调度资源管理机器资源
Normandy
Session更新
状态汇报
• 数据缓存与异步发送
Session A Shuffler分配信息 Shuffler状态
• 异常处理
Process
K V
WriterBuffer
DataSender
rpc
Shufflers
Session B K V WriterBuffer DataSender
Shuffler分配信息引擎
背景-一般的Shuffle模式
Mapper
Mapper
Mapper
Reducer
Reducer
目录
• 背景 • 架构 • 关键技术 • 收益与总结 • 下一步计划
架构
架构
Control message Data Flow
JobMaster
ShardID SWID Primary
• 负载均衡
• 负载均衡
• Shuffler • Shard
pushShuffleWorkerInfo
1. Writer上报ShufflerException 2. Shuffler上报负载情况
pushSessionUpdate DataCollector RpcServer pushMapp

百度腾讯系统架构演化

看看腾讯、百度等这样的大型网站系统架构是如何演化的2014-9-29 01:01|发布者: 田云|查看: 715|评论: 0摘要: 前言一个成熟的大型网站(如淘宝、天猫、腾讯等)的系统架构并不是一开始设计时就具备完整的高性能、高可用、高伸缩等特性的，它是随着用户量的增加，业务功能的扩展逐渐演变完善的，在这个过程中，开发模式、 ...前言一个成熟的大型网站(如淘宝、天猫、腾讯等)的系统架构并不是一开始设计时就具备完整的高性能、高可用、高伸缩等特性的，它是随着用户量的增加，业务功能的扩展逐渐演变完善的，在这个过程中，开发模式、技术架构、设计思想也发生了很大的变化，就连技术人员也从几个人发展到一个部门甚至一条产品线。

所以成熟的系统架构是随着业务的扩展而逐步完善的，并不是一蹴而就;不同业务特征的系统，会有各自的侧重点，例如淘宝，要解决海量的商品信息的搜索、下单、支付，例如腾讯，要解决数亿用户的实时消息传输，百度它要处理海量的搜索请求，他们都有各自的业务特性，系统架构也有所不同。

尽管如此我们也可以从这些不同的网站背景下，找出其中共用的技术，这些技术和手段广泛运用在大型网站系统的架构中，下面就通过介绍大型网站系统的演化过程，来认识这些技术和手段。

一、最开始的网站架构最初的架构，应用程序、数据库、文件都部署在一台服务器上，如图：二、应用、数据、文件分离随着业务的扩展，一台服务器已经不能满足性能需求，故将应用程序、数据库、文件各自部署在独立的服务器上，并且根据服务器的用途配置不同的硬件，达到最佳的性能效果。

三、利用缓存改善网站性能在硬件优化性能的同时，同时也通过软件进行性能优化，在大部分的网站系统中，都会利用缓存技术改善系统的性能，使用缓存主要源于热点数据的存在，大部分网站访问都遵循28原则(即80%的访问请求，最终落在20%的数据上)，所以我们可以对热点数据进行缓存，减少这些数据的访问路径，提高用户体验。

缓存实现常见的方式是本地缓存、分布式缓存。

互联网架构的演变过程（一）

互联⽹架构的演变过程（⼀）简介web1.0时代web2.0时代互联⽹时代互联⽹+ --》智慧城市。

2012年提出。

云计算+⼤数据时代背景随着互联⽹的发展，⽹站应⽤的规模不断扩⼤，常规的垂直应⽤架构已⽆法应对，分布式服务架构以及流动计算架构势在必⾏，亟需⼀个治理系统确保架构有条不紊的演进。

1、第⼀时期单⼀应⽤架构all in one(所有的模块在⼀起，技术也不分层)⽹站的初期，也认为互联⽹发展的最早时期。

会在单机部署上所有的应⽤程序和软件。

所有的代码都是写在JSP⾥⾯，所有的代码都写在⼀起。

这种⽅式称为all in one。

特点：1、不具备代码的可维护性。

2、容错性差。

因为我们所有的代码都写在JSP页⾥。

当⽤户或某些原因发⽣异常。

（1、⽤户直接看到异常错误信息。

2、这个错误会导致服务器宕机）容错性，是指软件检测应⽤程序所运⾏的软件或硬件中发⽣的错误并从错误中恢复的能⼒，通常可以从系统的可靠性、可⽤性、可测性等⼏个⽅⾯来衡量。

单体地狱。

:只需⼀个应⽤，将所有功能都部署在⼀起，以减少部署节点和成本。

2 第⼀时期后阶段解决⽅案:1、分层开发（提⾼维护性）【解决容错性】2、MVC架构（Web应⽤程序的设计模式）3、服务器的分离部署特点：1、MVC分层开发（解决容错性问题）2、数据库和项⽬部署分离问题：随着⽤户的访问量持续增加，单台应⽤服务器已经⽆法满⾜需求。

解决⽅案：集群。

3 可能会产⽣的⼏个问题：1.1. ⾼可⽤“⾼可⽤性”（High Availability）通常来描述⼀个系统经过专门的设计，从⽽减少停⼯时间，⽽保持其服务的⾼度可⽤性。

(⼀直都能⽤)1.2. ⾼并发⾼并发（High Concurrency）是互联⽹分布式系统架构设计中必须考虑的因素之⼀，它通常是指，通过设计保证系统能够同时并⾏处理很多请求。

⾼并发相关常⽤的⼀些指标有响应时间（Response Time），吞吐量（Throughput），每秒查询率QPS（Query Per Second），并发⽤户数等。

大数据离线计算平台介绍

中间数据持久化：
避免重算（对daDCE揭秘 • 统一分布式计算引擎API-Bigflow
需求
• 学习成本：
• 学习使用、学习优化
Hadoop
一套逻辑，重写再重写
Spark
未来某种新的计算引擎
• 迁移成本：
• 单机作业迁移分布式、流式与批量迁移、新引擎迁移大数据离线计算平台介绍目录
• 离线大数据平台发展历程 • 离线计算引擎DCE揭秘 • 统一分布式计算API-Bigflow私有云产品生态搜索
金融
糯米
AI
开放云
ADU
分布式计算
服务托管研发效率相关工具 Batch RealTime Iterative
分布式存储
Ojbect Table NFS
批量计算引擎
提升时效性
实时计算引擎
• 维护成本：
• 用户作业维护、引擎演化兼容维护
恢复故障数据、提升结果准确性一套逻辑，同时需要维护两个系统上完全不同的代码
统一分布式计算API
•
统一分布式计算API-Bigflow：
– 统一流式和批处理计算模型 – 自动优化用户代码 – 针对引擎特性，进一步优化执行 – 简单易学，高层抽象API
环境初始化
结算
高精硬件
FPGAGPU整机柜大数据计算平台Python
API层
C++
Java
……
Simplified Unified API - Bigflow
计算引擎
TM
DStream
DCE
(MR/DAG)
MPI/ ELF
Spark/ Flink
资源调度资源管理机器资源

百度的下一个15年

。
“
希望不久的将来
，
每
一
个普通患者通过互联
”
。
在公司年会上
｜
，
李彦宏掷地有声
１
网
，
都能获得权威医疗机构的救助
李彦宏表示
，
与
ｔ＝ｃｒＨ？＋＋？＊５５３０１［＝
医院共建网上医疗服务平台
１
￥动医疗和？＃硬件的发展将＃效利用医４的＠片
、
员身份公布了自己的
医院挂号号源
，
两会
”
提案
，
建议全面开放事业部ＬＢＳ事业部等组织架构。
、
—
取消部分地区对商业机构开展网络如今问题逐渐显现以产品驱动的事业群
，，，，
管理架构在２０１５年依然会发挥高效率吗同几挂号业务的限制借助社会力量优化医疗资源配置
找到所求
而新的
１
５
年
，
百度则会更进
一
步解我国医疗卫生领域的信息化还处于粗放阶段
一
，
决人与服务的连接问题
“
。
直是政策破冰的难点
。
而李彦宏的目的
，
是综
语音和图像将成为未来人们表达需求的主要合最强的信息技术公司及最强的医疗服务机构

参考答案百度云

参考答案百度云参考答案百度云百度云是中国最大的云计算服务提供商之一，为个人用户和企业用户提供了丰富的云存储、云计算和云服务解决方案。

在如今信息技术高速发展的时代，云计算已经成为了许多企业和个人的首选。

百度云作为国内云计算领域的重要参与者，为用户提供了稳定可靠的云服务，取得了良好的口碑和用户认可。

首先，百度云提供了强大的云存储功能。

用户可以通过百度云将自己的文件、照片、音乐等数据存储在云端，随时随地进行访问和管理。

无论是个人用户还是企业用户，都可以通过百度云实现文件的备份、同步和共享。

这样一来，用户不再需要依赖于传统的物理存储设备，如硬盘、U盘等，而是可以将自己的数据存放在云端，更加安全可靠。

其次，百度云还提供了灵活多样的云计算服务。

用户可以根据自己的需求，选择适合自己的云计算解决方案。

百度云提供了基础设施即服务（IaaS）、平台即服务（PaaS）和软件即服务（SaaS）等多种服务模式，满足不同用户的需求。

无论是个人用户还是企业用户，都可以通过百度云轻松搭建自己的云计算环境，提高工作效率和资源利用率。

此外，百度云还为用户提供了丰富的云服务。

用户可以通过百度云获取各种各样的服务，如人工智能、大数据分析、物联网等。

百度云与百度公司的其他业务相互融合，为用户提供了更加全面和多样化的服务。

无论是个人用户还是企业用户，都可以通过百度云获得更好的用户体验和服务质量。

总的来说，百度云作为中国最大的云计算服务提供商之一，为用户提供了稳定可靠的云存储、云计算和云服务解决方案。

用户可以通过百度云实现文件的备份、同步和共享，搭建自己的云计算环境，获取丰富的云服务。

百度云的出现，为用户带来了更加便捷和高效的工作方式，也推动了中国云计算产业的发展。

然而，百度云也面临着一些挑战和问题。

首先，随着云计算的快速发展，云安全问题也日益凸显。

用户的数据存放在云端，安全性成为了关注的焦点。

百度云需要加强安全技术的研发和应用，确保用户的数据得到有效的保护。

技术细则百度

技术细则百度1. 简介本文档旨在介绍百度公司的技术细则，包括其技术架构、开发规范以及数据安全等方面的内容。

百度是中国领先的互联网公司，提供涵盖搜索引擎、在线地图、在线音乐和视频、电子商务等多个领域的产品和服务。

2. 技术架构百度公司的技术架构采用分布式系统和云计算技术为基础，具有高可用性、可扩展性和灵活性。

以下是其主要组成部分：2.1 分布式存储百度采用分布式存储系统来处理海量数据的存储和访问。

其存储系统具有良好的扩展性和冗余性，能够处理高并发的读写请求，并保证数据的一致性和可靠性。

2.2 分布式计算百度的计算系统基于分布式计算框架，能够进行大规模的数据处理和计算任务。

通过将计算任务划分成多个子任务，并分发到不同的计算节点上执行，可以提高计算效率和处理能力。

2.3 服务治理百度采用微服务架构来实现服务的拆分和管理。

每个服务由一个或多个微服务组成，通过服务治理系统进行统一管理和监控。

服务治理系统包括服务注册中心、配置中心、负载均衡和故障恢复等组件。

2.4 数据安全百度对数据安全非常重视，采用多层次的安全策略和技术来保护用户数据。

包括数据加密、访问控制、安全审计等措施，以确保数据的机密性、完整性和可用性。

3. 开发规范为了保证代码的质量和可维护性，百度制定了一系列的开发规范和最佳实践。

以下是一些主要的开发规范：3.1 代码规范百度采用统一的代码风格和命名规范，以提高代码的可读性和一致性。

包括缩进、命名规则、注释规范等方面的规范。

3.2 测试规范百度鼓励开发人员编写单元测试和集成测试来保证代码的质量。

测试代码要覆盖尽可能多的场景和边界条件，并进行持续集成和自动化测试。

3.3 文档规范百度强调文档的重要性，要求开发人员编写清晰、详细的文档来记录代码和系统的设计。

文档要包括设计思路、接口说明、使用方法等内容。

3.4 版本控制百度使用分布式版本控制系统来管理代码，每个项目都有自己的代码仓库。

开发人员提交代码前需要进行代码审查，并遵循代码合并和发布的流程。

百度百科（DCS）

DCS求助编辑百科名片DCS是分布式控制系统的英文缩写（Distributed Control System），在国内自控行业又称之为集散控制系统。

即所谓的分布式控制系统，或在有些资料中称之为集散系统，是相对于集中式控制系统而言的一种新型计算机控制系统，它是在集中式控制系统的基础上发展、演变而来的。

它是一个由过程控制级和过程监控级组成的以通信网络为纽带的多级计算机系统，综合了计算机，通信、显示和控制等4C技术，其基本思想是分散控制、集中操作、分级管理、配置灵活以及组态方便。

目录数字蜂窝系统分布式控制系统基本介绍形态组成具体含义发展历史第一阶段第二阶段第三阶段特点介绍高可靠性开放性灵活性易于维护协调性控制功能齐全DCS的结构国内外应用分散控制系统流程工业CIMS主要厂家相关问答相关控制系统总述PLCFCS系统差异应用差异发展前景结论下坡缓速控制（DCS)记录仪（超小型DCS）数字蜂窝系统分布式控制系统基本介绍形态组成具体含义发展历史第一阶段第二阶段第三阶段特点介绍高可靠性开放性灵活性易于维护协调性控制功能齐全DCS的结构国内外应用分散控制系统流程工业CIMS主要厂家相关问答相关控制系统总述PLCFCS系统差异应用差异发展前景结论下坡缓速控制（DCS)记录仪（超小型DCS）展开编辑本段数字蜂窝系统DCS （Digital Cellular System ）数字蜂窝系统简称DCS ，常见于手机频率。

如DCS1800 编辑本段分布式控制系统基本介绍首先，DCS的骨架—系统网络，它是DCS的基础和核心。

由于网络对于DCS整个系统的实时性、可靠性和扩充性，起着决定性的作用，因此各厂家都在这方面进行了精心的设计。

对于DCS的系统网络来说，它必须满足实时性的要求，即在确定的时间限度内完成信息的传送。

这里所说的“确定”的时间限度，是指在无论何种情况下，信息传送都能在这个时间限度内完成，而这个时间限度则是根据被控制过程的实时性要求确定的。

bds发展历程

bds发展历程BDS，全称为百度地图服务，是一款地图导航服务，也是中国自主研发的大数据、云计算和人工智能技术的重要代表。

在BDS发展历程中，可以看到其从无到有、从萌芽到成长的全过程，它已经成为了中国智慧城市建设的重要一环。

第一步：诞生与起步（2005-2011年）在BDS最初的阶段，百度地图主要提供简单的地图与路线图服务。

随着移动互联网的兴起，百度地图也相应地推出了地图应用程序，使当时的移动互联网用户能够更加便捷地在出行中使用地图应用。

同时，百度还引入了实时路况查询和公交线路查询等新功能，为用户出行提供了更加全方位和便利的服务。

第二步：国际化布局（2012年-今）2012年，百度地图正式推出了海外版，进军全球市场。

这也是BDS国际化迈出的第一步。

海外版地图除了支持多语言外，还增加了包括路况、公交线路、驾车路线导航等多项功能。

随后，BDS陆续在港澳台地区、泰国等地展开业务，不断拓展业务范围和服务深度。

第三步：技术升级与创新（2014年-今）2014年，BDS推出了全新空间计算平台——BDS开放平台。

该平台主要为广大的开发者提供了一系列的API接口，以便于他们能够针对自身的业务需求，量身定制和开发地图应用程序。

同时，BDS还推出了“个人地图”、“家庭地图”和“小区地图”等新概念，让用户可以根据个人需求自由配置地图服务，实现个性化服务。

第四步：智能进化与更新（2016年-今）2016年，BDS正式推出了融合业务架构——百度地图4.0版本。

该版本不仅减少了体积空间，还融合了人工智能技术，提升了用户体验。

通过对用户行为数据的学习和分析，BDS能够预测用户行动轨迹，计算出最优路线，极大地提高了用户的使用效率。

紧接着，BDS又推出了语音交互功能、热力图等新功能，并不断进行技术创新和更新。

BDS的发展不断从无到有，其背后离不开百度公司丰富的技术储备和前瞻性的发展策略，还有众多专业人才的付出和共同努力。

在未来，必将会有更多的BDS智慧技术应用到智慧城市中，让百度地图更加符合人们的需求，为人们提供更加便捷、高效、安全的出行服务。

百度发展历程

百度发展历程百度是中国最大的互联网搜索引擎，也是全球最大的中文搜索引擎。

百度的发展历程可以追溯到1999年，当时一个叫李彦宏的年轻人在北京大学的教室里，想到了一个想法：希望能够找到一种更好的方法来获取互联网上的信息。

他决定放弃工作，创立自己的公司。

从那一刻起，百度的发展之路开始了。

百度的发展过程可以分为三个阶段：初创期、高速发展期和全面布局期。

初创期（1999-2005年）：百度的最初版本名为“中文在线”，创始团队通过人工采集和整理的方式提供搜索服务。

2000年，百度推出了第一个独立的全文搜索引擎“百度网盘”，这标志着百度的正式面世。

然而，在刚刚开始的时候，百度面临着巨大的竞争压力，无法与当时的搜索巨头谷歌和雅虎抗衡。

但是，百度团队没有放弃，他们始终坚持不断创新和改进，逐渐壮大起来。

高速发展期（2005-2010年）：2005年，百度成功上市，成为中国互联网公司中的龙头企业。

随着中国互联网用户数量迅速增加，百度利用其先发优势越来越深入人心。

他们推出了一系列新产品和服务，包括贴吧、知道、文库等，并通过收购糯米网等公司扩大了自己的业务范围。

在这个阶段，百度的市值迅速增长，成为中国互联网行业的领军企业。

全面布局期（2010年至今）：在过去的几年里，百度继续向其他领域扩张，以实现全面布局。

他们进入了移动互联网领域，推出了百度手机助手、百度地图等产品，与智能手机制造商合作，成为中国手机市场的顶尖品牌。

此外，百度还进军人工智能领域，推出了自动驾驶技术、人工智能助手等产品，并投资了很多人工智能初创公司。

百度还积极拓展海外市场，与国际合作伙伴合作，共同推动全球互联网的发展。

百度的发展历程充满艰辛与挑战，但也充满了机遇与希望。

从最初的一个想法到如今的全球领先，百度始终坚持不懈地追求技术创新和优质服务。

相信在不远的将来，百度将继续引领中国互联网行业的发展，为用户提供更便捷、高效的搜索和服务。

百度大规模在离线混部系统架构演进

超发 • 用户行为：request – used > 0 • 超发：total’ = total + sum(request – used) • 约束：sum(STABLE) < total
request
used
物理机
!STABLE STABLE
调度器
混部的核心思路
单机隔离
响应及时，快速避让！
集群调度
Task
离线作业 Task
Task
Task Task
Task
Task Task
离线框架
隔离：更加精细的管控策略
• CPU：
• 1）离线大框绑核：根据单机reclaim资源量；离线内共享； • 2）core-aware：快退避，慢启动，避免HT干扰； • 3）HT干扰规避：自动从迁移离线作业，避免和在线服务干扰； • 4）L3-cache：CAT隔离； • 5）CPI干扰抑制：检测、干扰源识别、避让；
响应慢，但是有规划的调度
隔离：保证在线不受影响
• 基本思路： • 1）内核和用户态管控 • 2）离线“大框”模型
• CPU：大框绑核 • 内存：大框硬限 • IO：隔离磁盘、计算框架优化 • 网络：QoS、Transkeeper
• 兜底策略：单机SLA
Watch-Dog
在线服务
S1
S2
S3
S3
S3
2014年
• Matrix上线 • 离线计算混部
• Normandy
• 在离线混部（千寻）上线
• 规模1万
2017年
• 混部规模达5万台
• 在线合池启动
2019年
• 混部规模达10 万台
• 机器默认交付

百度大数据首席架构师林仕鼎：新计算时代

以下为演讲实录：百度的大数据系统有两个典型的应用：第一是面向用户的服务，主要包括logic、cache、data这样的技术，绝大多数应用通常放在MySql、Nosql里面。

这种应用的特点是每次用户查询来的时候我可能对于这个logic要求比较好，这个好处就是一个PC并不需要访问很多的数据。

用户可能会有一些突发性的增长，就是尖峰的到来使这个系统压力变得更大。

还有一种典型应用是搜索引擎，通常来说它有几部分。

我们希望从网络中爬那个数据，爬下来之后放在大的网页库里面，对网页库进行挖掘和分析，把那些作弊的网页去掉，找到每一个页面全值对它进行监控，进大排表。

这里有几个不一样的地方，用户查询来的时候会访问大排表，但是每一次的访问对大排表的数据基本上每台机器都要访问到，另外后面处理是不间断的进行的，我们要把网页更新抓下来放到网页库分析。

到中间有一个大的存储，逐渐又要发展成更实时的结构，我们希望借助更新的变化可以更快反馈到用户这边来，比如说谷歌做的系统就是这样的。

这两类应用都有一些特点：首先，越来越多的Workload转向离线数据处理。

百度开始就是后台处理机器比用户服务机器多的公司。

我们关注怎么帮助用户存储UTC，怎么让他访问UTC，不一定跟钱有关系的交易，客户逻辑这些工作。

我们慢慢过渡到做大量的数据处理，数据处理从大规模越来越做得复杂、实时。

其次，随着我们对整个业界和数据越来越重视，每个公司的数据量都在增加，这是我们新应用的特点。

今天我们数据量大概是1000PB，每天我们处理100PB以上的数据，网页数量接近一万亿章，中文加其他语言的页面，每天我们响应请求数量也是在百亿的数量级。

我们这种请求跟普通用户的PV不一样的，因为每一次的查询是后面的这些机器，放到大排表的机器都需要访问一遍，每天产生一个TB的日志，这样的数据量大家可以看到会比一般公司高一到两个量级。

第三个应用的特点就是整个互联网的服务是以迭代式的方式开发的。

雅典娜方案

雅典娜方案1. 概述雅典娜方案是一种用于构建和部署机器学习模型的开源框架，由百度公司推出。

与其他机器学习框架相比，雅典娜具有更高的灵活性和可扩展性，可以支持大规模的分布式训练和推理。

本文档将详细介绍雅典娜方案的架构、特点和使用方式。

2. 架构雅典娜方案的架构包括以下几个核心组件：2.1. 训练组件训练组件是用于构建和训练机器学习模型的核心组件。

它提供了各种算法和工具，包括数据预处理、特征工程、模型选择和训练等功能。

雅典娜的训练组件可以支持分布式训练，可以将大规模的数据集分割为多个小批量进行训练，并且可以使用多台机器进行并行计算，以加快训练速度。

2.2. 推理组件推理组件用于将已经训练好的模型应用到新的数据上，生成预测结果。

雅典娜的推理组件可以支持在线推理和离线推理，可以根据需求选择最佳的推理模式。

推理组件还提供了模型服务的接口，可以将模型封装成可部署的服务，供其他应用程序调用。

2.3. 数据管理组件数据管理组件用于管理机器学习模型的输入和输出数据。

它可以支持多种数据源，包括本地文件、数据库、分布式文件系统等。

数据管理组件还提供了数据转换和数据清洗的功能，可以对输入数据进行预处理，以满足模型训练的要求。

2.4. 模型部署组件模型部署组件用于将已经训练好的模型部署到生产环境中。

它提供了简单易用的部署工具，可以将模型转换为可在生产环境中运行的格式，比如TensorFlow的SavedModel格式或ONNX的模型格式。

模型部署组件还提供了性能优化和资源管理的功能，以保证模型在生产环境中的高效运行。

3. 特点雅典娜方案具有以下几个重要特点：3.1. 开源雅典娜方案是一个开源项目，通过GitHub上的开源社区进行维护和更新。

用户可以自由地查看和修改源代码，以适应自己的需求。

同时，用户还可以贡献自己的代码和功能，为雅典娜方案的发展做出贡献。

3.2. 易用性雅典娜方案提供了简单易用的用户接口，使得用户可以轻松地构建和训练机器学习模型。

百度发展史

几亿网页搜索技到200亿美元，如此成就凭什么呢？
• • • • • •
云计算系统研发工程师数据中心基础架构研究工程师移动终端系统与应用研发工程师核心产品分析师交互设计师用户界面设计师
• • • • • •
用户研究工程师产品助理移动网络研发工程师客户端研发工程师电子商工的贡献与价值在薪酬上给予相应体现。由于技术人员有相应的职称评定，根据每个人的能力成长与业绩表现综合评定，会有相应的技术职称晋级。根据技术职称评定的结果，当员工具备晋级的资格时，薪资也会根据公学到很多，未来是属于我们的，你们准备好了吗？
谢谢
• 搜索集合竞价。简单的讲就是谁给的钱多，就把谁的信息放到显要外置。 • 为其他网站提供搜索服务，如搜狐，新浪， 236等供技术上的支持，以及服务，获得利润年1月创立于北京中关村，是全之后迅速占领市场。 2001年8月发布搜索引擎Beta版，从后台转向独立提供搜纳斯达克上市
根据技术职称评定的结果当员工具备晋级会为外地员工提供住房补贴以及解决外地生源的户口问题搜素是互联网时代甚至是整个信息时代一个非常基本的应用技术与成功之间是不能什招收许多的人才，他们招人的特点• 核心产品设计师核心产品运营师 Web前端研发工程师自然语言处理研发工程师信息检索技术研究员 Web研发工程师
• • • • • •
搜素引擎核心技术研发工程师开发测试工程师测试工程师运维开发休假，会为外地员工提供住房补贴，以及解决外地生源的户口问题
搜素是互联网时代，甚至是整个信息时代一个非常基本的应用
• 技术与成功之间是不能划等号的，还有另外一个因素，就是市场。如果说给个算式的话，我的这个算式就是：技术乘以市场需求应该等于成功。无论技术多先进，如果没有市场需求，企业是不能够走向成功的。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

计算框架(MR/Spark)的优化
• 避免本地磁盘IO： • 1）Shuffle由Pull变成Push • 2）通过FS（全内存）交换
• 减少重算： • 1）Map端节点挂掉重算 • 2）做好Backup
支撑系统建设
• 技术债： • 1）混部框架自动化入退场 • 2）机器环境一致性：网卡多队列、内
Task
离线作业 Task
Task
Task Task
Task
Task Task
离线框架
隔离：更加精细的管控策略
• CPU：
• 1）离线大框绑核：根据单机reclaim资源量；离线内共享； • 2）core-aware：快退避，慢启动，避免HT干扰； • 3）HT干扰规避：自动从迁移离线作业，避免和在线服务干扰； • 4）L3-cache：CAT隔离； • 5）CPI干扰抑制：检测、干扰源识别、避让；
D
D
D
D
SS
D
计算资源管理
问题
1. 磁盘调度是一个“超维” 问题
2. 磁盘利用率低
存储资源管理
效果
1. 磁盘管理调度扁平化 2. 提升磁盘管理效率
无差别混部
离线间混部在线间混部在离线混部
无差别混部
谢谢聆听！
• 内存：
• 1）离线大框嵌套：根据单机reclaim资源量；离线嵌套内存Cgroup； • 2）动态内存伸缩
避让：保证离线运行良好
• 精细的单机避让 • 1）可压缩资源优先压缩； • 2）不可压缩资源避让足量即可；
• 调度器优化 • 1）used = Max(used in last T) • 2）建立学习反馈闭环
核参数等等 • 3）资源化交付：资源订单至Quota交
付，业务看不见机器
目录
一、背景：为什么要做混部二、方案：混部架构和核心技术
三、展望：收益和未来展望
混部收益
混部集群CPU利用率大幅提升40-80%！离线预算节省服务器30000+台！
存储计算分离
计算
计算
计算
计算
计算
HD
HD
SS
HD
HD
D
2014年
• Matrix上线 • 离线计算混部
• Normandy
• 在离线混部（千寻）上线
• 规模1万
2017年
• 混部规模达5万台
• 在线合池启动
2019年
• 混部规模达10 万台
• 机器默认交付
混部技术栈
搜索
Feed
凤巢
在线服务
网盘
度秘
无人车
地图
离线作业
在线PaaS
(Opera、Beehive）
Matrix*-Scheduler
在线调度
MR/Spark
批量计算引擎
MPI/Paddle
机器学习框架
Normandy-Scheduler
离线调度
AFS
文件系统
容器引擎
Matrix-ResourceManager
实例管理
资源模型
资源隔离
镜像机制
机器自动维修
Matrix-Ultron
机器环境一致性
资源化交付流 2）容器化基础设施 • 3）混部隔离的基础设施
• 设计： • 1）容器引擎 • 2）镜像管理 • 3）实例管理 • 4）资源调度 • 5）隔离技术
Normandy
• 定位：离线调度系统 • 1）离线计算混部 • 2）混部的离线资源调度 • 3）Plugins on Matrix
一、背景：为什么要做混部二、方案：混部架构和核心技术
三、展望：收益和未来展望
在离线混部思路
• 定义
• 1）机房统一规划 • 2）业务混合运行
• 难点
• 1）保证在线不受到影响 • 2）保证离线运行历程
2015年
2012年
• 提出混部 • BVC/IDLE上线 • 启动Matrix
• 设计： • 1）任务管理 • 2）作业排队 • 3）资源调度 • 4）等等
混部的理论基础
• 混部原则：一套在线、离线在单机运行的规则规范。
• 单机资源模型：优先级和超发模型
total
优先级 • STABLE > NORMAL > BESTEFFORT • 单机：可否抢占 • 集群：是否有Quota
超发 • 用户行为：request – used > 0 • 超发：total’ = total + sum(request – used) • 约束：sum(STABLE) < total
request
used
物理机
!STABLE STABLE
调度器
混部的核心思路
单机隔离
响应及时，快速避让！
集群调度
响应慢，但是有规划的调度
隔离：保证在线不受影响
• 基本思路： • 1）内核和用户态管控 • 2）离线“大框”模型
• CPU：大框绑核 • 内存：大框硬限 • IO：隔离磁盘、计算框架优化 • 网络：QoS、Transkeeper
• 兜底策略：单机SLA
Watch-Dog
在线服务
S1
S2
S3
S3
S3技术创新，变革未来大规模在离线混部系统演进目录
一、背景：为什么要做混部二、方案：混部架构和核心技术
三、展望：收益和未来展望
从成本说起..
• 公司从什么阶段开始关注成本
• 规模化、平稳发展期
• 公司的成本构成
• 研发、运营、服务器
• 提升资源利用率是降低服务器成本的重要手段！！
资源利用率现状
• IDC规划： • 在线机房、离线机房分离规划
• 资源利用率的矛盾： • 1）离线利用率高，资源不足 • 2）在线利用率低，峰值高但不够弹性
• 现状分析： • 1）在线天然利用率不足，只有离线、在线统一规划集群才能充分利用资源 • 2）通过实施在离线混部：提升利用率、减少离线、在线服务器采购成本
目录

百度大规模在离线混部系统架构演进

百度文库系统架构

百度X_精品文档

百度的分布式文件系统之路

大数据离线计算平台流式Shuffle服务

百度腾讯系统架构演化

互联网架构的演变过程（一）

大数据离线计算平台介绍

百度的下一个15年

参考答案 百度云

技术细则 百度

百度百科（DCS）

bds发展历程

百度发展历程

百度大规模在离线混部系统架构演进

百度大数据首席架构师林仕鼎：新计算时代

雅典娜方案

百度发展史

参考答案百度云

技术细则百度