华为云的K8S服务介绍

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。


-
工具/应用碎片化
不同细分领域有自己的工具集 (超过5000种工具版本)
不同开发语言环境
Why K8s? Gaps?
优势
-
容器镜像 封装 工具 & 运行环境 - 易于管理 灵活精细的资源管理和调度 - 优化成本 算法效率优化 => 并发度优化 - 降低研发难度
Gaps
-
K8s的学习门槛
传统HPC使用习惯 缺少流程控制和依赖管理

高级存储特性:
-
区域化存储自动创建 Topology Aware volume provisioning (new) 存储快照 Volume Snapshots (new)
*: Working in progress
从泛互联网到各行业领域
泛互联网
智 慧 物 流
智 慧 医 疗
工 业 制 造
金 融
政 府
从平台构建到领域深耕
华为云的K8S服务介绍

• •
Kubernetes 在华为的落地与发展
在基因测序中使用K8s的探索与实践 基于K8s构建云边统一平台的实践与进展
华为云容器实践历程
Kubernetes
2013
华为PaaS项目启动
基于CloudFoundry 构建PaaS平台
2014
华为PaaS项目二期 (FusionStage)

-
集群生命周期管理:
ComponentConfig (new) Cluster-API-provider-openstack (new)
-

-
网络:
Service性能优化 Kube-proxy IPVS mode 多网络平面 CNI-Genie (第三方插件) 高级路由策略 *Topology Aware Service Routing
工作负载管理&算法推送
边缘节点管理 工业场景
EI视觉认知
EI语音语义 EI大数据 异构计算资源 车联网场景
1.华为智能小站Atlas 500(D芯 片)、2288服务器、 AR网关 2. 兼容广泛的第三方硬件(x86、 ARM)

Kubernetes 在华为的落地与发展


在基因测序中使用K8s的探索与实践
https://kubegene.io
KubeEdge 架构
kubectl
Containers
App KubeEdge(Cloud Part) KubeEdge(Edge Part) OS + Runtime
Volume Configmap
Pod
Prober Event
...
Driver/SDK Devices
切换至Kubernetes平 台,并大力投入K8S 与CNCF
2016
华为云容器引擎服 务发布
国内首家基于 Kubernetes的公有 云容器服务,提供企 业级保障
2018
华为云容器实例服 务发布
全球首家基于 Kubernetes的公有云 Serverless容器服务, 容器免运维、按需使用
华为云K8S全栈容器服务

一个人30x全基因组中间数据sam文件大小超过600GB

-
计算密集
Mapping, Filter, Deduplication, Alignment, Index, Compress, Recalibration, Depth-coverage, Cleanup, Calling-varion)
芯片(chip array)
Chip array
第二阶段(Secondary)
生物学流水线,GATK bio-pipeline
基因型
第三阶段(Tertiary)
解读 综合分析大数据机器学习
准备阶段(preparation)
上机测序(sequencing)
Why k8s? 优势与Gap
优势
• • •
通用的应用抽象定义 – 业界事实标准 容器化应用封装 – build once, run anywhere 松耦合的架构 – 易于扩展和定制
Gaps
• •
-
资源有限,往往很少 网络受限
私网,带宽有限,延迟高

-
需要支持离线自治
网络不稳,随时可能离线 离线状态下,边缘节点能够自治

基于K8s构建云边统一平台的实践与进展
从云到边 – 典型场景和诉求
平安城市
• • • •
低时延:工业控制 - 微秒级,AR/VR - 毫秒级 数据量&带宽:数据量远大于带宽、大量数据无全局价值 信息安全:个人隐私数据、商业敏感数据 本地自治:可适应离线运行、本地自治管理、高可靠性
工业互联网
车联网
KubeGene
• •
开箱即用的容器化基因测序管理框架 基于Kubernetes构建

-
针对基因测序场景提供:
一套针对基因测序的流程描述语法 接近SGE用户体验的命令行工具 定向优化的工作流引擎 基因测序的最佳实践流程
https://kubegene.io
KubeGene 架构

-
基本概念
Tools:测序分析软件、工具定义
Kubernetes
容器运行时 容器网络 容器存储
华为云帮助基因测序行业使用Kubernetes
Sam-flag
最小资源消耗、高密度计 算、0运维成本
Mark-dup
基因容器服务(GCS)
Bwa-mapping Merge-bam
Merge-sam
省钱 秒级扩容万级并发、零等待、 耗时降低70% 省时 快速迁移、免安装一键式重
Edged
Pod/Volume/...
MetaManager
EdgeHub
Data Store
Devices
DeviceTwin
EventBus MQTTቤተ መጻሕፍቲ ባይዱBroker
KubeEdge后续计划
KubeEdge 云端部分的开源,作为Kuberentes IoT/Edge WG的参考实现 接下来的时间里,将重点构建以下能力:
• • • •
K8s云边应用统一管理 K8s configmap、secret等在边缘的支持 云边通信、边边通信支持 边缘离线自治
Checkout https:///kubeedge/kubeedge#roadmap
数据分析(data analysis)
基因测序介绍 – 二代测序(NGS)
特点: 1. 打断成小片段,分别测序 2. 最后根据参考组,还原结果
一次可测序量很大,时间消耗远小于 上一代,成本优势明显 目前成为主流测序方法
人类基因的顺序 =》参考组
拼图算法 软件处理
总长度30亿BP
每个read 300BP (如果把它看作一根筷子)
应用编排呻交付呻运维呻治理全生命周期 云容器引擎 企业级高可靠、高性能K8S服务 应用运维管理 丰富可定制的容器应用立体化运维
服务网格 K8S原生Service Mesh
容器镜像服务 容器镜像一站式构建、 存储与交付
云容器实例 基于K8S的Serverless容器服务
应用编排服务 应用云上自动化编排与设施管理

-
Migration tool from other platforms
Simple Job Manager Snakemake
• •
Integration with Spark Integration with other workflow engines

Multi-cluster
• •
Kubernetes 在华为的落地与发展 在基因测序中使用K8s的探索与实践
节点(VM) 节点(VM)
节点(VM)
节点(VM) 节点(VM)
Kubernetes容器集群
节点(VM)
Docker容器
节点(VM)
建,N天降至半小时 省力
Kubernetes帮助公有云将AI能力推到边缘
设备 边缘 智能边缘平台(IEF Edge) AI@Edge 设备 控制 PaaS@Edge Serverless@Edge 企业智能(EI) 数据 接入 轻量化OS/轻量化容器引擎 边缘硬件 EI基础平台:ML/DL 云边 协同 华为云 智能边缘平台(IEF Service) 安平场景
积极回馈社区,推动K8s发展

-
调度:
高级调度策略 NodeAffinity 高级调度策略 PodAffinity 高级调度策略 Taints-tolerations 高性能调度器 Poseidon (new)

-
多云多集群:
跨集群应用管理 Federation v1
跨集群应用管理 Federation v2 (new)

-
匹配测序场景的最佳实践
默认配置装箱策略,避免K8s集群资源碎片化
KubeGene后续计划

• •
-
Server-side workflow & tools management
More tools & workflow examples Advanced job management
Priority and Preemption Co-scheduling / Gang scheduling
Kubernetes IoT Edge WG

聚焦实现Kubernetes在IoT/边缘计算场景的方案
Co-chair
-

Cindy Xing (@cindyxing), Huawei
Dejan Bosanac (@dejanb), Red Hat
Preston Holmes (@ptone), Google Steve Wong (@cantbewong), VMWare

KubeDag
支持通过plugin调用多种运行框架,K8s,spark等
Job
… Job
KubeGene 核心设计理念

-
动态并发、非完全展开的Execution
更小的对象,降低Etcd压力 支持根据数据量决定并发数,如数据定长分片

-
Workflow支持多种并发描述语法
便于不同用户快速迁移到新框架

• •

目标
提供适用于各种IoT/边缘计算环境的参考架构 构建端到端的PoC,验证设计,并提供系统集成样例
……
KubeEdge – 云原生边缘计算管理框架
• • • • • •
基于Kubernetes构建,100%兼容K8s API 定制的边缘节点组件和运行时 可靠的消息通道 边缘离线可自治 丰富的应用/协议支持 简化设备访问
总数据数量:至少1千万只筷子。拼接的筷子总长度,从北京到上海 30X 覆盖率,再乘以30倍
IT设施面临的挑战—工具碎片化
>5000+ 不同的细分领域有自己的工具集
不同的语言环境
基因测序主要特点


数据量大(高通量数据源)
以HiSeq X10测序仪为例,产生1600Gb/轮
一个人30x全基因组样本数据FASTQ文件大约是200GB
基于K8s构建云边统一平台的实践与进展
基因测序背景知识
基因数据处理的关键过程,数据分析所需要的软件平台会越来越重要 NGS 原始文件 (raw data)
质量控制通常和测序仪类型强相关
第一阶段(primary) Fastq
核酸提取(dna extraction) 二代测序(NGS)
唾液样本 (saliva)
Workflow:测序流程定义 Execution:流程执行实体,记录参数和进度
KubeGene-CLI
Parser
workflow
YAML
创建流程对象 ( exection )

-
核心组件
genectl

DAG 流程,控制 Job 创建
Dag-engine
Plugin
解耦的parser设计,轻松扩展多种语法
相关文档
最新文档