vSphere虚拟化平台系统管理
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
vSphere 虚拟化平台系统管理何佳
客户支持日
2013.06.06
说明
本讨论主题主要针对在VMWare虚拟化环境 ESXi + vCenter server中系统管理遇到的以下典型类问题:
§▪ 紫屏(PSoD)与主机无响应
§▪ vCenter 性能数据显示
§▪ 杂项(日志、ESXi主机回滚、界面语言、…)
§▪ 紫屏(PSoD)/主机无响应故障与应对 §▪ vCenter性能图表显示类问题与应对 §▪ 主机升级失败/应对
§▪ 日志
§▪ 杂项
紫屏(PSoD)故障与应对
§▪ 理解紫屏
• 紫屏的定义
Ø P urple Screen of Diagnostic
Ø E SXi 内核在运行过程中发生崩溃后产生的一种现象
Ø 类同Windows操作系统蓝屏(BSoD)
• 紫屏过程
²✧ 内核遇到不可恢复的错误
²✧ 内核在内存运行当下状态抛出异常
²✧ 显示CPU及其寄存器状态及信息
²✧ 将内存堆栈信息转储(磁盘或网络) zdump 文件
• 原因
• 硬件错误(CPU、内存、板卡、…)
• 软件错误
• ESX vmkernel、硬件驱动程序
• 第三方内核模块
§▪ 典型硬件故障之一
• LINT1 motherboard
interrupt. This is a hardware problem
§▪ 典型硬件故障之二
• Machine Check Exception • MCE
§▪ 应对硬件故障建议
²✧ V MWare 不是硬件专家,联系硬件提供商 ²✧ i LO/远程管理输出日志
²✧ 硬件排除替换法
²✧ 调整内存条
²✧ 内存测试工具Memtest86+
²✧ 硬件测试工具增强测试压力
§ 应对非硬件有完整信息故障类紫屏 • 重启后的主机日志收集
• vm-support / VIC
• 等待VMWare专家分析
• Crash时刻日志分析
• 内核文件对应vmkernel符号表代码级分析
• 建立网络转储机制(推荐)
• 硬件配置较大内存
• 产生部分转储
• 手工转储
• 产生部分转储
vmkdump_extr act 解压zdump vmkernel-log.1 1.
2.
1.
2.
3.
4.
§ 发生部分转储
紫屏(PSoD)故障与应对(续)
§ 其他类型紫屏
• 没有转储文件、没有堆栈信息
紫屏(PSoD)主机无响应故障与应对(续)
§ 其他类型紫屏
• 转储过程中重复发生crash
• 不完整转储
§ 主机无响应
• 现象
• 主机无法连接,VMs运行正常
• 主机无法连接,VMs也失去网络
• 主机挂死,键盘无响应
• 可能原因
• 存储链路丢失 -> hostd挂死
• 本地存储控制器、条带化错误、磁盘坏块 • 主机硬件错误 – 内存等
• 网络错误
• 应对
• ping主机,VIC直接连接
• Console登陆,键盘响应,Alt+F12
• NMI触发响应,产生紫屏
日程安排
vCenter性能图表显示类问题与应对
§ 问题范围
• 概览(Overview) Or 高级(Advanced)
• 实时(Realtime) Or 历史(History)
• 集群(Cluster) Or 主机
• VC管理规模
§ 最典型性能图表故障
过程:VC定时收集
VC-DB表:
VPX_TEMPTABLE[0,
1,2]
过程:
process_tempable[0,1
,2]_proc
VC-DB表:
VPX_HIST_STAT1
过程:
stats_rollup[1,2,3]_proc,
purge_stat[1,2,3]_proc
VC-DB表:
VPX_HIST_STAT[1,2,3]
§ 应对(一)
• VC(Administration > vCenter Server Settings > Statistics)或数据库查询相关统计级别定义
• 查看temptable[0,1,2]是否不断变化
§ 应对(二)
• VPX_HIST_STAT [1,2,3,4]记录数量以及是否稳定 • 800万条甚至更多
§ 应对(三)
• SQL Agent运行状态、Rollup作业历史状态
§ 应对(四)
• 存储过程定义或执行状态 • 原因
• 升级VC,存储过程发生死锁
• 诊断其他问题造成存储过程出错
• 数据库升级
• 数据库迁移
• …
日程安排
主机升级失败应对
§▪ 升级原因
• 由于软件缺陷,给ESXi升级补丁
• 第三方驱动兼容/缺陷,升级硬件驱动程序
• 第三方针对主机的应用管理软件
§▪ 升级处理方式
• vCenter Update Manager
• ESXi Local CLI / vMA / Remote CLI
esxcli software vib update 会保留定制化的软件包
esxcli software vib install 会覆盖已经存在的定制化软件包
日程安排
官方知识库
所有产品 /kb/1008524 ESX/ESXi /kb/653
/kb/1010705 vCenter /kb/1011641
§ 日志种类
• ESXi/ESX
• vmkernel(vmksummary, vmkwarning, …) • hostd
• vpxa
• vCenter Server
• vpxd.log
• vpxd-profiler.log
• drm-dump folder
官方知识库所有产品 /kb/1021806 ESXi5.1 /kb/2032076 ESXi5.0 /kb/2004201 ESX(i)3.5-4.x /kb/1021801 vCenter /kb/1021804
§▪ ESXi Syslog 默认设置
§▪ ESXi hostd 默认设置 • /etc/vmware/hostd/
config.xml
§ ESXi vpxa 默认设置
§ vCenter Server vpxd 默认设置
§▪ 调整日志的原因
• 默认级别
• 日志被覆盖
• 需要增加跟踪对象
§▪ 日志级别、数量、大小以及跟踪对象
• Error、Warning、Info、Verbose、Trivia • <maxFileSize>、<maxFileNum>
• vmkernel、hostd、vpxa、vpxd、…
• trace <nfc>、trace <db>、trace <vmomi> • …
§▪ 调整前需要考虑
• 包含问题时间点
• 磁盘空间
日程安排
例如:
lpfc_log_verbose=0x14 链路类故障
lpfc_log_verbose=0xc3 轻量级日志
lpfc_log_verbose=0x7ffff 全日志信息
注意:
需要调整vmkernel日志数量、大小、位置以放置日志被过快覆盖
§ 环境恢复
Questions。