分类目录归档:X86

DELL服务器收集阵列卡日志

1、 登录到 OMSA,在左侧窗格中选中控制器,然后单击 Information/Configuration

2、 在下一个屏幕上(加载需要几秒钟时间),向下滚动到 controller tasks。单击下拉菜单并选择 Export Log图 2)。然后单击 Execute

即可导出。

也可以通过 CLI 使用以下命令收集:
omconfig storage controller action=exportlog controller=0

DELL R710服务器查看BMC日志的方法

系统事件日志存储在服务器上的BMC或iDRAC中。这样可以在开机自检期间通过BMC / iDRAC配置实用程序访问它们。

1、重启服务器

2、 在系统启动期间按CTRL+E以访问配置实用程序(P.O.S.T.)

3、 在主菜单中,向下转至“System Event Log Menu”(系统事件日志菜单),然后按Enter。

4、 将会显示有关系统事件日志的2个选项。选择“View SystemEvent Log”(查看系统事件日志),然后按Enter

5、 使用箭头键,您可以滚动查看屏幕上显示的服务器事件日志中的单个条目

DELL服务器收集高级故障诊断日志的方法

本文将概述一些最重要的日志收集工具,其中包括 SupportAssist Enterprise,它是适用于您的 Dell PowerEdge 系统的最全面的日志收集工具。


什么时候哪种工具有用?

下表显示了哪些工具可用于接收特定问题源的有效信息。

工具硬盘内存CPUOS刀片式机箱
SupportAssist Enterprise
OMSA OpenManage Server Administrator
iDRAC 集成戴尔远程访问控制器
CMC 日志机箱管理控制器
使用软件工具导出 PERC 日志

注意:刀片类型包括PowerEdge M1000e、PowerEdge VTRX机箱和PowerEdge FX机箱。


SupportAssist Enterprise

对于未定义的错误消息或者要从您的PowerEdge服务器收集尽可能多的信息,我们建议使用SupportAssist Enterprise工具:

  • Windows和Linux版本可用
  • ESX 和 Xen:可与 iDRAC(仅完全支持 iDRAC 7 和更高版本)或已安装的 OpenManage Server Administrator (OMSA) 配合使用
  • 无需停机
  • 优势:可远程恢复多达15000个系统(戴尔服务器存储网络设备),并且自动创建支持事例

相关文章:

一旦在服务器上创建了 SupportAssist 日志,该日志就会自动发送至戴尔技术支持。


OpenManage Server Administrator – OMSA

OpenManage Server Administrator专为系统管理员而设计,用于在本地管理系统或在网络上远程管理系统。它会提供相应的功能使您可以导出高级故障诊断的详细信息。

相关文章:


集成的Dell远程访问控制器 – iDRAC

从第11代开始,Dell iDRAC嵌入在每个Dell PowerEdge服务器中。它不需要安装操作系统或虚拟机监控程序即可正常工作。对于高级故障诊断,建议检查所提供的信息,如固件的状态和系统事件日志(SEL)。

相关文章:


机箱管理控制器 – CMC日志

机箱管理控制器 (CMC) 运行自己的软件,该软件提供有关硬件状态的信息并报告错误消息。例如iDRAC,它不需要安装操作系统或虚拟机监控程序即可正常工作。

相关文章:


使用软件工具导出PERC日志

提取RAID控制器日志进行高级分析的另一种方法是使用针对较旧控制器的软件工具(如PERCCLI实用程序或MegaCLI实用程序)。

  • PercCLI:
    • 适用于Windows、Linux和VMware
    • 受PERC系列8和更新系列支持
    • 不需要重新引导
    相关文章:
  • MegaCLI:
    • 适用于 Windows、Linux、XenServer 和 VMware ESX/ESXi
    • 受PERC系列5、6、7和8以及基于LSI的RAID控制器的支持
    • 不需要重新引导注意:MegaCLI 是第三方产品

DELL DSET和SAE的区别

从DELL第11代服务器开始,DELL的诊断工具dset改为了sae,dset全称为Dell System E-Support Tool,sae全称为SupportAssist Enterprise。

Dset只支持10代及之前的服务器,目前dset已停产,已被sae替代。

Sae对dset的优势如下:

  Dell System E-support Tool (DSET) SupportAssist Enterprise (SAE)
收集系统日志(现场/远程)+ / ++ / +
向戴尔支持发送日志 手动 自动或手动
在 Dell 支持网站上创建支持事件  +
使用工具查看日志  +
服务器事件日志(SEL)删除选项 + +
需要安装  +
系统监控  可达 15000 个系统
已为PowerEdge服务器未来新版本做好准备  +

+= 支持
= 不支持

Windows 系统上安装sae和收集日志,点击这里

在 Linux 系统上安装sae和收集日志,点击这里

Dell EMC SupportAssist Enterprise 3.x-指南和下载,点击这里

单路和多通道内存模式

可以在英特尔主板 上配置几种类型的内存模式, 具体取决于安装了多少内存模块 (dimm):

  • 单通道
  • 双通道
  • 三重通道
  • 四通道
  • Flex 模式

单通道 (非对称) 模式
此模式提供单通道带宽操作, 在仅安装一个 dimm 或多个 dimm 的内存容量不相等时使用。在通道之间使用不同的速度 dimm 时, 也会使用最慢的内存定时。

single-channel with one DIMM

单通道带一个 DIMM

single-channel with three DIMMs

带三 dimm 的单通道

在启动时, 检测到内存配置, 您可能会看到此警报消息:

警报: 在每个通道中安装了相同数量的内存, 实现了最大的内存性能。按任意键继续。

使用当前安装的 dimm, 计算机被设置为单通道模式, 但可以设置为双通道模式。如果关闭并正确重新排列 dimm, 则可以建立双通道模式。

双通道 (交错) 模式
此模式提供更高的内存吞吐量, 并在两个 DIMM 通道的内存容量相等时启用。使用不同的速度 dimm 时, 使用的内存时间最慢。

dual-channel with 2 DIMMs

双通道带两个 dimm

dual-channel with 3 DIMMs

带三 dimm 的双通道

dual-channel with 4 DIMMs

带四 dimm 的双通道

启用双通道模式的规则
要实现双通道模式, 必须满足以下条件:

  • 相同的内存大小。示例: 1 gb、2 gb、4 gb。
  • 每个通道中的 DIMM 配置匹配。
  • 在对称内存插槽中匹配。

与上述条件不匹配的配置将恢复为单通道模式。不需要满足以下条件:

  • 同一品牌
  • 相同的定时规格
  • 相同的速度 (MHz)

系统中填充的最慢的 DIMM 模块决定了内存通道速度。

三重通道模式
三重通道交错通过依次访问 DIMM 内存来减少总体内存滞后时间。数据以交替模式分布在内存模块中。

三独立内存通道提供两种可能的交错模式:

  • 如果在三个蓝色内存插槽中安装了相同的匹配内存模块, 则启用三重通道模式。
  • 如果只有两个蓝色内存插槽使用匹配的 dimm 填充, 则启用双通道模式。
triple-channel mode

四通道模式
当四 (或倍数为四) dimm 在容量和速度上相同且处于四通道插槽中时, 将启用此模式。当安装两个内存模块时, 系统以双通道模式运行。当安装了三个内存模块时, 系统将以三重通道模式运行。

quad-channel with 4 DIMMs

带四个 dimm 的四通道:

quad-channel with 8 DIMMs

带八个 dimm 的四通道:

Flex 模式
这种模式会导致双通道和单声道操作贯穿整个 DRAM 内存。该图显示使用两个 dimm 的 flex 模式配置。操作如下:

  • 插槽1中的 2 gb dimm 和插槽2中的 dimm 的下 2 gb 在双通道模式下运行。
  • 插槽2中的 DIMM 的剩余 (上部) 2 GB 在单通道模式下运行。
flex

华为RH2288 V5服务器raid0替换硬盘报错

现有一台RH2288 V5服务器,配置LSI Megaraid SAS3108阵列卡,有12块SATA 4T硬盘,每块硬盘都做了raid0,现在四号槽硬盘故障,按照正常操作,关机,更换硬盘,为新硬盘配置raid0。

但是配置好raid0后,重启,自检到阵列卡提示:

The following VDs are missing:005

进入阵列卡发现刚才新硬盘配置的raid0丢失,新硬盘的状态仍为ready,重配后,问题依旧。

联系华为厂家,厂家工程师的答复是可能为raid卡bug导致,将bmc相关日志收集给厂家,厂家未发现可疑问题,也未能定位出故障原因。

后更换另一块新硬盘,发现问题解决,可能是之前硬盘和阵列卡兼容性存在问题。

硬盘512e、4kn的解读

传统的硬盘是以512字节大小的扇区为单位分割进行读写, 512字节的空间不全用来存数据,还存放这一些功能性代码,如ECC校验、Gap、Sync/Address Mark的代码,所以真正的存储空间大概不到90% ,整个磁盘空间的利用率大概在88%左右。

为了提升硬盘可用容量,硬盘厂商把每一个磁盘单位(sector format)扇区格式改为4K(512 Bytes x 8),这种格式又叫做(Advanced Format)高级格式,8个(sector format)共用一个 同步/分隔区域和一个容量稍大的 ECC 校验区 (即功能性代码部分,这部分约占用一百多字节),真正的存储空间使用率能达到97%。

但是现有操作系统对4K这种高级格式支持度还不够,为了过渡,硬盘厂商为4K扇区格式的硬盘准备了512e(emulation)的硬盘固件, 利用固件来把传统的对于512字节扇区的逻辑访问转换为对于4K字节扇区的物理访问。

新硬盘还有另一种固件直接支持 4K字节扇区的访问,这种硬盘称之为4Kn(Native)。传统格式的硬盘被称之为512n(Native),原生就是512字节的扇区。

当我们将大于4K的数据块写入512e硬盘时,由于一次写入的扇区大小就是4K,所以写操作的性能会有较大提升。但是如果写入512e硬盘的数据块小于4K时,操作系统就必需经过读取再修改再写入的过程,这会造成比较明显的性能下降。一些传统应用(如数据库系统)的I/O操作最小单位仍小于 4KB,使用原生 512 byte 扇区硬盘可以保证最好的性能,采用 512e 硬盘容易产生性能影响。

megacli查看硬盘状态

通过megacli的如下命令查看RAID的情况,命令如下:

/opt/MegaRAID/MegaCli/MegaCli64 LDPDInfo -Aall

重点关注以下几点:

Media Error Count
Other Error Count
Predictive Failure Count
Last Predictive Failure
Drive has flagged a S.M.A.R.T alert

如果这几个数值不为0,则可能为硬盘故障,需要更换硬盘。

可以通过让指定硬盘闪烁的方式来定位磁盘位置,命令如下:

MegaCli -PdLocate -start -physdrv [E:S] -aALL

其中 E表示 Enclosure Device ID,S表示Slot Number。比如坏盘的位置为:
Enclosure Device ID: 1
Slot Number: 0

可执行以下命令让其闪烁:
root@Storage-c2:/opt/MegaRAID/MegaCli# ./MegaCli64 -PdLocate -start -physdrv[1:0] -a0
Adapter: 0: Device at EnclId-1 SlotId-0 — PD Locate Start Command was successfully sent to Firmware Exit Code: 0x00
root@Storage-c2:/opt/MegaRAID/MegaCli#

更换硬盘后,关闭闪烁的命令如下:
MegaCli -PdLocate -stop -physdrv [E:S] -aALL

如果raid中有硬盘故障,更换硬盘后,一般都无需做操作,阵列卡会自动做rebuild,从拔出硬盘到插入新盘,一般会有以下的过程:

  • Device
    Normal —>Damage —>Rebuild —>Normal
  • Virtual Drive
    Optimal —>Degraded —>Degraded —>Optimal
  • Physical Drive
    Online —>Failed Unconfigured —>Rebuild —>Online

查看rebuild进度的命令如下:

/opt/MegaRAID/MegaCli/MegaCli64 -PDRbld -showprog -physDrv [1:0] -a0

输出一般如下:

root@Storage-c2:/opt/MegaRAID/MegaCli# ./MegaCli64 -PDRbld -showprog -physDrv [1:0] -a0
Rebuild Progress on Device at Enclosure 1, Slot 0 Completed 10% in 0 Minutes.
Exit Code: 0x00
root@Storage-c2:/opt/MegaRAID/MegaCli#