如何检查系统健康状况?

我想要一份关于我的系统运行状况的报告,以便我知道我的所有硬件组件(CPU,内存,磁盘……)都按预期运行。 如果报告仅列出发现的问题(如果有的话),那么最容易阅读。 有没有这样的系统工具?

相关说明:

  • 我知道磁盘实用程序可以报​​告我的磁盘的SMART结果。 对于我的所有其他组件,我想要类似的东西。
  • 原始诊断工具和基准测试不适合。 诊断工具列出组件详细信息,但不列出其健康状况。 基准有时仅突出健康问题。 我只对直接健康报告感兴趣。
  • 我知道在Windows中执行此function的等效工具(报告硬件组件是否出现故障),但我忘记了名称:P我基本上喜欢这个。

电子产品通常100%或0%。 根据您已经了解的SMART报告,诸如硬盘驱动器之类的机械设备确实具有即将发生故障的指示。

球迷

风扇即将出现故障指示,但这取决于您的听力和聆听指标,如摆动速度,尖叫轴承等。

中央处理器

降级风扇的另一个潜在指标是CPU热量水平。 在笔记本电脑上意味着风扇排气口堵塞或RPM太低。 这也可能意味着CPU /主板需要使用压缩空气清洁灰尘(不要使用含有水分的呼吸)。 这也可能意味着您需要使用新的导热膏重新安装CPU散热器。

内存

如果你的机器锁定并显示错误的内存错误,你可以按照以下说明测试你的RAM: 如何通过linux检查RAM中的错误? 。

如果RAM检查程序发现了一个坏的内存块,你可以使用这些指令将其列入黑名单: 有没有办法限制内核的内存管理器只使用75%的内存?

NVMe PCIe M.2 Gen 3.0 x 4(或2)SSD

如果你有一个SSD,他们的寿命是以数万亿次写入来衡量的。 您的SMART实用程序已经测量了SSD寿命,但不测量NVMe SSD。 为此你需要nvme-cli 。 要安装它,请使用:sudo apt install nvme-cli

接下来收集SSD提供的信息:

 $ sudo nvme smart-log /dev/nvme0 Smart Log for NVME device:nvme0 namespace-id:ffffffff critical_warning : 0 temperature : 35 C available_spare : 100% available_spare_threshold : 10% percentage_used : 0% data_units_read : 9,328,609 data_units_written : 5,383,685 host_read_commands : 169,669,400 host_write_commands : 51,959,850 controller_busy_time : 387 power_cycles : 568 power_on_hours : 401 unsafe_shutdowns : 77 media_errors : 0 num_err_log_entries : 216 Warning Temperature Time : 0 Critical Composite Temperature Time : 0 Temperature Sensor 1 : 35 C Temperature Sensor 2 : 41 C Temperature Sensor 3 : 0 C Temperature Sensor 4 : 0 C Temperature Sensor 5 : 0 C Temperature Sensor 6 : 0 C Temperature Sensor 7 : 0 C Temperature Sensor 8 : 0 C 

最重要的字段是Percentage used ,显示为0%。 这不是磁盘使用百分比,而是使用寿命百分比。 我从2017年10月起开始使用此驱动器,现在是2018年5月。一旦Percentage used达到1%,我可以将我拥有它的月数乘以100以找出它何时会死亡。 但是他们说驱动器的寿命通常比这长。

桌面上的系统监视器与conky

许多人喜欢在桌面的一部分上显示他们的系统状态(和健康状况)。 我喜欢让我的Conky在我主监视器的正确20%上运行:

Conky all.gif

注意:单CPU的97%CPU使用率是由屏幕录像机本身引起的。

要了解有关conky和CPU使用情况的更多信息,请参阅: 如何对CPU和RAM进行压力测试(同时)?