Clevo N850EL经常崩溃/冻结Ubuntu 18.04.1

我刚买了一台全新的Clevo N850EL(在某些地区也可以打造Prostar或Sager NP4850),配备CPU i7-8750H,32GB RAM。

Ubuntu 18.04.1安装正常,似乎运行良好(我工作,打字,安装和删除软件),直到它在一段随机时间(45分钟+/- 30分钟后)崩溃。

(它有NVIDIA MX150和Intel HD显卡。我相信我在Ubuntu下使用Intel HD显卡)。

崩溃是一个完全冻结(鼠标不移动,TCP / IP连接冻结和中断, Ctrl + Alt + Del没有响应,必须通过按下电源按钮5秒重新启动)。

在冻结之前, /var/log/syslog/var/log/kern.log没有exception条目。

因此,它只是一个神秘的崩溃“冻结”,没有我知道的日志/跟踪。

(编辑:2018-08-25我启用了SysRq,但网络服务也被冻结了,所以我不能远程ssh并要求SysRq,键盘Alt + SysRq + 命令似乎也被冻结了)。

在第一天,运行与PC一起提供的Windows 10显然存在同样的问题。

但是一旦我升级到Windows 10 1803(包含所有提示的累积补丁和多次重启),问题就消失了。 现在它在Windows 10 1803下完全稳定。

看起来像Linux下的“新硬件”问题,Windows最近已经克服了这个问题。

我该怎么办 ? 我应该尝试在Ubuntu上使用上游内核吗? (哪一个?)(是否有任何USB笔版本的Ubuntu,我可以整天运行一个较新的内核,只是为了看看问题是否来自内核?我应该去启动板并打开一个问题吗?)

(我真的不想在Windows下工作…… 🙁

编辑:内核是4.15.0-32-generic

 # lspci 00:00.0 Host bridge: Intel Corporation Device 3ec4 (rev 07) 00:01.0 PCI bridge: Intel Corporation Skylake PCIe Controller (x16) (rev 07) 00:02.0 VGA compatible controller: Intel Corporation Device 3e9b 00:08.0 System peripheral: Intel Corporation Skylake Gaussian Mixture Model 00:12.0 Signal processing controller: Intel Corporation Device a379 (rev 10) 00:14.0 USB controller: Intel Corporation Device a36d (rev 10) 00:14.2 RAM memory: Intel Corporation Device a36f (rev 10) 00:16.0 Communication controller: Intel Corporation Device a360 (rev 10) 00:17.0 SATA controller: Intel Corporation Device a353 (rev 10) 00:1d.0 PCI bridge: Intel Corporation Device a330 (rev f0) 00:1d.5 PCI bridge: Intel Corporation Device a335 (rev f0) 00:1d.6 PCI bridge: Intel Corporation Device a336 (rev f0) 00:1f.0 ISA bridge: Intel Corporation Device a30d (rev 10) 00:1f.3 Audio device: Intel Corporation Device a348 (rev 10) 00:1f.4 SMBus: Intel Corporation Device a323 (rev 10) 00:1f.5 Serial bus controller [0c80]: Intel Corporation Device a324 (rev 10) 01:00.0 3D controller: NVIDIA Corporation GP108M [GeForce MX150] (rev a1) 02:00.0 Non-Volatile memory controller: Samsung Electronics Co Ltd Device a808 03:00.0 Network controller: Intel Corporation Device 2526 (rev 29) 04:00.0 Unassigned class [ff00]: Realtek Semiconductor Co., Ltd. RTL8411B PCI Express Card Reader (rev 01) 04:00.1 Ethernet controller: Realtek Semiconductor Co., Ltd. RTL8111/8168/8411 PCI Express Gigabit Ethernet Controller (rev 12) 

编辑2018-08-24:升级到内核44.15.0-33-generic。 问题依然存在。

在控制台模式下启动(GRUB选项systemd.unit = rescue.target),以root身份从命令行打开网络管理器和WiFi(请参阅https://help.ubuntu.com/community/NetworkManager ),并复制一些文件网络几个小时。

控制台模式下不会出现此问题。 我没有从控制台模式对系统施加太多负载,但我设法从网络复制了几GB文件,并且运行时间超过8小时,运行了一些服务和进程,我想我可以认为在控制台模式下不会发生相同的崩溃/冻结。

安装了nvidia-driver-390专有驱动程序,并使用以下命令切换到NVIDIA:

 sudo ubuntu-drivers devices sudo ubuntu-drivers autoinstall sudo prime-select nvidia sudo reboot nvidia-settings # just to check that it seems installed 

nvidia-driver-390专有驱动程序的问题仍然存在。

重新回到英特尔,并将noveau内核驱动程序列入黑名单:

 sudo prime-select intel sudo bash -c "echo blacklist nouveau > /etc/modprobe.d/blacklist-nvidia-nouveau.conf" sudo bash -c "echo options nouveau modeset=0 >> /etc/modprobe.d/blacklist-nvidia-nouveau.conf" sudo update-initramfs -u sudo reboot 

在禁用noveau的情况下,英特尔video驱动程序的问题仍然存在。

它没有识别WiFi适配器,但它在GNOME桌面模式下似乎稳定了几个小时(我让它运行2小时30分钟,同时通过有线以太网将一些GB文件复制到磁盘)。 (后来尝试回到Debian测试,表明它经常崩溃/崩溃。)

但是,充满了新的希望,我决定尝试一个Upstream内核(参见https://wiki.ubuntu.com/Kernel/MainlineBuilds )

首先我尝试了内核4.17.19-generic amd64。 在正常运行时间的前5分钟内崩溃/冻结。 (再次……问题仍然存在)..

然后我尝试了内核4.18.5-generic amd64。 它似乎运行好几个小时(超过2小时)但随后冻结并重新启动。 第二天进行了更多测试,问题似乎仍然存在(并且在重启时总是崩溃)。 (我试图禁用WiFi,只使用有线以太网,但问题最终会再次发生。旁注:热重启后我似乎通过DHCP松开有线以太网)。

(旁注2:同时我将noveau驱动程序列入黑名单,因为它导致/var/log/kern.log出现相关的超时错误。“sensors”实用程序在3D适配器上报告511ºC温度:-)

编辑2018-08-26 kdump:我尝试配置kdump (如https://help.ubuntu.com/lts/serverguide/kernel-crash-dump.html ),但是,当我在图形模式下测试时,我得到完全相同的问题在kdump中描述不记录崩溃 (系统冻结,没有消息,没有重启,没有/var/crash/下的崩溃转储)。

如果我在控制台模式下触发内核崩溃

 echo c > /proc/sysrq-trigger 

然后我在控制台上看到崩溃消息,并在下次重启时部分记录在/var/log/syslog上。 在/var/crash下仍然没有崩溃转储。

所以我有点失落。 我该怎么办?

编辑2018-08-27:我找不到DRAM内存错误(memtest86.com整夜运行 – 6小时16分钟),发现没有错误。

UEFI启动已禁用。

我在http://cdimage.ubuntu.com/daily-live/20180827/cosmic-desktop-amd64.iso上下载了Ubuntu 18.10每日版本,并将其用作现场USB笔几分钟,但像往常一样崩溃/冻结。

(PS:在18.10 GNOME控制面板中,我看不到正在使用哪个显卡。当我询问“信息”项时,它崩溃/冻结了)。

无论如何使用有限的VESA图形模式? (我在Ubuntu 16.10中尝试过Force VESA驱动程序但没有成功)。

编辑2018-08-28:添加用户abu_bua请求的信息:

 root@jpsl-N8xxEL:~# hwinfo --cpu | grep -Ei "model\:|Features\:|Config Status\:" -m 4 Model: 6.158.10 "Intel(R) Core(TM) i7-8750H CPU @ 2.20GHz" Features: fpu,vme,de,pse,tsc,msr,pae,mce,cx8,apic,sep,mtrr,pge,mca,cmov,pat,pse36,clflush,dts,acpi,mmx,fxsr,sse,sse2,ss,ht,tm,pbe,syscall,nx,pdpe1gb,rdtscp,lm,constant_tsc,art,arch_perfmon,pebs,bts,rep_good,nopl,xtopology,nonstop_tsc,cpuid,aperfmperf,tsc_known_freq,pni,pclmulqdq,dtes64,monitor,ds_cpl,vmx,est,tm2,ssse3,sdbg,fma,cx16,xtpr,pdcm,pcid,sse4_1,sse4_2,x2apic,movbe,popcnt,tsc_deadline_timer,aes,xsave,avx,f16c,rdrand,lahf_lm,abm,3dnowprefetch,cpuid_fault,epb,invpcid_single,pti,ssbd,ibrs,ibpb,stibp,tpr_shadow,vnmi,flexpriority,ept,vpid,fsgsbase,tsc_adjust,bmi1,avx2,smep,bmi2,erms,invpcid,mpx,rdseed,adx,smap,clflushopt,intel_pt,xsaveopt,xsavec,xgetbv1,xsaves,dtherm,ida,arat,pln,pts,hwp,hwp_notify,hwp_act_window,hwp_epp,flush_l1d Config Status: cfg=new, avail=yes, need=no, active=unknown Model: 6.158.10 "Intel(R) Core(TM) i7-8750H CPU @ 2.20GHz" root@jpsl-N8xxEL:~# lspci -knn | grep -i vga -A3 00:02.0 VGA compatible controller [0300]: Intel Corporation Device [8086:3e9b] Subsystem: CLEVO/KAPOK Computer Device [1558:8555] Kernel driver in use: i915 Kernel modules: i915 

尝试使用内核参数: intel_idle.max_cstate=1

执行以下步骤:

  • sudo nano /etc/default/grub
  • GRUB_CMDLINE_LINUX_DEFAULT="quiet splash intel_idle.max_cstate=1"替换GRUB_CMDLINE_LINUX_DEFAULT="quiet splash"
  • 保存(CTRL + O)
  • sudo update-grub
  • sudo reboot

有关https://bugzilla.kernel.org/show_bug.cgi?id=109051的更多信息