Crash system : logiciel ou matériel?

Bonjour,

Désolé pour le titre, mais je ne trouve pas de formulation plus adaptée, si quelqu’un trouve mieux, je suis preneur et je modifierai.

J’ai acheté un Dell 9020M d’occasion chez AfbShop dont tous les tests proposé par DELL sont passés avec succès. Le PC est utilisé comme mediacenter avec VDR pour regarder et enregistrer la TNT. De plus en plus de problèmes apparaissent.

Ce mediacenter est essentiellement destiné à une personne âgée. Vous comprendrez mon envie d’arriver très rapidement à une solution.

Pour information, j’ai un autre PC sous Bookworm qui fonctionne sans souci (mais moins souvent) avec VDR et une seule clef tuner USB. L’état des paquets peut être différent entre les deux machines.

Le PC tourne avec une Bookworm (« stable » à la date de rédaction) mise à jour normalement. La sortie HDMI est utilisée pour la vidéo et l’audio.

Le choix de VDR n’est pas l’objet de ma question, mais a été choisi pour sa légèreté, la sauvegarde des informations sur l’enregistrement TNT, la grande facilité de découpage des enregistrements. Enfin la possibilité d’avoir tous les sous-titres visibles pour toutes les chaînes et leurs tailles ajustables sont très importants.

Par défaut, j’utilise l’interface graphique d’origine « vdr-sxfe ». Ce n’est pas l’interface graphique la plus stable. L’affichage des chaînes se fait aussi avec Kodi.

Au niveau matériel, j’ai :

  • Dell 9020M;
  • 4 clef tuners USB Realtek RTL2832U fichés sur un HUB USB3;
  • HUB USB3 Rybozen 7 ports pour les tuners USB;
  • 1 disque dur de SATA NAS dans un boîtier USB3;
  • 1 clavier;
  • 1 souris;
  • 1 dongle USB pour un clavier Wifi;
  • quelques tentatives de connexion d’un lecteur/graveur Bluray 5"1/4 mis dans un boîtier SATA/USB3 avec alimentation indépendante.

J’ai de plus en plus souvent des crash de « vdr-sxfe », obligé de faire des « systemctl stop vdr » et « xkill » pour tuer l’application « vdr-sxfe ».

Mon problème est de savoir si le problème est logiciel ou matériel. Si c’est matériel, alors il va falloir rapidement investir dans une nouvelle machine.

Je ne sais pas comprendre toutes les sortie de « dmesg », j’ai besoin d’aide pour cela. Je vous donne les sorties complètes en pièces jointes et quelques extraits avec les numéros des lignes dans les fichiers joints.

Selon le cas, Kodi arrive à accéder à VDR, peut perdre la connexion à VDR. Rien de vraiment évident, ce serai trop simple :wink:

Montage d’un DVD dans un lecteur/graveur Bluray 5"1/4 mis dans un boîtier SATA/USB3.

1291 [  +0,000053] input: Realtek RTL2832U reference design as /devices/pci0000:00/0000:00:14.0/usb3/3-4/3-4.3/3-4.3.1/rc/rc2/input30
1292 [  +0,000093] usb 3-4.3.1: dvb_usb_v2: schedule remote query interval to 200 msecs
1293 [  +0,008066] usb 3-4.3.1: dvb_usb_v2: 'Realtek RTL2832U reference design' successfully initialized and connected
1294 [26déc. 08:46] sr 5:0:0:0: ioctl_internal_command: ILLEGAL REQUEST asc=0x53 ascq=0x2
1295 [26déc. 08:47] UDF-fs: INFO Mounting volume 'Arabesque S6 DVD8', timestamp 2036/02/07 01:58 (1000)
1296 [26déc. 08:48] BUG: kernel NULL pointer dereference, address: 0000000000000180
1297 [  +0,000017] #PF: supervisor write access in kernel mode
1298 [  +0,000002] #PF: error_code(0x0002) - not-present page
1299 [  +0,000003] PGD 0 P4D 0
1300 [  +0,000005] Oops: 0002 [#2] PREEMPT SMP PTI
1301 [  +0,000006] CPU: 3 PID: 1401 Comm: vdr Tainted: G      D            6.1.0-16-amd64 #1  Debian 6.1.67-1
1302 [  +0,000005] Hardware name: Dell Inc. OptiPlex 9020M/0Y5DDC, BIOS A05 03/22/2015
1303 [  +0,000003] RIP: 0010:_raw_spin_lock_irqsave+0x23/0x50
1304 [  +0,000021] Code: cc cc cc cc cc cc cc 0f 1f 44 00 00 53 9c 58 0f 1f 40 00 48 89 c3 fa 0f 1f 44 00 00 65 ff 05 74 98 3e 6e 31 c0 ba 01 00 00 00 <f0> 0f b1 17 75 09 48 89 d8 5b c3 cc cc cc cc 89 c6 e8 17 0     6 00 00
1305 [  +0,000003] RSP: 0018:ffffb9bf81527990 EFLAGS: 00010046

Autre exemple :

1185 [  +1,842555] usb 2-4-port4: Cannot enable. Maybe the USB cable is bad?
1186 [  +0,000323] usb 2-4-port4: unable to enumerate USB device
1187 [  +1,093962] usb 2-4.2: Frontend requested software zigzag, but didn't set the frequency step size
1188 [28déc. 18:22] show_signal_msg: 12 callbacks suppressed
1189 [  +0,000004] vdr-sxfe[1418]: segfault at 7ff376ddf010 ip 00007ff3e66905c9 sp 00007ff3d37fd748 error 4 in libc.so.6[7ff3e6564000+155000] likely on CPU 3 (core 1, socket 0)
1190 [  +0,000009] Code: 66 66 2e 0f 1f 84 00 00 00 00 00 66 66 2e 0f 1f 84 00 00 00 00 00 66 66 2e 0f 1f 84 00 00 00 00 00 48 89 f8 48 83 fa 20 72 27 <c5> fe 6f 06 48 83 fa 40 0f 87 a9 00 00 00 c5 fe 6f 4c 16 e     0 c5 fe
1191 [ +14,388314] input: Realtek RTL2832U reference design (lircd bypass) as /devices/virtual/input/input24
1192 [  +0,090297] input: Realtek RTL2832U reference design (lircd bypass) as /devices/virtual/input/input25
1193 [  +0,258113] FS-Cache: Loaded
1194 [  +0,102802] Key type dns_resolver registered
1195 [  +0,269214] NFS: Registering the id_resolver key type
1196 [  +0,000011] Key type id_resolver registered
1197 [  +0,000002] Key type id_legacy registered
1198 [28déc. 18:54] perf: interrupt took too long (2545 > 2500), lowering kernel.perf_event_max_sample_rate to 78500
1199 [28déc. 19:09] perf: interrupt took too long (3260 > 3181), lowering kernel.perf_event_max_sample_rate to 61250
1200 [28déc. 19:28] perf: interrupt took too long (4154 > 4075), lowering kernel.perf_event_max_sample_rate to 48000
1201 [28déc. 19:51] perf: interrupt took too long (5258 > 5192), lowering kernel.perf_event_max_sample_rate to 38000
1202 [28déc. 20:39] perf: interrupt took too long (6620 > 6572), lowering kernel.perf_event_max_sample_rate to 30000
1203 [28déc. 22:04] perf: interrupt took too long (8277 > 8275), lowering kernel.perf_event_max_sample_rate to 24000
1204 [29déc. 00:00] audit: type=1400 audit(1703804401.405:24): apparmor="DENIED" operation="capable" profile="/usr/sbin/cupsd" pid=3264 comm="cupsd" capability=12  capname="net_admin"
1205 [29déc. 02:19] perf: interrupt took too long (10409 > 10346), lowering kernel.perf_event_max_sample_rate to 19000
1206 [29déc. 07:25] usb 4-6: reset SuperSpeed USB device number 4 using xhci_hcd
1207 [  +0,020963] sr 5:0:0:0: [sr0] tag#0 FAILED Result: hostbyte=DID_TIME_OUT driverbyte=DRIVER_OK cmd_age=30s
1208 [  +0,000005] sr 5:0:0:0: [sr0] tag#0 CDB: Read(10) 28 00 00 00 02 00 00 00 02 00
1209 [  +0,000001] I/O error, dev sr0, sector 2048 op 0x0:(READ) flags 0x80700 phys_seg 1 prio class 2
1210 [ +30,707294] usb 4-6: reset SuperSpeed USB device number 4 using xhci_hcd
1211 [29déc. 07:26] usb 4-6: reset SuperSpeed USB device number 4 using xhci_hcd
1212 [29déc. 07:30] INFO: task scsi_eh_5:245 blocked for more than 120 seconds.
1213 [  +0,000006]       Not tainted 6.1.0-16-amd64 #1 Debian 6.1.67-1
1214 [  +0,000002] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
1215 [  +0,000001] task:scsi_eh_5       state:D stack:0     pid:245   ppid:2      flags:0x00004000
1216 [  +0,000004] Call Trace:
1217 [  +0,000001]  <TASK>
1218 [  +0,000002]  __schedule+0x34d/0x9e0
1219 [  +0,000006]  schedule+0x5a/0xd0
1220 [  +0,000002]  io_schedule+0x42/0x70

Le lecteur/graveur n’est pas présent :

1519 [  +0,000092] rc rc2: lirc_dev: driver dvb_usb_rtl28xxu registered at minor = 2, raw IR receiver, no transmitter
1520 [  +0,000077] input: Realtek RTL2832U reference design as /devices/pci0000:00/0000:00:14.0/usb2/2-4/2-4.3/2-4.3.1/rc/rc2/input36
1521 [  +0,000254] usb 2-4.3.1: dvb_usb_v2: schedule remote query interval to 200 msecs
1522 [  +0,008140] usb 2-4.3.1: dvb_usb_v2: 'Realtek RTL2832U reference design' successfully initialized and connected
1523 [  +0,156444] BUG: kernel NULL pointer dereference, address: 0000000000000180
1524 [  +0,000007] #PF: supervisor write access in kernel mode
1525 [  +0,000003] #PF: error_code(0x0002) - not-present page
1526 [  +0,000003] PGD 0 P4D 0
1527 [  +0,000004] Oops: 0002 [#4] PREEMPT SMP PTI
1528 [  +0,000004] CPU: 0 PID: 3323 Comm: frontend 2/0 tu Tainted: G      D            6.1.0-16-amd64 #1  Debian 6.1.67-1
1529 [  +0,000004] Hardware name: Dell Inc. OptiPlex 9020M/0Y5DDC, BIOS A05 03/22/2015
1530 [  +0,000002] RIP: 0010:_raw_spin_lock_irqsave+0x23/0x50
1531 [  +0,000009] Code: cc cc cc cc cc cc cc 0f 1f 44 00 00 53 9c 58 0f 1f 40 00 48 89 c3 fa 0f 1f 44 00 00 65 ff 05 74 98 7e 52 31 c0 ba 01 00 00 00 <f0> 0f b1 17 75 09 48 89 d8 5b c3 cc cc cc cc 89 c6 e8 17 0     6 00 00
1532 [  +0,000003] RSP: 0018:ffffa884c2b4ba00 EFLAGS: 00010046
1533 [  +0,000003] RAX: 0000000000000000 RBX: 0000000000000246 RCX: 0000000000000019
1534 [  +0,000002] RDX: 0000000000000001 RSI: ffffa884c2b4bc10 RDI: 0000000000000180
1535 [  +0,000001] RBP: 0000000000000000 R08: ffff9ce6d0603201 R09: 003b649b4d60e501
1536 [  +0,000002] R10: 0000000000000000 R11: 0000000000000000 R12: ffffa884c2b4bc10
1537 [  +0,000002] R13: 0000000000000180 R14: 0000000000000000 R15: ffff9ce6d0603200
1538 [  +0,000002] FS:  00007f30d95ba6c0(0000) GS:ffff9ce796a00000(0000) knlGS:0000000000000000
1539 [  +0,000002] CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
1540 [  +0,000003] CR2: 0000000000000180 CR3: 000000014ed94006 CR4: 00000000001706f0
1541 [  +0,000002] Call Trace:

Les dernières « insultes » de ce matin :

1181 [ +10,471298] input: Realtek RTL2832U reference design (lircd bypass) as /devices/virtual/input/input26
1182 [  +0,100062] input: Realtek RTL2832U reference design (lircd bypass) as /devices/virtual/input/input27
1183 [  +0,511865] FS-Cache: Loaded
1184 [  +0,086654] Key type dns_resolver registered
1185 [  +0,230798] NFS: Registering the id_resolver key type
1186 [  +0,000011] Key type id_resolver registered
1187 [  +0,000001] Key type id_legacy registered
1188 [  +0,565178] BUG: kernel NULL pointer dereference, address: 0000000000000180
1189 [  +0,000008] #PF: supervisor write access in kernel mode
1190 [  +0,000003] #PF: error_code(0x0002) - not-present page
1191 [  +0,000002] PGD 0 P4D 0
1192 [  +0,000004] Oops: 0002 [#1] PREEMPT SMP PTI
1193 [  +0,000004] CPU: 0 PID: 133007 Comm: frontend 0/0 tu Not tainted 6.1.0-16-amd64 #1  Debian 6.1.67-1
1194 [  +0,000003] Hardware name: Dell Inc. OptiPlex 9020M/0Y5DDC, BIOS A05 03/22/2015
1195 [  +0,000002] RIP: 0010:_raw_spin_lock_irqsave+0x23/0x50
1196 [  +0,000008] Code: cc cc cc cc cc cc cc 0f 1f 44 00 00 53 9c 58 0f 1f 40 00 48 89 c3 fa 0f 1f 44 00 00 65 ff 05 74 98 fe 69 31 c0 ba 01 00 00 00 <f0> 0f b1 17 75 09 48 89 d8 5b c3 cc cc cc cc 89 c6 e8 17 0     6 00 00
1197 [  +0,000003] RSP: 0018:ffffac8d408fb990 EFLAGS: 00010046
1198 [  +0,000004] RAX: 0000000000000000 RBX: 0000000000000246 RCX: 0000000000000019
1199 [  +0,000002] RDX: 0000000000000001 RSI: ffffac8d408fbba0 RDI: 0000000000000180
1200 [  +0,000002] RBP: 0000000000000000 R08: ffff8e0cc9549e01 R09: 000f3ba23610727e
1201 [  +0,000002] R10: 0000000000000000 R11: 0000000000000000 R12: ffffac8d408fbba0
1202 [  +0,000003] R13: 0000000000000180 R14: 0000000000000000 R15: ffff8e0cc9549e00
1203 [  +0,000002] FS:  00007fd87e19f6c0(0000) GS:ffff8e0dd6a00000(0000) knlGS:0000000000000000
1204 [  +0,000003] CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
1205 [  +0,000003] CR2: 0000000000000180 CR3: 00000001207ec004 CR4: 00000000001706f0
1206 [  +0,000002] Call Trace:
1207 [  +0,000003]  <TASK>
1208 [  +0,000003]  ? __die_body.cold+0x1a/0x1f
1209 [  +0,000005]  ? page_fault_oops+0xd2/0x2b0
1210 [  +0,000005]  ? exc_page_fault+0x70/0x170

dmesg.dell-9020.20231226-0850.txt (102,3 Ko)
dmesg.dell-9020.20231229-1053.txt (101,5 Ko)
dmesg.dell-9020.20240101-1640.txt (121,5 Ko)
dmesg.dell-9020.20240103-1145.txt (97,5 Ko)

Teste avec memtest ?
Regarde aussi dedans pour voir si tout est bien branché solidement.

J’ai déjà passé le test de la mémoire avec l’outil de Dell. Le test a été complet et a duré plus de 30 minutes sans montrer de défaut.

Je viens de démonter/remonter tout ce qui était possible : ventilateur de CPU, disque, barrette mémoire.

Le test « memtest » est lancé depuis près d’une heure et la passe 1 est achevée.
20240103_174136_Dell-9020_memtest
20240103_183614_Dell-9020_memtest

[Edit] Après 1 h 17, la 3ième passe est en cours toujours sans erreur.

Change de noyau ?
Vérifie tes disques durs avec smartmontools ?

Pour l’instant, avec Kodi en interface, cela tient après 2 ou 3 heures, mais c’est trop juste pour que cela soit significatif.

Le noyau, mise à jour vers ‹ linux-image-6.1.0.17-amd64 ›, attendre demain pour les tests.

« smartcl » pour le disque SATA NAS, « /dev/sdb », montre une température de 52 °C en moyenne, ce qui est tout de même chaud. Mais la température est relativement stable, ce qui est moins dommageable que des variations importante.

La commande « smartctl --xall » pour le disque système « /dev/sda » et le disque de stockage des vidéos utilisé par VDR « /dev/sdb » ont leur sorties ci-jointes.

smartctl_dev-sda_xall.txt (21,5 Ko)
smartctl_dev-sdb_xall.txt (19,0 Ko)