Système de fichiers qui passe en Read Only

Ca marche ^^

Donc là j’ai récupéré tous les logs avec journalctl --since "2024-11-07 07:15:00" --until "2024-11-07 09:09:20", j’ai rien vu - sachant que l’ordinateur a commencé à enregistré de nouveau des logs après son reboot à 9h21 et qu’avant 8h34, j’ai rien - et ça fonctionnait bien à cette heure-ci, en gros le système est passé read-only entre 08:34:19 et 08:54:54…il y a a peu près 400 lignes de logs.

Et tu as quoi dans ces 400 lignes? tu devrais avoir des messages à un moment sur des système qui n’ont pas pu écrire ou des choses comme ça.
@Clochette : il y aurait un moyen pour qu’il puisse nous donner ces 400 lignes facilement sans avoir un message de 10m de long?

Je peux héberger un .txt en externe ^^
Sinon j’ai des trucs dans ce genre là :
nov. 07 08:34:19 mamachine firefox.desktop[5779]: [Parent 5779, Main Thread] WARNING: Couldn't map window 0x7f93709c3160 as subsurface because its parent is not mapped.: 'glib warning', file /builds/worker/check>

Ou même :

nov. 07 08:34:26 mamachine kernel: Freezing user space processes

@IPUFHEBEFEBULB , install nvme-cli avec
apt -y install nvme-cli
Tu pourras ensuite faire des tests:
Tiré de Open Source NVMe® SSD Management Utility – NVMe Command Line Interface (NVMe-CLI) - NVM Express

Device Self-Test

A device self-test operation is a diagnostic testing sequence that tests the integrity and functionality of the controller and may include testing of the media associated with namespaces. A short device self-test operation should complete in two minutes or less. An extended device self-test operation should complete in the time indicated in the Extended Device Self-test Time field in the Identify Controller data structure or less.
Segment	Test Performed	Failure Criteria
1 – RAM Check	Write a test pattern to RAM, followed by a read and compare of the original data.	Any uncorrectable error or data miscompare
2 – SMART Check	Check SMART or health status for Critical Warning bits set to ‘1’ in SMART / Health Information Log.	Any Critical Warning bit set to ‘1’ fails this segment
3 – Volatile memory backup	Validate volatile memory backup solution health (e.g., measure backup power source charge and/or discharge time).	Significant degradation in backup capability
4 – Metadata validation	Confirm/validate all copies of metadata.	Metadata is corrupt and is not recoverable
5 – NVM integrity	Write/read/compare to reserved areas of each NVM. Ensure also that every read/write channel of the controller is exercised.	Data miscompare
6 – Data Integrity	Perform background housekeeping tasks, prioritizing actions that enhance the integrity of stored data.

 

Exit this segment in time to complete the remaining segments and meet the timing requirements for extended device self-test operation indicated in the Identify Controller data structure.
	Metadata is corrupt and is not recoverable
7 – Media Check	Perform random reads from every available good physical block.

 

Exit this segment in time to complete the remaining segments. The time to complete is dependent on the type of device self-test operation.
	Inability to access a physical block
8 – Drive Life	End-of-life condition: Assess the drive’s suitability for continuing write operations.	The Percentage Used is set to 255 in the SMART / Health Information Log or an analysis of internal key operating parameters indicates that data is at risk if writing continues
9 – SMART Check	Same as 2 – SMART Check	 

Par exemple, pour lancer le test:

nvme device-self-test -s 2 /dev/nvme0n1

pour attendre la fin du test:

nvme device-self-test /dev/nvme0n1 -w

Pour voir le résultat du test:

nvme self-test-log /dev/nvme2n1 -v

Quand ca freeze, qu’es-tu en train de faire (plug/unplug usb ou autre par exemple? arrives-tu à reproduire volontairement le problème ?

Es-tu en Debian Stable ou en Debian SID?

J’avais déjà testé le disque au début, je recommencerai à la fin de la journée.

Justement, je ne fais rien de particulier, à ce moment-là je ne suis plus sur l’ordinateur : c’est quand je reviens, que je déverouille la session et que je veux recommencer à bosser que je réalise que le système est passé en read-only : plus de réseau, Firefox qui plante, impossible d’envoyer des commandes d’écritures, de sauvegarder quoi que ce soit…

Du coup je ne sais pas précisément ce que j’ai pu faire, donc impossible de reproduire le problème.

J’utilise Debian 12 (Bookworn), donc stable sauf erreur.

Donne le résultat de :
lsb_release -a

Ben…bon :

$ lsb_release -a
No LSB modules are available.
Distributor ID:	Debian
Description:	Debian GNU/Linux 12 (bookworm)
Release:	12
Codename:	bookworm

La dernière fois que j’ai eu un truc du style c’était la carte mère qui avait un soucis. Dans mon cas en changeant le nvme de port plus aucun soucis. Mais c’était sur un pc avec une carte mère en atx et 2 ports nvme.

Merci pour ta suggestion, mais je vois pas comment vérifier que le problème vient de là à moins de démonter le PC ^^

Hello,

J’ai un oeu de neuf. Le problème s’est reproduit hier, et ça m’a fait penser à une chose : à chaque fois que cela se produit, c’est après avoir ouvert ma session utilisateur, quand le système l’a verrouillée suite à une inutilisiation trop longue.

Bon par contre mauvaise nouvelle : hier dès que j’ai vu le problème, j’ai affiché la fin de journalctl (journalctl --since "2024-12-11 18:00:00" --until "2024-12-11 18:30:22"), et là, en voulant refaire la même chose…je ne retrouve plus les mêmes logs qu’hier…

Là j’ai ça en boucle :

déc. 11 18:14:55 maMachine pgqd[1761]: 2024-12-11 18:14:55.395 CET [1761] LOG {ticks: 0, maint: 0, retry: 0}
déc. 11 18:14:55 maMachine pgqd[1761]: {ticks: 0, maint: 0, retry: 0}
déc. 11 18:15:01 maMachine CRON[1237530]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)
déc. 11 18:15:01 maMachine CRON[1237531]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)
déc. 11 18:15:01 maMachine CRON[1237530]: pam_unix(cron:session): session closed for user root
déc. 11 18:15:25 maMachine pgqd[1761]: 2024-12-11 18:15:25.403 CET [1761] LOG {ticks: 0, maint: 0, retry: 0}
déc. 11 18:15:25 maMachine pgqd[1761]: {ticks: 0, maint: 0, retry: 0}
déc. 11 18:15:45 maMachine pgqd[1761]: 2024-12-11 18:15:45.860 CET [1761] ERROR connection error: PQconnectStart
déc. 11 18:15:45 maMachine pgqd[1761]: 2024-12-11 18:15:45.860 CET [1761] ERROR libpq: connection to server on socket "/var/run/postgresql/.s.PGSQL.5432" failed: No such file or directory
déc. 11 18:15:45 maMachine pgqd[1761]:                 Is the server running locally and accepting connections on that socket?
déc. 11 18:15:45 maMachine pgqd[1761]: connection error: PQconnectStart
déc. 11 18:15:45 maMachine pgqd[1761]: libpq: connection to server on socket "/var/run/postgresql/.s.PGSQL.5432" failed: No such file or directory
                                                       Is the server running locally and accepting connections on that socket?

Puis après j’ai encore pas mal de lignes.

Mais hier je n’avais pas du tout ça, pourtant la command est la même…Il y avait une histoire contenant le mot « metric » mais là même en grepant sur otut journalctl je retrouve que dalle…

Verrouillée avec une mis en veille?

Oui avec (écran noir 15 minutes, mise en veille 20 minutes).

Les bases de données, ça n’aime pas forcement d’être en veille.
Sinon quelle est ta configuration mémoire et celle de ton swap?

Ce qui est curieux c’est qu’il me semblait avoir configurer le système pour fermer la session au bout de 15 minutes, mais pas pour passer en veille au bout de 20. Je vais dégager la mise en veille déjà.

Ceci :

$ free --giga
               total       utilisé      libre     partagé tamp/cache   disponible
Mem:              41          10          25           1           8          31
Échange:           1           0           1

Ta partition d’échange n’est que de 1Go pour u ne mémoire à 40Go?
Tu auras toujorsu des problèmes avec la mise en veille avec une telle configuration.
Ton swap devrait à minima être égal à ta mémoire RAM. On conseille souvent 1,5 à 2 fois la RAM.

Oui, j’ai jamais modifié le swap xD Ok donc j’y fous 80Go ? Sachant que mon disque est ridiculement petit - 512Go -.

Le swap est en lien avec ta mémoire. Comme tu as 40Go, met déjà 40Go.
C’est toujours le problème avec de tels disques, 512Go c’est bon pour mettre le système et c’est tout, le reste data, BDD et applications de service (un serveur apache) c’est souvent trop juste.

Si tu es trop juste en espace disque pour un swap à la bonne taille, alors tu désactives toute forme de veille quelle qu’elle soit, car tu auras toujours des problèmes sinon.

Top, merci pour ta réponse. Je fais tout ça et je vois comment le système se comporte pendant quelques jours.

D’ailleurs pourquoi le swap doit être aussi grand ? Parce que lors du passage en veille le système sauve la RAM dedans ?

Oui c’est ça, en fait le statut de ta machine est mise dans le swap. Ce n’est pas un dump direct de la mémoire, c’est plus complexe que ça je pense.