Bonsoir,
Je viens de vivre une mauvaise expérience à l’allumage de mon serveur n40l.
Il était éteint depuis une bonne journée.
édit : ce qui suit a coïncidé avec le premier boot du noyau mis à jour ;
Linux n40l 4.9.0-8-amd64 #1 SMP Debian 4.9.110-3+deb9u6 (2018-10-08) x86_64 GNU/Linux
J’ai entendu ces bruits caractéristiques qui m’ont fait penser à des redémarrages électriques d’un moteur d’un disque dur dès l’allumage du serveur ; et pendant quelques minutes.
Le premier boot a échoué ; j’ai branché un écran pour y voir un kernel panic et l’indication “(0,0) non trouvé”. J’ai dû faire un hard-off.
Il a fallu ensuite deux amorçages qui ont réussi tout en indiquant des erreurs ata sur la console et avec les mêmes bruits en même temps mais moins fréquents et moins forts.
Maintenant, après un autre reboot, il n’y a plus ces bruits et dmesg
n’indique pas d’erreur ata.
Le RAID6 n’est pas dégradé au vu de /proc/mdstat
J’ai cependant trois disques qui présentent une diminution totale de la réserve du registre SMART High_Fly_Writes pour chacun ; En valeur brute, 700 pour sdd, 347 pour sde et 655 pour sdf.
Zéro pour les trois premiers sd[abc].
Je n’ai rien tenté de particulier pour le moment.
Il me semble que ce micro-serveur préfère tourner ou redémarrer que d’avoir à être allumé.
Je pense à une faiblesse de l’alimentation pendant et après l’appel de courant de spinup simultané des 6 disques (ST4000VN000). C’est une petite alimentation de 150 W. d’origine qui mène la danse.
J’y pensais de temps en temps, au temps des ennuis qui commencent…
Ce n40l fonctionne depuis août 2012 et presque sans interruption.
Je ne sais pas trop comment je vais aborder la situation et quels choix je vais faire.
C’est plutôt le comportement à venir de ce petit serveur qui va m’orienter.
C’est quand même bien embêtant d’envisager de le perdre avec ses données.
Si je suis sûr de mon coup, je peux probablement trouver une alimentation plus puissante.
Par contre je ne sais pas trop quels sont les conséquences pour les disques durs qui ont “couiné” vilain.
Je peux donner les infos que vous me demanderez.
Merci pour vos idées, conseils et suggestions.
Merci pour la lecture.
rem@n73sm ~/Pay closer attention to other parameters and overall drive health (High_Fly_Writes) $ ls
smartctl-a-sda smartctl-a-sdb smartctl-a-sdc smartctl-a-sdd smartctl-a-sde smartctl-a-sdf
rem@n73sm ~/Pay closer attention to other parameters and overall drive health (High_Fly_Writes) $ cat * | grep -e ATTRIBUTE_NAME -e Reallocated_Sector_Ct -e High_Fly_Writes -e Offline_Uncorrectable -e Airflow_Temperature_Cel -e Seek_Error_Rate -e Power_On_Hours -e "LU WWN Device Id"
LU WWN Device Id: 5 000c50 066dae310
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
5 Reallocated_Sector_Ct 0x0033 100 100 010 Pre-fail Always - 0
7 Seek_Error_Rate 0x000f 082 060 030 Pre-fail Always - 183975896
9 Power_On_Hours 0x0032 067 067 000 Old_age Always - 29398
189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0
190 Airflow_Temperature_Cel 0x0022 071 050 045 Old_age Always - 29 (Min/Max 28/29)
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0
LU WWN Device Id: 5 000c50 066da5580
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
5 Reallocated_Sector_Ct 0x0033 100 100 010 Pre-fail Always - 0
7 Seek_Error_Rate 0x000f 082 060 030 Pre-fail Always - 184812492
9 Power_On_Hours 0x0032 067 067 000 Old_age Always - 29400
189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0
190 Airflow_Temperature_Cel 0x0022 070 059 045 Old_age Always - 30 (Min/Max 28/30)
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0
LU WWN Device Id: 5 000c50 09d18b311
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
5 Reallocated_Sector_Ct 0x0033 100 100 010 Pre-fail Always - 0
7 Seek_Error_Rate 0x000f 076 060 045 Pre-fail Always - 41992422
9 Power_On_Hours 0x0032 094 094 000 Old_age Always - 5659 (203 65 0)
189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0
190 Airflow_Temperature_Cel 0x0022 072 063 040 Old_age Always - 28 (Min/Max 27/28)
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0
LU WWN Device Id: 5 000c50 06581c9cb
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
5 Reallocated_Sector_Ct 0x0033 100 100 010 Pre-fail Always - 0
7 Seek_Error_Rate 0x000f 079 060 030 Pre-fail Always - 8788640751
9 Power_On_Hours 0x0032 060 060 000 Old_age Always - 35391
189 High_Fly_Writes 0x003a 001 001 000 Old_age Always - 700
190 Airflow_Temperature_Cel 0x0022 071 061 045 Old_age Always - 29 (Min/Max 27/29)
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0
LU WWN Device Id: 5 000c50 06581d21a
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
5 Reallocated_Sector_Ct 0x0033 100 100 010 Pre-fail Always - 0
7 Seek_Error_Rate 0x000f 080 060 030 Pre-fail Always - 104818942
9 Power_On_Hours 0x0032 071 071 000 Old_age Always - 26074
189 High_Fly_Writes 0x003a 001 001 000 Old_age Always - 347
190 Airflow_Temperature_Cel 0x0022 067 057 045 Old_age Always - 33 (Min/Max 29/33)
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0
LU WWN Device Id: 5 000c50 06581cc3c
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
5 Reallocated_Sector_Ct 0x0033 100 100 010 Pre-fail Always - 0
7 Seek_Error_Rate 0x000f 082 060 030 Pre-fail Always - 175114852
9 Power_On_Hours 0x0032 067 067 000 Old_age Always - 29400
189 High_Fly_Writes 0x003a 001 001 000 Old_age Always - 655
190 Airflow_Temperature_Cel 0x0022 070 051 045 Old_age Always - 30 (Min/Max 27/30)
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0
rem@n73sm ~/Pay closer attention to other parameters and overall drive health (High_Fly_Writes) $
registres SMART complets - n40l sd[abcdef] - 17 nov. 2018
smartctl -a sda - n40l - 17 nov. 2018
smartctl -a sdb - n40l - 17 nov. 2018
smartctl -a sdc - n40l - 17 nov. 2018
smartctl -a sdd - n40l - 17 nov. 2018
smartctl -a sde - n40l - 17 nov. 2018
smartctl -a sdf - n40l - 17 nov. 2018