Tengo un problema recurrente durante un mes más o menos con mi (único) SSD conectado a un puerto nvm.

Configuración:

OS: Archlinux
Laptop Razer Blade Stealth 2017
SSD: `Samsung NVMe SSD Controller SM951/PM951`

Cuando comienza el problema (de repente, puede ser después de 10 segundos de arranque o 2 horas), todo mi proceso comienza a fallar debido a Input/Output error. En algún momento justo antes del error IO, recibo algunos Read-only filesystemerrores.

¡A veces reinicio la computadora portátil y ya no detecta mi dispositivo! (Arrancar directamente en la BIOS porque ... no hay dispositivos y luego, si entro en una sección nvm de la BIOS, dice que no se detecta nada ...)

¡Claramente un SSD corrupto aquí! Ejecuto el básico fscky badblocks, ambos me dicen que todo está bien. Enjuagué todo el dispositivo con nulas nulas e instalé nuevamente mi sistema operativo, todavía tengo el problema.

esta es la salida de smartctl --all /dev/nvme0n1

=== START OF INFORMATION SECTION ===
Model Number:                       SAMSUNG MZVLV512HCJH-00000
Serial Number:                      S2J6NX0H906873
Firmware Version:                   BXV7000Q
PCI Vendor/Subsystem ID:            0x144d
IEEE OUI Identifier:                0x002538
Controller ID:                      1
Number of Namespaces:               1
Namespace 1 Size/Capacity:          512,110,190,592 [512 GB]
Namespace 1 Utilization:            511,650,234,368 [511 GB]
Namespace 1 Formatted LBA Size:     512
Local Time is:                      Wed Sep 12 21:59:29 2018 IST
Firmware Updates (0x06):            3 Slots
Optional Admin Commands (0x0007):   Security Format Frmw_DL
Optional NVM Commands (0x001f):     Comp Wr_Unc DS_Mngmt Wr_Zero Sav/Sel_Feat
Maximum Data Transfer Size:         32 Pages

Supported Power States
St Op     Max   Active     Idle   RL RT WL WT  Ent_Lat  Ex_Lat
 0 +     6.00W       -        -    0  0  0  0        5       5
 1 +     4.20W       -        -    1  1  1  1       30      30
 2 +     3.10W       -        -    2  2  2  2      100     100
 3 -   0.0700W       -        -    3  3  3  3      500    5000
 4 -   0.0050W       -        -    4  4  4  4     2000   22000

Supported LBA Sizes (NSID 0x1)
Id Fmt  Data  Metadt  Rel_Perf
 0 +     512       0         0

=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART/Health Information (NVMe Log 0x02, NSID 0x1)
Critical Warning:                   0x00
Temperature:                        37 Celsius
Available Spare:                    100%
Available Spare Threshold:          10%
Percentage Used:                    1%
Data Units Read:                    10,189,885 [5.21 TB]
Data Units Written:                 14,400,717 [7.37 TB]
Host Read Commands:                 145,666,903
Host Write Commands:                268,275,465
Controller Busy Time:               1,937
Power Cycles:                       2,475
Power On Hours:                     3,256
Unsafe Shutdowns:                   438
Media and Data Integrity Errors:    0
Error Information Log Entries:      1,985

Error Information (NVMe Log 0x01, max 64 entries)
Num   ErrCount  SQId   CmdId  Status  PELoc          LBA  NSID    VS
  0       1985     0  0x0018  0x4004  0x000            0     0     -
  1       1984     0  0x0012  0x4004  0x000            0     0     -
  2       1983     0  0x0007  0x4004  0x000            0     0     -
  3       1982     0  0x0006  0x4004  0x000            0     0     -
  4       1981     0  0x0005  0x4004  0x000            0     0     -
  5       1980     0  0x0009  0x4004  0x000            0     0     -
  6       1979     0  0x0009  0x4004  0x000            0     0     -
  7       1978     0  0x0003  0x4004  0x000            0     0     -
  8       1977     0  0x0004  0x4004  0x000            0     0     -
  9       1976     0  0x0007  0x4004  0x000            0     0     -
 10       1975     0  0x000b  0x4004  0x000            0     0     -
 11       1974     0  0x0001  0x4004  0x000            0     0     -
 12       1973     0  0x0012  0x4004  0x000            0     0     -
 13       1972     0  0x001c  0x4004  0x000            0     0     -
 14       1971     0  0x0000  0x4004  0x000            0     0     -
 15       1970     0  0x0012  0x4004  0x000            0     0     -
... (48 entries not shown)

Intenté un smartctl -t short /dev/nvme0n1pero desafortunadamente, no parece funcionar.

¿Alguien puede señalarme en la dirección correcta? No me importaría cambiar mi SSD, pero tengo miedo de que pueda ser un controlador defectuoso y luego tendría que reemplazar la placa base (o la computadora portátil)

Thomas Leclercq
fuente