Oleksandr Gavenko -> [email protected] @ Thu, 24 Mar 2016 13:11:05 +0200:
OG> В районе 2010 писалось что производители выпускают HDD с заведомо "битыми" OG> блоками. При текущей плотности записи этого не изсежать. Используются коды с OG> обнаружением/корекцией ошибок. Со временем диск деградирует и предусмотренна OG> даже "свободная" область, куда со временем перемещаются данные из ненадежных OG> областей. Когда область заканчивается контролер диска по SMART скажет что он OG> сдох. OG> Не знаю на сколько это правда. Также не знаю кто происходит во флеше, но OG> парочку сдохших имею. OG> Раз данные постоянно портяться на носиталях важно не только сохранить в бекапе OG> но и контролировать целостность. OG> Т.е. OG> $ cp -al /old /new OG> $ rsync /data /new OG> в случае выхода из строя /data или "rm -r /data/random/dir" позволит OG> восстановить данные. Но никакой гарантии целосности данных не дает. OG> Чем дополнить приведенные выше строчки что бы фоточки дожили до внуков без OG> битых битов? OG> Обсчитывать md5sum и периодически проверять? Можно еще подписать ключем хеши. OG> Для целосности выходит что rsync не совсем годен, если для старых копий можно OG> держать хардлинки, то для новых файлов желательно просчитать новую контрольную OG> сумму. За целостностью данных у нас следят простые intrusion detection systems. В твоем случае, возможно, сгодится fcheck. Но общий принцип прост: чексумма должна храниться, и должна быть такой, чтобы при повреждении данных их можно было восстановить. По документации, этим свойством обладает, например, RAID-Z у zfs. Он не только вылет диска переживает, но и битый бит может восстановить. zfs сама по себе проверяет чексуммы (и при чтении тоже), но понятно, что узнать "данные побились" и восстановить данные - не одно и то же. В качестве более простого и надежного решения - база md5sum (если речь не идет о намеренном вторжении, то md5 достаточно), и более одной копии архива (тут уже речь идет скорее об архиве, а не о бэкапе). Каковые копии никогда не втыкаются в один комп (что подразумевает физически разные носители). И, соответственно, если регулярная проверка одной копии показала несовпадение md5, эти данные восстанавливаются из другой копии.

