Catnoo
Notes de paramétrage de postes de travail, et autres vicissitudes ...

Accueil > Optimisation diverses > déduplication des fichiers

déduplication des fichiers

dimanche 18 avril 2021, par Lucien-Henry

Problématique

A force de faire des copies de copies de disque dur, on se retrouve à avoir plusieurs disques durs qui contiennent plusieurs sauvegardes respectives de plusieurs PC ayant chacun plusieurs fois les même fichiers sous plusieurs noms différents ! On ne parle pas ici des multiples versions de ces fichiers ...

Du coup, il y a fort à parier qu’un seul disque dur suffit pour sauver convenablement et en une seule fois l’ensemble des fichiers. Un second disque convenablement synchronisé à postériori devrait suffire.

Cahier des charges

Le logiciel doit :
- Permettre de synchroniser des répertoires
- Rechercher les doublons de contenu de fichier (par exemple, si toto-date.doc et date_tutu.doc ont la même taille, le même hash et exactement le même contenu quand on les ouvre ... sauf qu’on les a renommé différemnent entre deux backups
- Rechercher les doublons de nom de fichier et dire si ce sont vraiment les mêmes : le fichier toto.doc et toto.doc ont respectivement 140 Ko et 356 Ko de taille, rhooo.
- Nettoyer les noms de fichiers de façon à les rendre stockables et réutilisables de façon pérenne.

Nettoyage de nom et d’arborescence de fichier
Vous me direz : Qu’est-ce que cette stupidité ?
Exemple de fichier à nettoyer, le fichier créé par Madame Michu (une brave secrétaire qui n’a rien à faire de l’informatique, des exigences d’un système de fichier, mais doit très vite enregistrer les mails de son patron sur une clé USB pour les imprimer plus tard tout en les partageant à son vieux collègue de la comptabilité).
Madame Michu, prend Outlook, fait glisser / déplacer sur la clé dans le répertoire D :\Clé USB\Monsieur Tartemolle des Genoux-Trémoullière\Client - Conseil Planète & Préservation\Avocat Lamberts & Co\Re : Contentieux Tr : Lettre de relance amiable de paiement impayés !!!.msg
Pourquoi Madame Michu a-t-elle donc créé un nom de fichier pareil ? Mais c’est pourtant très logique ! Quoique n’ayant rien à foutre d’un ordinateur, Madame Michu est une personne très consciencieuse dans son travail et très ordonnée :

  • Son patron, vous l’aurez compris, s’appelle Tartemolle des Genoux-Trémoullière, de la société Tartemolle et Fils
  • Le client du patron est la société de service Conseil Planète & Préservation
  • Monsieur Tartemolle tente désespérément de se faire payer par son client
  • Sachant ce que coûte un procès au regard du montant à payer, il a demandé au cabinet Avocat Lamberts & Co de lui rédiger une lettre de relance, ferme, mais amiable ...
  • Il a envoyé la lettre (contenant un fichier Lettre Relance du 18 Avril 2021.doc) par courrier électronique à son client, puis transféré à son avocat le courrier électronique. Ceci explique le TR : . Notez bien les 3 espaces entre impayés et les points d’exclamation  !!!, car Monsieur Tartemolle voulait bien souligner son mécontentement derrière sa volonté de recours amiable. Monsieur Tartemolle ne sait pas qu’il ne faut pas mettre de point d’exclamation dans un intitullé de courriel, et encore moins multiplier les espaces, par contre, il a un certain talent graphiste dans l’écriture d’un texte.
  • Le cabinet d’avocat lui répond, l’intitullé du mail est donc Re : Contentieux Tartemolle Tr : Lettre de relance amiable de paiement impayés !!!.msg
  • Madame Michu, qui était en copie du mail, se dit qu’il faut qu’elle quitte son travail tôt et donc qu’elle va partager la clé USB à l’expert-comptable en faisant un détour par son cabinet tout en l’imprimant chez elle (car la société Tartemolle n’étant pas encore passée sous Office 365, ne donne toujours pas accès aux mails depuis le domicile : télétravail impossible). Alors Madame Michu, vous niez toujours n’avoir jamais vécu cette situation ?

Si vous n’êtes pas un peu administrateur système Windows, vous vous êtes déjà offusqué de tant de clichés si rabaissants pour les secrétaires, les petits patrons paternalistes, les clients mauvais payeurs, les avocats, et même les ours polaires ... Vous n’avez qu’une idée en tête : me dénoncer à la ligue de protection pour la responsabilité sociale et sociétale. En même temps, quelle idée de visiter ce site qui ne vous est pas destiné si vous ne voulez pas faire l’effort de vous imprégner de la bonne volonté sous-jacente qui le motive ?
Si vous êtes un peu administrateur système et avez déjà tenté de graver sur cédérom un tel répertoire : vous avez très bien compris de quoi je parle et compatissez !

L’utilisateur lambda ne fais jamais attention à nommer ses fichiers, répertoires et arborescence de répertoires de façon à ce que l’ordinateur ne plante jamais.
Microsoft a tenté dès Windows 95 de trouver des solutions qui lui masquaient la complexité, Linux utilise un système de fichier avec des limites très grandes. Sauf que, même si la NTFS n’a pas les exigence "8 caractères non accentués _ point _ 3 caractères d’extension", l’arborescence n’en est pas moins limitée quelque soit le système de fichier et il faut toujours respecter la compatibilité de plus bas niveau pour que les nommages de fichiers restent pérennes dans le temps.

J’appelle donc Nettoyage de nom et d’arborescence de fichier, le fait de transformer automatiquement la merde immonde créée (en tout bien tout honneur) par Madame Michu, en quelques chose qui sera réutilisable par la postérité ... voir avec un nombre significatif de technologies informatiques (le PC du patron, de l’avocat, du stagiaire du cabinet d’expert-comptable, du juge et du greffe du tribunal, sans compter les cédéroms, les systèmes de fichier en FAT32, exFAT, en NTFS, rawfs, ext2, ext4, jfs, reiserfs).

Logiciels identifiés

FreeFileSync
Très pratique logiciel de synchronisation de répertoire quand il marche bien, terrible moyen de perdre ses données si on l’utilise mal.
SyncToy

Liens

SPIP | | Plan du site | Suivre la vie du site RSS 2.0
Habillage visuel © digitalnature sous Licence GPL