Labo #20 – Dédoublonnage et fusion

On avait parlé dans un post précédent des technologies utilisées pour notre moteur de dédoublonnage. Désormais, la fonctionnalité complète, intégrant la fusion automatique ou manuelle des doublons repérés est disponible. C’est une mécanique puissante mais précise et ça se passe comme ça :

  • Le moteur de dédoublonnage identifie les structures qui présentent des “bouquets de données” identiques : nom structure + ville, nom personne + site web, etc, en ayant effectué un travail préalable de lématisation (les noms sont débarrassés des espaces, des articles, des caractères accentués et des mots communs comme “festival” ou “association”)
  • Les doublons sont listés avec la mention du niveau de doublonnage supposé : de “avéré” lorsque plusieurs bouquets de données correspondent, jusqu’à “potentiel” si seules certaines données sont identiques.
  • La machine est puissante, mais des doublons hyper subtils peuvent lui avoir échappé. L’utilisateur a donc la possibilité de déclarer manuellement des doublons, par exemple en recherchant sur un ville ou avec un nom de structure.  Ces doublons s’ajouteront à la liste avec le statut “manuel”, évidemment.
  • Les structures concernées par chaque cas de doublon (ou de triplon, ou de quadruplon) peuvent être affichées côte à côte, afin de vérifier l’ensemble de leurs données, et de constituer une fiche unique à partir de la fusion de ces données. Ici pas de copier / coller : tout se fait au clic.
  • Astuce pratique : la fonction “Smart Fusion” permet de compléter une fiche avec les données complémentaires issues de son doublon.
    A noter que tous les types de données liées à la structure sont concernée par la fusion : les commentaires, périodes de diffusion, salles, dates posées, correspondances, contrats… La structure finale récupérera toutes ces infos éventuellement présentes dans ses doublons.
  • Nouveauté : Cette Smart Fusion peut également être déclenchée massivement, sur l’ensemble des doublons “avérés”, par exemple. Mais il est recommandé d’avoir préalablement checké la liste, afin d’en exclure les faux doublons éventuels
  • Enfin, chaque fiche structure initiale est conservée en archive. Il ne sera pas possible de l’utiliser à nouveau comme une fiche contact classique, mais les données qui auraient éventuellement été effacées lors de la fusion pourront être affichées et récupérées.

Cette nouveauté sur la fusion massive des doublons est la fonctionnalité qui impacte le plus le fichier des utilisateurs. En quelques minutes, le fichier est cleané, resserré, et les fiches contacts sont complétées. Pour parer tout risque, une archive complète de la base est sauvegardée avant toute fusion massive. Ainsi, s’il apparaît que des données ont été perdues lors d’une fusion lancée un peu légèrement, nous avons la possibilité de remonter la version antérieure de la base de données.
C’est en particulier ce point qui sera observé lors de la phase de béta test.