Indexation et métadonnées

L’indexation est une fonction centrale des outils de GED, qui correspond principalement à ajouter des métadonnées aux documents et/ou fichiers.

Types de document

On définit des types de documents d'une GED comme on définit des types de contenus dans un CMS. Un type de document est définit par ses champs qui sont les métadonnées attachées au fichier. Un workflow de validation avec une gestion de droits complètent la définition du type de document. Dans certains cas on peut regrouper plusieurs fichiers en un seul document avec un seul jeu de métadonnées pour des recherches groupées.

Comme dans notre solution FlexiGED il est important que le jeu de métadonnées dépende du projet de GED à mettre en place. Nous parlons ici de données métiers propre à chaque projet. Il faut trouver le bon compromis entre la richesse d’informations, l’exploitation qui doit pouvoir en être faite, et la quantité de travail ou de développement que représente l’alimentation des métadonnées. En effet, s’il est parfois contre-productif d’obliger à saisir 15 métadonnées pour un document courant, certaines utilisations peuvent, au contraire, nécessiter des jeux de métadonnées importants.

Sans tomber dans la sur indexation (trop de métadonnées pour un type de document) ou l’indexation libre (nombre insuffisant de contrôles) la liste des métadonnées doit donc

  • permettre une indexation pertinente, qui reflète précisément les documents décrits tout en incitant les contributeurs à alimenter
  • couvrir l’ensemble des informations utiles à l’exploitation. La recherche bien entendu, mais également les processus et traitements appliqués aux documents tels que les alertes, la traçabilité, l’affichage…

Indexation manuelle

La notice (ou fiche) décrivant un document est souvent le premier point d’entrée des utilisateurs. C’est également ce formulaire qui est le plus utilisé par les contributeurs, puisqu’ils devront saisir de l’information.

Pour ce faire, et dans un souci d’ergonomie, de fiabilité et de productivité, les solutions de GED doivent faciliter la contribution, directement ou par le biais d’une intégration légère, par exemple :

  • copier/coller entre le document électronique et les métadonnées. Ceci est particulièrement pertinent lorsque le document électronique est issu d’une numérisation et qu’il est possible de le visualiser sur le même écran que la fiche d’indexation
  • aide à la saisie, dès que possible, par exemple :
    • des listes de contrôle qui permettent de fiabiliser le fond (sémantique) et la forme (orthographe notamment) de la saisie
    • des cases à cocher ou des boutons radio pour les choix multiples
    • des boîtes de dialogue adaptées aux tables des valeurs de référence (listes des choix possibles). Ceci pouvant aller de la simple liste déroulante, à des interfaces disposant d’une recherche avec autocomplétion ou d’une navigation (abécédaire, arbre) dans les valeurs de référence
    • suggestions pour un champ donné (cf « Induction de métadonnées »).

Indexation automatique et extraction de métadonnées

Il existe plusieurs modes d’extraction de métadonnées.

  • Récupération d’informations: Chaque fichier informatique est doté d’informations issues du système de gestion de fichiers. Certaines peuvent être pertinentes comme des métadonnées : le nom du fichier, les dates de création et de modification, sa taille, son emplacement… Les solutions de GED proposent de récupérer certaines de ces informations. Il est également possible, notamment dans le cadre d’une reprise d’historique, de les travailler de façon à reconstituer une indexation par mot clé, par exemple en décomposant l’emplacement ou la structure d’un nom sous forme d’une succession de termes qui serviront à l’indexation.
  • Extraction de données structurées: Certains formats de fichier disposent d’une structure lisible. C’est notamment le cas pour nombre de formats ouverts, ODF par exemple, mais également des formats MS Office, par le biais de leurs propriétés. Lorsque ces structures sont connues et documentées, il est possible d’utiliser des automates pour extraire les informations pertinentes directement depuis le fichier et les utiliser pour alimenter une fiche d’indexation.

 

Induction de métadonnées

Certaines solutions, les plus élaborées, permettent de déterminer automatiquement les métadonnées les plus pertinentes pour indexer un document.
Ce type d’induction de métadonnées est souvent réalisé par :

  • des outils de reconnaissance, qui retrouvent dans un document les chaînes de caractères présentes dans un référentiel pouvant être ajoutées à la notice
  • des outils statistiques, qui analysent les chaînes de caractères les plus présentes et donc potentiellement les plus représentatives
  • des outils sémantiques, capables d’extraire automatiquement les mots et expressions les plus pertinents, voire de reconnaître s’il s’agit de mot-clé, de date, du titre…

Ces différentes approches sont souvent combinées.
Les outils les plus évolués permettent, au prix d’une diminution de la pertinence d’indexation par rapport à l’indexation manuelle, de prendre en compte très rapidement, de très grandes quantités d’informations.

adonn
ged-fonctions
593