Née dans les années 1960, dès qu'on a pu envisager de traiter autrechose que des calculs avec les ordinateurs, l'informatique documentaire, rebaptisée plus génériquement "informatique du contenu", s'est développée très rapidement.

Court historique

L'informatique documentaire est née très tôt par rapport à la mise au point de l'informatique. Dès qu'on a eu conscience que les ordinateurs n'étaient pas seulement capables de réaliser des calculs mais aussi de traiter des chaînes de caractères (et donc des suites de lettres constituant des mots) des chercheurs se sont penchés sur la problématique du traitement documentaire.
Il faut aussi se souvenir qu'à l'origine, la puissance de traitement et les volumes de stockage étaient très limités et vont le rester assez longtemps. De sorte qu'on a commencé par des systèmes de références bibliographiques, le texte intégral s'étant développé bien plus tard, même si les principes de traitement étaient déjà en partie connus.
C'est donc dans les années 1960 que les premiers essais d'informatique documentaire se mettent en place. Deux grands axes vont se développer, alors qu'ils sont issus de la même réflexion et des mêmes principes : le développement de logiciels documentaires à implanter sur les ordinateurs des usagers, qui continue à porter le nom d'informatique documentaire, et les développements de vastes gisements de bases bibliographiques accessibles sur des « serveurs » par des réseaux de télécommunication, et ce sera l'industrie des bases de données. Ainsi, naissent les grands serveurs de bases de données, dont le plus célèbre et le plus vaste est et reste Dialog (cf. La chaîne de production et d'utilisation d'une base de données). La télématique grand public à la française (1981) constituera le point avancé de ce qui deviendra le réseau mondial Internet avec l'apparition du Web en 1993.
Les moteurs de recherche en texte intégral sont en quelque sorte le maillon le plus avancé de l'informatique documentaire, qu'on préfère nommer d'un terme générique plus scientifique mais plus précis : l'informatique du contenu (informatique capable de traiter du contenu de tout document quel qu'il soit ; une partie de cette discipline, telle que la reconnaissance de formes), est encore en gestation.

Principes de fonctionnement

Le fichier maître

À la base de tous les systèmes d'informatique du contenu, il y a le stockage de données, structurées ou non, dans des fichiers. Le fichier de base dans lequel sont stockées les données est appelé fichier maître. C'est la base des données au sens étymologique du terme. Les données peuvent être structurées ou non. Ainsi le fichier catalographique d'une bibliothèque, d'un centre de documentation ou autre est-il structuré puisqu'on a divisé la notice bibliographique en un certain nombre de zones qui contiendront toujours le même type d'information : titre, mention de responsabilité, édition... ces zones sont appelés champs en informatique documentaire. Un exemple de fichier non structuré sera celui qui accueillera du texte intégral, avec un champ titre et un champ pour inclure tout le texte.

Les fichiers inversés ou index

Pour réaliser une recherche dans une base de données constituée selon les principes décrits ci-dessus, plusieurs possibilités existent. On l'a vu, l'informatique est capable de traiter des chaînes de caractères. Il suffit donc de demander au système informatique de rechercher tel mot (ou combinaison de mots) dans l'ensemble du corpus stocké. Dans ce cas, le système informatique très discipliné et très puissant (mais très bête !) va réaliser la recherche demandée dans la totalité du fichier maître, de la première à la dernière fiche (ou enregistrement en jargon informatique). Il retrouvera ainsi immanquablement le ou les termes recherchés. Mais si l'opération peut durer quelques secondes sur un fichier maître de quelques centaines d'enregistrements, l'opération peut se révéler longue si la base atteint des milliers de fiches. Une des solutions serait de limiter la recherche à un champ des fiches (le champ auteur par exemple). Cela reste malgré tout long. Cette technique de recherche est appelée séquentielle puisque le système va explorer les fiches en séquence, c'est-à-dire dans l'ordre où elles ont été créées.
C'est pourquoi, des fichiers inversés sont créés autour du fichier maître. Ces fichiers comme leur nom l'indique un peu, sont le résultat de l'inversion du fichier maître. Ou plus exactement, il sont le renversement de l'ordre de recherche des mots pour accélérer celle-ci. Au lieu d'avoir un ordre séquentiel, c'est l'ordre alphabétique (ou numérique, ou par date...) qui va prévaloir. Or, un ordinateur normalement constitué est capable de se positionner directement sur la première lettre de l'alphabet recherchée puis sur la seconde, et ainsi de suite, sans dérouler l'ensemble du fichier. La base de données est alors indexée : on a créé un fichier inversé appelé aussi index par les informaticiens. Ce que nous venons de décrire suppose un seul index pour tous les champs de la base. C'est la solution qui prévaut dans les systèmes de recherche en texte intégral : l'indexation se fait sur tous les champs.
En combinant la technique de l'indexation avec les divers champs d'une base structurée, on obtient des index par champs, soit pour notre exemple ci-dessus, un index des titres, un index des auteurs, celui des termes d'indexation (au sens documentaire cette fois-ci !) et ainsi de suite.

Typologie des logiciels

Deux grandes séries de logiciels existent aujourd'hui sur le marché de l'informatique du contenu. Nous y ajouterons les logiciels de gestion de bibliothèque.

L'informatique "à champs"

Nous avons ainsi baptisé les logiciels qui permettent de gérer de l'information structurée en divers champs. Ce sera donc le cas des logiciels permettant de gérer des références bibliographiques respectant plus ou moins les normes de description en vigueur.
C'est dans cette catégorie qu'ont fleuri, en France, des logiciels tels que CDS-ISIS (logiciel international, produit sous l'égide de l'UNESCO, dont il existe une version française) destinés à équiper les pays en voie de développement et les bibliothèques et centres de documentation travaillant avec ces pays ou travaillant dans le secteur non concurrentiel.
Le célèbre logiciel Texto a fait partie de cette catégorie à l'origine, de même que JLB Doc, Superdoc et quelques autres.

Les logiciels de GED

Avec l'évolution des techniques de numérisation, est née la GED (Gestion électronique de document). Le premier logiciel à avoir été développé pour la GED fut Taurus. Ce logiciel documentaire est né pour les besoins de la documentation technique. Il présente aussi la particularité d'avoir été le premier logiciel directement développé sous Windows (les autres logiciels plus anciens étant né à l'ère de MS-DOS). Taurus est donc un système de gestion de documents numérisés avec un noyau documentaire qui relève de l'informatique à champs.

Les logiciels de texte intégral

L'évolution des techniques progressant, il est devenu courant de stocker du texte intégral numérique. Une nouvelle race de logiciels est donc née pour répondre à ce besoin : être capable de retrouver des informations dans le vaste océan du texte intégral. Ce sont les techniques de linguistique qui sont alors venues à la rescousse. Un des plus beaux exemples de cette catégorie de logiciels est Spirit. A partir de cette technologie héritée de la linguistique sont nés tous les logiciels qu'on nomme aujourd'hui moteurs de recherche (search engines en anglais) dont de brillants exemples sont présents sur Internet.

Les moteurs de recherche

A proprement parler, cette catégorie n'est que la suite et le développement (avec changement de dénomination au passage) des logiciels de texte intégral.
Ces moteurs permettent des recherches en texte intégral, sur des corpus de documents non structurés (des fichiers de traitement de texte, par exemple), en prenant en compte la position des mots, leur synonymie, leur sens, leur proximité phonétique... Plusieurs techniques linguistiques sont applicables, voire cumulables. Les grands moteurs de recherche disponibles sur Internet sont les vitrines du savoir-faire de leurs producteurs (d'où la gratuité de ces outils). On citera donc en France la Société Echo (moteurs Voilà et Extense), et parmi les très beaux outils internationaux, HotBot (version française : http://www.hotbot.fr), Fast / All the Web (http://www.alltheweb.com/) qui utilise 48 langues directement et Google (version française : http://www.google.fr), pour n'en citer que quelques-uns.

Les logiciels de bibliothéques

Ces logiciels ont à la base, un noyau documentaire classique, relevant de l'informatique à champs, afin de référencer la totalité du fonds documentaire possédé par une bibliothèque. A cette base s'ajoute :
- Des modules de description d'autres supports tels que cédéroms, vidéocassettes, disques compacts audio, etc.
- Des modules permettant de suivre toute la chaîne de vie d'un document, depuis sa sélection en vue de l'acquisition jusqu'à sa disparition, en passant par sa présence dans la médiathèque.
- Des modules permettant de gérer les prêts, c'est-à-dire d'enregistrer non seulement les ouvrages mais les emprunteurs, les emprunts, les retards, le réservations, etc. avec, le cas échéant, des applications d'édition automatique de lettres de relance.

|cc| Didier Frochot — octobre 2003