Un moteur de recherche semantique unifié pour les sources du ministere de la Culture

Le ministère de la Culture a mis en ligne un nouvel outil de diffusion très performant.

Par une interrogation unique, le moteur Collections interroge directement trente sources documentaires différentes et affiche l'ensemble des résultats par ordre de pertinence. Les bases intégrées sont mentionnées dans la rubrique "Sources documentaires intégrées".

Les domaines les plus divers sont couverts : architecture, monuments historiques, archives, archéologie, préhistoire, objets mobiliers, peinture, sculpture, gravure, dessin, enluminures, arts du spectacles, ethnologie, plans, cartes, cartes postales, sceaux, photographie, patrimoine numérique, patrimoine industriel, patrimoine ferroviaire, patrimoine maritime et fluvial, voyages, théâtre, musique, danse, outre-mer, art africain, art océanien, art amérindien, événements, célébrations nationales ...

Les sources documentaires sont de natures variées : bases de données, sites  Web (statiques et dynamiques), publications électroniques.

Ce moteur intègre différentes techniques linguistiques, sémantiques, mathématiques et structurées qui font la qualité d'un moteur de recherche.

Il cumule ainsi :
  • Analyse morpho-syntaxique (trouver les mots sous toutes leurs formes en évitant les ambiguïtés)
  • Corrections phonétiques et orthographiques (qui pour des raisons précises ne peuvent pas fonctionner à tous les coups, en fonction des fautes présentes dans les documents, par exemple)
  • Analyse sémantique afin d'améliorer l'ordre de présentation des réponses dans la mesure du possible et d'apporter des élargissements par le sens de nombreuses autres expansions associés à des fonctionnalités variées et paramétrables (synonymie, reformulations, listes de termes, etc.)
Le ministère de la culture et de la communication produit de longues années des données d'une grande richesse, qu'il s'agisse de publications électroniques, d'inventaire ou de patrimoines numérisés.

L'accès à ces données était jusqu'à présent cloisonné et conçu pour des publics spécialisés. Il s'agit de plus de 240 sources documentaires :
  • Bases de données : Joconde, Mérimée, Mémoire... ;
  • Sites Web : célébrations nationales, grands sites archéologiques) ;
  • Ou encore des œuvres multimédias qui restent encore aujourd'hui difficilement accessibles sauf pour un public averti.
La réalisation du projet a débuté en novembre 2007. Le choix s'est porté sur le moteur sémantique  Intuition de la société Sinéqua.
Le projet a été piloté par une maîtrise d'ouvrage documentaire transversale. Un groupe Projet a été constitué représentant les directions des archives de France, de l'administration générale, de l'architecture et du patrimoine, des musées de France, du livre et de la lecture, de la mission de la recherche, de la délégation générale à la langue française, du département de l'information et de la communication.
Il s'est déroulé en deux phases, avec l'intégration de quatorze sources mises en ligne en avril 2007 et en août, de seize nouvelles sources documentaires.

Cette somme documentaire,  constituée depuis plus de trente ans par le ministère de la culture et de la communication, en liaison avec ses principaux partenaires dont notamment les collectivités territoriales, se poursuit et s'enrichit régulièrement de nouvelles données.

Source : Communiqué du Ministère de la culture et de la communication

Ajoutons qu'il est possible de poser un flux RSS sur une requête exécutée dans le moteur, via un lien présent au bas de la page de résultats de recherche "S'abonner à cette recherche".

Accès au moteur Collections : www.culture.fr/collections/

Didier FROCHOT