En anglais, Search engine, un moteur de recherche est un outil qui recense automatiquement des ressources se trouvant sur Internet. Par opposition aux répertoires, un moteur offre une base de données référençant des pages en texte intégral.


Qu'est-ce qu'un moteur de recherche ?

En anglais, Search engine, un moteur de recherche est un outil qui recense automatiquement des ressources se trouvant sur Internet. Par opposition aux répertoires, un moteur offre une base de données référençant des pages en texte intégral.
Voir fiche sur Les répertoires ou annuaires

Fonctionnement général

Les moteurs de recherche fonctionnent avec des index construits automatiquement à partir de la collecte de robots (en anglais robots, spiders ou encore crawlers) qui parcourent le Web en permanence et engrangent les résultats d'exploration des pages Web.

Les robots

L'ensemble des pages web est visité de manière régulière par des logiciels, appelés robots, qui les répertorient. À partir de cette collecte, les gestionnaires des moteurs constituent des bases de données qui sont ensuite traitées par des logiciels d'indexation.

L'indexation est effectuée sur le texte intégral. Elle peut porter sur les titres seuls, sur l'ensemble de la page, sur les premiers paragraphes, sur les « meta-tags », sur les en-têtes de paragraphes...

Un robot a pour seule mission d'explorer le net. Il y tourne 24 heures sur 24. Un robot international tel que celui d'Altavista (robot nommé Scooter) fait le tour de l'Internet en six semaines.

Les meta-data : le retour des mots-clés

Les meta-data, ou méta-données, contiennent des informations relatives aux pages affichées. Elles sont stockées dans des balises particulières du langage HTML, appelées meta tags qui se trouvent dans une partie non affichée de la page. Ceci permet d'insérer des éléments de description tels que des mots-clés, des indications d'auteur de la page, etc., invisibles au lecteur (dans la zone Head - en français En-tête - de la page HTML).

Leur lecture peut être effectuée en accédant à la source de la page HTML dans le navigateur.

Exemple de balises meta (source : ancien site : dfrochot.free.fr/DAUTME.html) :
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
<meta name="Author" content="Didier Frochot">
<meta name="Keywords" content="droit d'auteur, droit de copie">
<meta name="Description" content="Texte de synthèse sur le droit d'auteur et son usage en documentation">
<meta name="Copyright" content="Didier Frochot, 1998">
<meta name="GENERATOR" content="Mozilla/4.75 [fr] (Win95; U) [Netscape]">
<title>DF - Droit d'auteur Mode d'emploi - Texte principal</title>

Ces balises permettent au créateur de pages sérieux de fournir des informations importantes sur ses pages sous forme de « méta description » (d'où leur nom). On voit, au passage qu'il s'agit, ni plus ni moins, que de remettre à l'honneur la description bibliographique...
Mais ces meta-data laissent libres, les créateurs de pages indélicats, de cacher le contenu de leur site derrière des mots-clés inadéquats (spoofing).

C'est pourquoi certains moteurs de recherche préfèrent complètement ignorer ces balises et s'en tenir aux informations contenues dans la partie de la page affichée.

Pondération et critères de pertinence

La pondération des informations se fera également en fonction de la place des mots dans la page. Ainsi, les mots présents dans des titres ou intertitres pourront être considérés comme ayant plus de poids que les mêmes mots simplement présents dans le corps du texte.
Les critères de pertinence attribués aux pages sont différents selon les moteurs. Alta Vista et Excite attachent plus de poids aux termes qui se trouvent dans le titre ou dans les premiers paragraphes du texte. Google annonce qu'il donne plus de poids à la popularité de la page en question (nombre de fois où la page est citée par des liens à partir d'autres sites), un peu sur le modèle du Science citation index, bien connu des scientifiques.
Cet ensemble de paramètres, croisé avec le savoir-faire technique et linguistique des moteurs - relève du secret de fabrique, et fait la plus ou moins grande qualité d'un moteur.

L'interface de recherche

Ce qu'on appelle couramment moteur de recherche est la partie de l'outil qui permet la recherche par l'utilisateur. Cette interface interroge la base dans laquelle sont engrangés tous les résultats de l'exploration du robot.

Ainsi, lorsqu'on interroge un outil de recherche (moteur ou répertoire d'ailleurs) on n'interroge pas le net lui-même, à son état du moment, mais une image du net constituée plusieurs semaines auparavant.

Quelques moteurs de recherche généralistes

Nous citons ici quelques-uns des moteurs actuellement les plus célèbres. Il existe en réalité plusieurs centaines de moteurs dans le monde.... Les quatre que nous citons ici sont des outils de recherche généralistes, ils comptent parmi les meilleurs du moment. Nous donnons en principe l'adresse de la version française du moteur.

Google

Créé en 1998, Google n'a pas cessé d'être le meilleur depuis qu'il est lancé. (www.google.fr)

Alltheweb

Créé en 1999, Fast, devenu All the Web, a été le premier moteur le plus rapide au monde et à dépasser le seuil, à l'époque mythique, des 200 millions de pages indexées. Très vite rejoint par Google en termes de performances, ce moteur est à nos yeux aujourd'hui dépassé par son challenger au niveau des résultats. (www.alltheweb.com) Pas de version française mais All the Web parle couramment 46 langues...

Hotbot

HotBot fait figure d'ancêtre, au côté d'Altavista. Il a longtemps fait figure du challenger qui gagne face à lui. Parmi les moteurs de cette époque, il est un des seuls à s'être maintenu à un niveau de qualité supportant la comparaison avec ceux de la nouvelle génération (Google et Alltheweb). (www.hotbot.fr)

Altavista

C'est le plus ancien des quatre moteurs. Il est aussi, au côté de HotBot, celui qui a su le mieux résister à la concurrence. S'il a perdu pendant quelque temps de son intérêt, Altavista est redevenu un des très bons outils du moment. (www.altavista.fr)

|cc| Didier Frochot — décembre 2000 — décembre 2003