Le moteur Google

Historique et contexte

Cet outil, né à la mi-98 s'est imposé, au fil des années, comme le premier moteur au monde.
Avec ses 8 milliards de pages - 8 058 044 651 exactement (Source Google : http://googleblog.blogspot.com/2004/11/googles-index-nearly-doubles.html - 10 novembre 2004) -, Google détient l'index le plus important devant MSN Search et ses 5 milliards de documents (Source Microsoft : http://www.microsoft.com/presspass/press/2004/nov04/11-11searchbetalaunchpr.mspx - 11 novembre 2004), All The Web et ses 3,2 milliards de pages (estimation www.searchenginewatch.com - 2 Septembre 2003) et Yahoo Search Technology qui contiendrait plus de 3 milliards de pages (chiffre officiel non communiqué).
Le moteur français : www.google.fr
Par ailleurs, d'après le site OneStat (source Onestat : http://www.onestat.com/ html/aboutus_pressbox21.html), Google aurait totalisé, au début de l'année 2003, 55,2% du trafic "outils de recherche". Qui pourra freiner sa progression ? Sachant que la société continue à développer de nouveaux services (weblogs, liens sponsorisés, nouvelles options de recherche, etc.) qui lui permettent de rester un leader incontesté et redouté de l'Internet mondial.

Comment expliquer un succès aussi fulgurant ? À l'origine, il y a un algorithme - nommé PageRank - qui est développé par deux universitaires américains, Larry Page et Sergey Brin, à l'université de Stanford. Par ailleurs, à l'époque où les moteurs leaders du marché tendent à se transformer en portails grand public, les fondateurs de Google optent pour la simplicité. Résultat : une interface dépouillée - sans fioritures commerciales - tournée uniquement vers la recherche d'infos sur Internet. La rapidité d'interrogation de la base de données achèvera de lancer Google sur les routes du succès.

PageRank, le noyau de Google

Le moteur de Google effectue une analyse du contenu des sites Web repérés sur l'Internet. C'est ainsi que chaque page récupérée est scrutée par le robot à travers des éléments tels que les mots-clés, les occurrences, etc.
Mais Google s'appuie aussi sur le PageRank qui apparaît comme un système permettant de mesurer la popularité d'une page sur le web (nombre de fois où la page est citée par un lien depuis un autre site). Plus le PageRank est élevé, plus la page en question sera considérée comme populaire et par conséquent pertinente par Google.
Sur la page « Pourquoi Google ? » (http://www.google.fr/intl/fr/why_use.html), les représentants du moteur apportent les précisions suivantes : « Le principe de PageRank est simple : tout lien pointant de la page A à la page B est considéré comme un vote de la page A en faveur de la page B. Toutefois, Google ne limite pas son évaluation au nombre de « votes » (liens) reçus par la page ; il procède également à une analyse de la page qui contient le lien. Les liens présents dans des pages jugées importantes par Google ont plus de « poids », et contribuent ainsi à « élire » d'autres pages. »

L'indexation des fichiers bureautiques

Google a fait une partie de sa réputation sur sa capacité à repérer et à indexer dans sa base des fichiers de type bureautique : fichiers Word, Excel, Powerpoint, postscript, rtf et bien sûr pdf. Il est donc possible de retrouver des informations qui seraient consignées dans des documents de ces divers types, dans la mesure ou ces fichiers ont été rattachés à des pages web, ce qui augmente encore la puissance de recherche du moteur (cf. ci-dessous : affichage des résultats et aussi recherche avancée). Google a été le premier moteur à proposer cette fonction. Aujourd'hui Altavista et All the web le permettent également. D'autres moteurs repèrent les liens vers des documents bureautiques, mais n'en indexent pas pour autant le contenu.

Recherche d'informations - principes

Pour soumettre une requête, il suffit de taper un ou plusieurs mots dans la fenêtre de recherche avant de cliquer sur le bouton « Recherche Google » (ou d'appuyer sur la touche Entrer de son clavier).

Par défaut, un espace entre deux mots équivaut, dans Google, à l'opérateur « ET » (ou « AND »). Pour exemple, la requête :: droit information :: lancera une recherche sur les pages contenant tous ces termes mais pas nécessairement à la suite les uns des autres.
Pour que ces termes apparaissent dans un ordre voulu, il est conseillé d'introduire le signe « + » devant les termes de la recherche. Ainsi, la requête :: +droit+information :: donnera en priorité des résultats contenant le terme droit puis, à sa suite, le terme information.
Enfin, Google prend en compte les expressions. La requête « droit de l'information » (entre guillemets) donnera des pages contenant la chaîne de caractères « droit de l'information ».

Google ignore certains termes considérés comme des « mots vides », sauf dans les recherches sur des expressions. C'est le cas des articles (le, la, du, etc.) et de chaînes de caractères plus spécialisées (http, etc.). Enfin, Google ne tient pas compte de la casse des lettres. Toute lettre en majuscule sera donc automatiquement interprétée par le moteur comme une lettre en minuscule.

La recherche simple - comprendre et exploiter les résultats

Lorsqu'une recherche simple est lancée sur Google, plusieurs possibilités sont offertes par le moteur afin de limiter ou, au contraire, élargir le champ d'investigation.

Au-dessous de la fenêtre de recherche, il est possible de choisir d'effectuer sa recherche sur : le web mondial, les pages francophones, les pages France.
Au-dessus de la fenêtre de recherche, il est possible de choisir d'effectuer sa recherche sur : Le web mondial, les Images, les Forums de discussion (le réseau USENET), le Répertoire (DMOZ, l'annuaire contributif lancé par Google), l'Actualité (Google Actualités, le service d'actualité lancé par Google).
A droite du bouton « Recherche Google », se trouve un bouton « J'ai de la chance ». Ce dernier permet d'afficher directement la première page trouvée, celle qui sera considérée comme la plus pertinente par Google. Ainsi, un utilisateur qui tape « conseil constitutionnel » puis clique sur le bouton « J'ai de la chance » verra s'afficher directement le site du Conseil constitutionnel. Une fonctionnalité à utiliser tout de même avec modération et en fonction du type de recherche.

Lorsqu'une recherche est lancée dans Google, plusieurs éléments importants apparaissent : Le nombre de résultats trouvés par le moteur, le temps de recherche effectué et l'affichage des résultats (à raison de 10 résultats par page, par défaut).

Chaque résultat apporte les informations suivantes :

- Le titre de la page ;
- Un extrait de la page, faisant apparaître en gras les termes recherchés dans leur contexte ;
- L'adresse du site ;
- Le type de document. Ce sont en majorité des pages html mais Google permet aussi de trouver des documents de type bureautique présents dans des pages web (documents Word, Excel, Powerpoint, pdf, etc.).
- Le poids de la page
- La catégorie, si le lien trouvé est référencé dans le répertoire Google (DMOZ).
- Un lien « En cache » qui permet de consulter le contenu de cette page telle qu'il se présentait lors de la dernière exploration par le moteur. Cette fonctionnalité est très pratique lorsque le site n'est plus accessible. En mettant en cache les textes de toutes les pages explorées, Google permet donc de retrouver la trace d'informations dont le support a disparu de l'Internet.
- Un lien « Pages similaires » proposant d'explorer des pages web qui traitent de sujets semblables.

La recherche avancée - de nombreuses possibilités

Google propose plusieurs fonctionnalités intéressantes pour lancer des recherches plus précises.
Présent sur la page d'accueil du site, le lien « Recherche avancée » donne accès à un formulaire qui permet d'affiner sa requête.

Ce formulaire présente un éventail important de fonctions dont voici une sélection :

- La possibilité de délimiter la recherche aux pages contenant : tous les mots demandés, une expression, au moins un des mots demandés. Il est également possible d'exclure des termes (ce qui est déconseillé) grâce à l'option « aucun des mots suivants ».
- Limiter la recherche aux pages rédigées dans une langue donnée.
- Le format de fichier. Il est ainsi possible, par exemple, de rechercher uniquement des documents au format pdf.
- La recherche appliquée à un nom de domaine donné lorsqu'on sait que le document se trouve sur un site dont on connaît l'adresse tout en ne parvenant pas à retrouver le chemin exact du document. Cette fonctionnalité permet donc de limiter la recherche aux pages d'un site donné.

Google peut également rechercher les pages similaires à une page donnée ou encore de retrouver les pages liées à une page affichée.

Enfin, Google offre un certain nombre de petits services qui constituent un indéniable plus et qui participent au succès du moteur de recherche.

Parmi ces services, on peut mentionner :

- La barre d'outils Google qui permet de lancer des recherches dans Google sans se rendre sur le site du moteur. Cette « toolbar » permet, entres autres, de contraster les termes de recherche dans la page affichée et de faire la chasse aux pop-up qui empoisonnent le surf des internautes.
- L'outil de traduction automatique de pages web qui gomme les frontières linguistiques et offre ainsi un accès multiplié aux sources d'information.
- Un outil de conversion de fichiers pdf au format html pour récupérer plus facilement des textes contenus dans ces documents.
- Orthographe : un correcteur orthographique détecte automatiquement les fautes de frappe et les erreurs orthographiques lors de la formulation d'une requête. Cet outil ne se contente pas de repérer ces problèmes. Il propose un lien « Essayez avec cette orthographe » qui permet de relancer la recherche avec l'orthographe correcte, y compris pour certains noms propres.

Google actualités

Après avoir lancé Google News aux États-Unis, le moteur de recherche développe ses antennes dans plusieurs pays (Australie, Espagne, Italie, Allemagne, etc.) et en différentes langues.
Les internautes francophones peuvent désormais avoir accès à près de 500 sources d'informations de presse et médias francophones sur le site Google Actualités (http://news.google.fr/). Les informations sont classées par grands thèmes : A la Une, International, France, Économie, Science/Tech, Sports, Culture et Santé.
Les sources d'informations sont diverses : des grands quotidiens (Le Monde, Libération, etc.) aux magazines hebdomadaires en passant par des vitrines institutionnelles, les sites d'informations en ligne et quelques webzines qui ont retenu l'attention de Google.

Le site est mis à jour en continu tout au long de la journée. Le processus est complètement automatisé afin de présenter et mettre en valeur de nouvelles informations à chaque consultation. La sélection des informations - notamment des titres de la page d'accueil - est réalisée à l'aide d'algorithmes informatiques. Il n'y a donc aucune intervention humaine et donc pas de censure envisageable (même si celle-ci peut exister en amont au moment de la sélection des sources - celle-ci humaine - qui auront un droit d'entrée sur Google Actualités).
L'intérêt de ce service est grand car il permet de comparer l'interprétation d'un même événement par différents acteurs de l'information.

Le site d'information dispose aussi d'un outil d'alerte baptisé « Alertes Google Actualités ». Ce service, complètement paramétrable, permet d'être averti par e-mail dès qu'une nouvelle page d'un site contient les mots-clés et/ou l'expression qui intéressent l'internaute. « Alertes Google Actualités » permet, par exemple, de suivre l'évolution d'une affaire, de connaître l'actualité d'une personnalité ou encore de surveiller l'activité d'une entreprise.
Si ce service possède certaines limites (problèmes avec les questions de synonymie, choix obligatoirement judicieux des mots-clés pour ne pas subir de « spams » intempestifs, liens vers des archives qui deviennent payantes à plus ou moins court terme, etc.), « Alertes Google Actualités » peut s'avérer très utile pour certains besoins de veille sur un sujet donné.

Pour en savoir plus sur ce service de Google, consulter sur ce site l'article intitulé "Veille sur l'actualité via les moteurs de recherche (1) : Google News".

|cc| Fabrice Molinaro - mars - novembre 2004

Fabrice MOLINARO