Google veut proposer une approche plus naturelle et intuitive de la recherche en ligne

Si Google a commencé par se focaliser sur la recherche textuelle, des efforts ont été entrepris pour développer des moyens plus naturels et intuitifs de chercher des informations : il est ainsi possible aujourd'hui d’effectuer des recherches à partir d’une photo ou d’une commande vocale.

À l’occasion de l'événement Search On qui a eu lieu le 28 septembre 2022, les équipes de Google ont voulu montrer que les progrès en matière d’intelligence artificielle ouvrent le champ des possibles pour pousser ses produits encore plus loin. L'objectif est d'aller au-delà de la barre de recherche afin de créer des expériences de recherche multidimensionnelles, plus en ligne avec le fonctionnement de l’esprit humain.
Comme l'explique Prabhakar Raghavan, Senior Vice President : "Nous rêvons d’un monde où l’on peut trouver une information précise de la manière la plus naturelle qui soit, en combinant images, sons, texte et parole. Un monde dans lequel l’utilisateur n’aurait pas besoin de formuler toute une requête pour que le moteur de recherche comprenne son intention. Il pourrait même exprimer sa recherche sans le moindre mot, et avoir accès à toutes les informations du monde organisées d’une manière qui lui ressemble."

Pour tendre toujours plus vers cette approche plus naturelle et intuitive de la recherche en ligne, Google a ainsi pu présenter trois avancées qui permettent de faire évoluer ses produits dans ce sens.

Une recherche visuelle plus naturelle

Les appareils photo existent depuis des centaines d’années. Ils sont généralement perçus comme des moyens de préserver des souvenirs ou, plus récemment, de créer du contenu. Aujourd’hui, un appareil photo peut également être un outil formidable pour accéder à l’information et comprendre le monde qui nous entoure, au point de remplacer nos claviers. C’est dans cette optique qu'a été lancé Google Lens en 2017, inaugurant l’ère de la recherche visuelle à l’aide d’un appareil photo ou d’une image. L’outil traite désormais 8 milliards de requêtes par mois.

Afin de rendre la recherche visuelle encore plus naturelle, Google a créé Multisearch, un moyen inédit d’effectuer des recherches à partir d’images et de textes simultanément, de la même manière qu’on pointe du doigt l’objet de sa question tout en la posant. Cette année, Google a ainsi lancé la version bêta de Multisearch aux États-Unis et l'outil va être étoffé avec plus de 70 langues dans les mois à venir. Par ailleurs, Google veut aller encore plus loin avec la fonction « Multisearch près de moi », qui permet de prendre une photo d’un objet inconnu, par exemple un plat ou une plante, puis de le trouver dans un endroit proche, comme un restaurant ou un magasin de jardinage. Cet automne, cette fonction « Multisearch près de moi » sera déployée en anglais aux États-Unis.

Traduire le monde qui nous entoure

L’un des avantages de la communication visuelle est sa capacité à faire tomber les barrières linguistiques. Grâce aux progrès récents en matière d’IA, nous sommes passés de la traduction de texte à la traduction d’images. Google a enregistré chaque mois plus d’un milliard d’utilisations de la fonctionnalité qui permet de traduire du texte figurant dans des photos. Ses utilisateurs peuvent ainsi comprendre ce que veulent dire certains supports tels que des enseignes, des menus ou des pancartes dans plus de 100 langues différentes.

Cependant, c’est souvent la combinaison des mots et de leur contexte qui fait sens. Il est désormais possible de réintégrer le texte une fois traduit dans l’image originale grâce aux réseaux antagonistes génératifs (en anglais generative adversarial networks ou GAN), une technologie d’apprentissage automatique de nouvelle génération.

Explorer le monde grâce à la vue immersive

Grâce aux progrès en matière de vision artificielle et de modèles prédictifs, Google réimagine le concept de la carte, en passant d’une image en 2D à une vue multidimensionnelle du monde réel, afin que l’utilisateur puisse se représenter un lieu comme s’il y était.

Au même titre que l’affichage du trafic en temps réel, la vue immersive promet d’enrichir Google Maps en proposant une représentation dynamique de renseignements utiles tels que la météo et l’affluence. Cette nouvelle fonctionnalité va au-delà des renseignements classiques, et aide l’utilisateur à se faire une idée d’un lieu avant d’y avoir mis les pieds.

Plus d'infos : https://france.googleblog.com/2022/09/Searcon-2022.html

Fabrice MOLINARO