La recherche Google consiste en une série de sites web localisés. Le plus grand d'entre eux, le site google.com, est le site web le plus visité au monde. Parmi ses caractéristiques, on trouve un lien de définition pour la plupart des recherches, y compris les mots du dictionnaire, le nombre de résultats obtenus lors de la recherche, des liens vers d'autres recherches (par exemple, pour les mots que Google estime mal orthographiés, il fournit un lien vers les résultats de la recherche en utilisant l'orthographe proposée), et bien d'autres choses encore.
Syntaxe de recherche
Le moteur de recherche de Google accepte normalement les requêtes comme un simple texte, et décompose le texte de l'utilisateur en une séquence de termes de recherche, qui seront généralement des mots qui doivent apparaître dans les résultats, mais on peut aussi utiliser des opérateurs booléens, tels que : les guillemets (") pour une phrase, un préfixe comme "+", "-" pour des termes qualifiés, ou un des plusieurs opérateurs avancés, comme "site :". Les pages web de "Google Search Basics" décrivent chacune de ces requêtes et options supplémentaires (voir ci-dessous : Options de recherche).
Le formulaire Web de recherche avancée de Google comporte plusieurs champs supplémentaires qui peuvent être utilisés pour qualifier les recherches selon des critères tels que la date de la première extraction. Toutes les requêtes avancées se transforment en requêtes régulières, généralement avec des termes qualifiés supplémentaires.
Extension de la requête
Google applique l'extension de requête à la requête de recherche soumise, la transformant en requête qui sera effectivement utilisée pour récupérer les résultats. Comme pour le classement des pages, les détails exacts de l'algorithme utilisé par Google sont délibérément obscurs, mais les transformations suivantes font certainement partie de celles qui se produisent :
- Réorganisation des termes : dans la recherche d'informations, il s'agit d'une technique standard qui permet de réduire le travail de recherche des résultats. Cette transformation est invisible pour l'utilisateur, puisque l'ordre des résultats utilise l'ordre original de la requête pour déterminer la pertinence.
- Le stem est utilisé pour augmenter la qualité de la recherche en conservant de petites variantes syntaxiques des termes de recherche.
- Il existe un moyen limité de corriger les éventuelles fautes d'orthographe dans les requêtes.
"Je me sens chanceux"
La page d'accueil de Google comporte un bouton intitulé "I'm Feeling Lucky". Lorsqu'un utilisateur clique sur ce bouton, il est directement dirigé vers le premier résultat de recherche, sans passer par la page de résultats du moteur de recherche. L'idée est que si un utilisateur se sent "chanceux", le moteur de recherche lui donnera la correspondance parfaite la première fois sans avoir à parcourir les résultats de recherche. Selon une étude de Tom Chavez sur "Rapt", cette fonction coûte 110 millions de dollars par an à Google, car 1% de toutes les recherches utilisent cette fonction et contournent toute publicité.
Le 30 octobre 2009, pour certains utilisateurs, le bouton "I'm Feeling Lucky" a été supprimé de la page principale de Google, en même temps que le bouton de recherche habituel. Les deux boutons ont été remplacés par un champ qui se lit comme suit : "Cet espace a été intentionnellement laissé vide". Ce texte s'est effacé lorsque la souris a été déplacée sur la page, et la fonctionnalité de recherche normale est obtenue en remplissant le champ de recherche avec les termes souhaités et en appuyant sur la touche Entrée. Un porte-parole de Google explique : "C'est juste un test, et un moyen pour nous de savoir si nos utilisateurs apprécieront une interface de recherche encore plus simple". Les pages d'accueil personnalisées de Google ont conservé les deux boutons et leurs fonctions habituelles.
Le 21 mai 2010, jour du 30e anniversaire de Pac-Man, le bouton "I'm Feeling Lucky" a été remplacé par un bouton portant la mention "Insert Coin". Après avoir appuyé sur le bouton, l'utilisateur devait commencer un jeu de Pac-Man sur le thème de Google, dans la zone où se trouve normalement le logo de Google. En appuyant une seconde fois sur le bouton, on lance une version à deux joueurs du même jeu qui inclut Mme Pacman pour le joueur 2. Cette version est accessible à l'adresse http://www.google.com/pacman en tant que lien permanent vers la page.
Des bribes d'informations
Le 12 mai 2009, Google a annoncé qu'il allait analyser les microformats hCard, hReview et hProduct et les utiliser pour remplir les pages de résultats de recherche avec ce qu'il a appelé des "Rich Snippets".
Particularités
Outre la fonction principale de recherche de texte, Google Search dispose de plus de 22 "fonctions spéciales" (activées par la saisie de dizaines de mots déclencheurs) pour la recherche :
- météo - Les conditions météorologiques, la température, le vent, l'humidité et les prévisions, pour de nombreuses villes, peuvent être consultées en tapant "météo" avec une ville pour les grandes villes ou une ville et un état, un code postal américain ou une ville et un pays pour les petites villes (par exemple : météo Lawrence, Kansas ; météo Paris ; météo Brême, Allemagne).
- Cours des actions - Les données du marché pour une société ou un fonds spécifique peuvent être consultées, en tapant le symbole du téléscripteur (ou en incluant "action"), par exemple : CSCO ; MSFT ; actions IBM ; actions F (liste de Ford Motor Co.) ; ou AIVSX (fonds). Les résultats montrent les changements entre les jours, ou un graphique sur 5 ans, etc. Cela ne fonctionne pas pour les noms d'actions d'une lettre, comme Citigroup (C) ou Macy's (M) (Ford étant une exception), ou pour les mots courants, comme Diamond Offshore (DO) ou Majesco (COOL).
- heure - L'heure actuelle dans de nombreuses villes (du monde entier), peut être consultée en tapant "heure" et le nom de la ville (par exemple : heure du Caire ; heure de Pratt, KS).
- résultats sportifs - Les résultats et les horaires, pour les équipes sportives, peuvent être affichés en tapant le nom de l'équipe ou de la ligue dans la zone de recherche.
- conversion des unités - Les mesures peuvent être converties, en entrant chaque phrase, comme par exemple 10,5 cm en pouces ; ou 90 km en miles
- conversion de devises - Il est possible de sélectionner une monnaie ou un convertisseur de devises, en tapant les noms ou les codes des devises (énumérés par la norme ISO 4217) : 6789 Euro en USD ; 150 GBP en USD ; 5000 Yen en USD ; 5000 Yuan en lires (le dollar américain peut être USD ou "US$" ou "$", tandis que le dollar canadien est CAD, etc.)
- calculatrice - Les résultats des calculs peuvent être déterminés, tels qu'ils sont calculés en direct, en entrant une formule en chiffres ou en mots, par exemple : 6*77 +pi +sqrt(e^3)/888 plus 0,45. L'utilisateur a la possibilité de rechercher la formule, après le calcul. La calculatrice utilise également les fonctions de conversion d'unités et de devises pour permettre des calculs en fonction des unités. Par exemple, "(3 EUR/litre) / (40 miles/gallon) en USD / mile" calcule le coût en dollars par mile pour une voiture de 40 mpg avec de l'essence coûtant 3 euros le litre. Le signe d'insertion "^" élève un nombre à une puissance d'exposant, et les pourcentages sont autorisés ("40 % de 300").
- plages numériques - Un ensemble de nombres peut être mis en correspondance en utilisant un double point entre les nombres de la plage (70..73 ou 90..100) pour correspondre à tout nombre positif de la plage, y compris. Les nombres négatifs sont traités comme s'ils utilisaient un tiret d'exclusion pour ne pas correspondre au nombre.
- recherche dans les dictionnaires - Une définition d'un mot ou d'une expression peut être trouvée en entrant "define" suivi des deux points et du ou des mots à rechercher (par exemple, "define:philosophie")
- cartes - Certaines cartes connexes peuvent être affichées, en tapant le nom ou le code postal américain d'un lieu et le mot "map" (par exemple : carte de New York ; carte du Kansas ; ou carte de Paris).
- Horaires des films - Les critiques ou les horaires des films peuvent être listés pour tous les films diffusés à proximité, en tapant "films" ou le nom de tout film actuel dans la zone de recherche. Si un lieu spécifique a été enregistré lors d'une recherche précédente, le résultat de recherche supérieur affichera les horaires des cinémas voisins pour ce film. Ces listes sont cependant parfois totalement incorrectes et il n'y a aucun moyen de demander à Google de les corriger ; par exemple, le 25 juillet, pour le cinéma El Capitan, Google affiche les horaires de projection Up mais, selon le site web d'El Capitan, le seul film qui passe ce jour-là est G-Force. []
- données publiques - Les tendances de la population (ou du taux de chômage) peuvent être trouvées pour les États et les comtés des États-Unis, en tapant "population" ou "taux de chômage" suivi du nom d'un État ou d'un comté.
- immobilier et logement - Les listes de maisons dans une zone donnée peuvent être affichées, en utilisant les mots déclencheurs "logement", "maison" ou "immobilier" suivis du nom d'une ville ou d'un code postal américain.
- données de voyage / aéroports - Le statut des vols à l'arrivée ou au départ des États-Unis peut être affiché, en tapant le nom de la compagnie aérienne et le numéro du vol dans la zone de recherche (par exemple : American airlines 18). Les retards dans un aéroport spécifique peuvent également être affichés (en tapant le nom de la ville ou le code de l'aéroport à trois lettres plus le mot "airport").
- suivi des colis - Le courrier peut être suivi en tapant le numéro de suivi d'un colis Royal Mail, UPS, Fedex ou USPS directement dans la boîte de recherche. Les résultats comprendront des liens rapides permettant de suivre l'état de chaque envoi.
- numéros de brevet - Les brevets américains peuvent être recherchés en entrant le mot "patent" suivi du numéro du brevet dans la boîte de recherche (par exemple : Patent 5123123).
- indicatif régional - La localisation géographique (pour tout indicatif téléphonique américain) peut être affichée en tapant un indicatif régional à trois chiffres (par exemple : 650).
- recherche de synonymes - Une recherche peut faire apparaître des mots similaires à ceux spécifiés, en plaçant le signe tilde (~) immédiatement devant un terme de recherche, tel que : ~fast food.
- Recherche sur le gouvernement américain - La recherche sur les sites web du gouvernement américain peut être effectuée à partir de la page web : www.google.com/unclesam.
Options de recherche
Les pages web gérées par le Centre d'aide Google contiennent du texte décrivant plus de 15 options de recherche différentes. Les opérateurs de Google :
- OU - Recherchez l'un ou l'autre, par exemple "prix élevé OU bas" recherchez "prix" avec "élevé" ou "bas".
- "-" - Recherche en excluant un mot, comme par exemple "pomme - arbre" recherche où le mot "arbre" n'est pas utilisé.
- "+" - Forcer l'inclusion d'un mot, tel que "Nom +de +le jeu" pour exiger que les mots "de" et "le" apparaissent sur une page correspondante.
- "*" - Joker permettant de faire correspondre un mot quelconque à un autre mot spécifique.
Voici quelques-unes des options d'interrogation :
- define : - Le préfixe d'interrogation "define :" fournira une définition des mots qui suivent.
- stocks : - Après "stocks", les termes de l'interrogation sont traités comme des symboles de téléscripteur de stock pour la recherche.
- site : - Limitez les résultats aux sites web du domaine concerné, par exemple, site:www.acmeacme.com. L'option "site:com" permet de rechercher toutes les URL de domaines nommés avec ".com". (pas d'espace après "site :").
- allintitle : - Seuls les titres des pages sont recherchés (pas le texte restant sur chaque page web).
- intitle : - Préfixe de recherche dans le titre d'une page web, tel que "intitle:google search", qui permet de lister les pages dont le titre contient le mot "google" et le mot "search" n'importe où (sans espace après "intitle :").
- allinurl : - Seules les lignes d'adresse URL de la page sont recherchées (pas le texte à l'intérieur de chaque page web).
- inurl : - Préfixe pour chaque mot trouvé dans l'URL ; d'autres mots peuvent être trouvés n'importe où, comme "inurl:acme search" qui correspond à "acme" dans une URL, mais qui correspond à "search" n'importe où (pas d'espace après "inurl :").
Les options d'affichage des pages (ou types d'interrogation) sont :
- cache : - met en évidence les mots de recherche dans le document mis en cache, par exemple "cache:www.google.com xxx" affiche le contenu mis en cache avec le mot "xxx" mis en évidence.
- lien : - Le préfixe "link :" énumère les pages web qui ont des liens avec la page web spécifiée, comme "link:www.google.com" énumère les pages web qui ont un lien avec la page d'accueil de Google.
- liées : - Le préfixe "related :" permet de répertorier les pages web qui sont "similaires" à une page web donnée.
- info : - Le préfixe "info :" permet d'afficher des informations de fond sur une page web donnée, par exemple info:www.google.com. En règle générale, info est le premier texte (160 octets, environ 23 mots) contenu dans la page, affiché dans le style d'une entrée de résultats (pour la seule page correspondant à la recherche).
- filetype : - les résultats n'afficheront que les fichiers du type souhaité (ex filetype:pdf retournera les fichiers pdf)
Notez que Google recherche le codage HTML à l'intérieur d'une page web, et non l'apparence de l'écran : les mots affichés sur un écran peuvent ne pas être listés dans le même ordre dans le codage HTML.
Messages d'erreur
Certaines recherches donneront une erreur 403 Interdit avec le texte
"Nous sommes désolés...
... mais votre requête ressemble aux demandes automatisées d'un virus informatique ou d'un logiciel espion. Pour protéger nos utilisateurs, nous ne pouvons pas traiter votre demande pour le moment.
Nous rétablirons votre accès aussi vite que possible, alors réessayez vite. En attendant, si vous pensez que votre ordinateur ou votre réseau a été infecté, vous pouvez lancer un antivirus ou un logiciel espion pour vous assurer que vos systèmes sont exempts de virus et autres logiciels parasites.
Nous vous prions de nous excuser pour ce désagrément et espérons vous revoir de la part de toute l'équipe de Google".
parfois suivie d'une invite CAPTCHA.
L'écran a été signalé pour la première fois en 2005, et était une réponse à l'utilisation intensive de Google par les sociétés d'optimisation des moteurs de recherche pour vérifier le classement des sites qu'elles optimisaient. Le message est déclenché par un grand nombre de demandes provenant d'une seule adresse IP. Google utilise apparemment le cookie de Google dans le cadre de sa détermination à refuser le service.
En juin 2009, après la mort de la superstar de la pop Michael Jackson, ce message est apparu à de nombreux internautes qui recherchaient sur Google des informations relatives au chanteur, et a été considéré par Google comme une attaque DDoS, bien que de nombreuses requêtes aient été soumises par des chercheurs légitimes.
Bogue de janvier 2009 sur les logiciels malveillants
Google signale les résultats de recherche avec le message "Ce site peut nuire à votre ordinateur" si le site est connu pour installer des logiciels malveillants en arrière-plan ou de manière subreptice. Google fait cela pour protéger les utilisateurs contre la visite de sites qui pourraient nuire à leur ordinateur. Le 31 janvier 2009, pendant environ 40 minutes, tous les résultats de recherche ont été classés par erreur comme des logiciels malveillants et n'ont donc pas pu être consultés ; un message d'avertissement s'est affiché à la place et l'utilisateur a dû entrer manuellement l'URL demandée. Le bogue a été causé par une erreur humaine. L'URL de "/" (qui s'étend à toutes les URL) a été ajoutée par erreur au fichier de modèles de logiciels malveillants.
Doodle pour Google
En certaines occasions, le logo sur la page web de Google changera pour une version spéciale, connue sous le nom de "Google Doodle". En cliquant sur le Doodle, on accède à une série de résultats de recherche Google sur le sujet en question. Le premier fait référence au festival Burning Man de 1998, et d'autres ont été produits pour les anniversaires de personnes célèbres comme Albert Einstein, des événements historiques comme le 50e anniversaire du bloc Lego et des fêtes comme la Saint-Valentin.
Google Caféine
En août 2009, Google a annoncé le déploiement d'une nouvelle architecture de recherche, dont le nom de code est "Caféine". Cette nouvelle architecture a été conçue pour renvoyer les résultats plus rapidement et pour mieux traiter les informations rapidement mises à jour provenant de services tels que Facebook et Twitter. Les développeurs de Google ont noté que la plupart des utilisateurs ne remarqueraient que peu de changements immédiats, mais ont invité les développeurs à tester la nouvelle recherche dans son bac à sable. Les différences notées pour leur impact sur l'optimisation des moteurs de recherche comprenaient une pondération plus importante des mots clés et l'importance de l'âge du domaine. Cette décision a été interprétée dans certains milieux comme une réponse à la récente publication par Microsoft d'une version améliorée de son propre service de recherche, rebaptisé Bing. Google a annoncé l'achèvement de Caffeine le 8 juin 2010, revendiquant 50 % de résultats plus frais en raison de la mise à jour continue de son index. Avec Caffeine, Google a déplacé son système d'indexation dorsale de MapReduce à BigTable, la plateforme de base de données distribuée de la société. Caffeine est également basé sur Colossus, ou GFS2, une refonte du système de fichiers distribués de GFS.
Recherche cryptée
En mai 2010, Google a mis en place un système de recherche sur le web avec cryptage SSL. La recherche cryptée peut être consultée à l'adresse suivante : https://encrypted.google.com
Recherche instantanée
Google Instant, une amélioration qui affiche les résultats suggérés pendant que l'utilisateur tape, a été introduite aux États-Unis à partir du 8 septembre 2010. L'une des préoccupations est que les gens pourraient sélectionner l'un des résultats suggérés au lieu de terminer leur demande, et qu'une telle pratique pourrait entraîner un biais vers des entreprises familières ou d'autres termes de recherche. Les termes de recherche pornographiques ou autrement offensants sont exclus des résultats suggérés. La fonction de recherche instantanée n'apparaît que sur le site de base de Google et non sur les pages spécialisées d'iGoogle. Google s'attend à ce que Google Instant fasse gagner aux utilisateurs de 2 à 5 secondes à chaque recherche, ce qui, selon eux, représente collectivement 11 millions de secondes par heure. Les experts en marketing des moteurs de recherche ont spéculé que Google Instant aurait un grand impact sur les recherches locales et payantes.
Parallèlement au lancement de Google Instant, Google a désactivé la possibilité pour les utilisateurs de choisir de voir plus de 10 résultats de recherche par page. La recherche instantanée peut être désactivée via le menu "Préférences" de Google, mais les suggestions de recherche de type autocomplétion ne peuvent désormais plus être désactivées. Un représentant de Google a déclaré : "Il est conforme à notre vision d'une expérience de recherche Google unifiée d'intégrer des fonctionnalités populaires et utiles dans l'expérience par défaut, plutôt que de maintenir différentes versions de Google. Comme la qualité de l'Autocomplete s'est améliorée, nous avons estimé qu'il était approprié de l'avoir toujours en fonction pour tous nos utilisateurs".