Accueil Médecine 2.0 Qualité et santé : 2) L’approche qualitative de Google
Publié le
12 août 2008
Publication
antérieure :

3 juillet 2008


Auteur :
Dr Dominique Dupagne



Imprimer

Lire sur grand écran







Entrez votre email pour être averti des nouveaux articles
sur Atoute




Dans la même rubrique :

Bye-bye le buzz !
Le modèle Ligne de vie
Internet et les médecins : agir ou subir ?
Communication médecin-malade : Du bon sens au bon soin
Médecine, morale, santé et médias sociaux
Certification des pseudonymes des médecins par l’Ordre
"La science, c’est cool !"
Qualité et santé : 1) Qualité des moyens ou qualité des résultats ?
Web et DMP opus 2
Et si le monde de la santé du futur était déjà là ? Le meilleur des mondes ?
Web et DMP
Les indicateurs et la Qualité : les enseignements de Google
Google Health est mort, vive Google Health !
La contre-attaque de l’Empire
L’AFSSAPS progresse avec Actos, mais reste en version 1.0
L’alcool, c’est pas un problème
La Netiquette, un truc de vieux cons ?
Se soigner sans médecin ?
Télémédecine : chiche ?
Entrepatients.net, un nouveau site communautaire santé


Qualité et santé : 2) L’approche qualitative de Google

Dans le domaine de la santé, le concept de qualité a subi une profonde évolution : longtemps centré sur le résultat, il concerne désormais les procédures de soin, aboutissant à leur normalisation.
Ce dossier, divisé en cinq articles, propose une nouvelle approche de la qualité fondée sur une subjectivité partagée et pondérée.
- Le premier article rappelle la définition de la qualité en santé et son évolution au cours des âges.
- Ce deuxième article fait un détour par le moteur de recherche Google qui a révolutionné le classement de l’information grâce à son approche subjective des critères de qualité.
- Dans le troisième article, nous verrons que l’objectivité scientifique, moteur de progrès et de qualité au XXe siècle, trouve aujourd’hui ses limites et doit laisser coexister d’autres approches.
- La pairjectivité, thème central de ce dossier, est détaillée dans le quatrième article.
- Le cinquième article compare nos procédures qualitatives actuelles à un système pairjectif qui a fait ses preuves depuis 500 millions d’années.

"L’objet n’est rien, ses liens sont tout."
Pasteur 2.0

Google est incontournable dès que l’on aborde internet. Trop disent certains. L’objectif de ce deuxième article n’est pas de faire l’éloge du moteur de recherche vedette, mais de montrer que son mode de fonctionnement pourrait inspirer l’évaluation de la qualité dans le domaine de la santé. Nous allons nous intéresser plus spécifiquement à sa méthode de classement et de hiérarchisation de l’information. Cette méthode est fondée quasi exclusivement sur des critères de qualité externes, c’est-à-dire indépendants du contenu du document indexé.

Idées-forces
- Google n’a pas toujours existé, il y a eu un "avant Google" sur internet, dont les outils fonctionnaient avec des critères qualitatifs datant de plusieurs siècles.
- Google a introduit une rupture totale avec le passé.
- La mesure de la qualité/pertinence par Google fait appel à des critères extrinsèques et non plus intrinsèques.
- Les liens qui unissent les documents sont plus pertinents que l’analyse de leur contenu pour évaluer leur pertinence.
- Le défaut principal d’une norme utilisée pour mesurer la qualité est son caractère public.
- Les experts donnent des résultats moins pertinents qu’un réseau d’innombrables micro-expertises fédérées.
- La méthode Google n’a pas cherché à changer les anciennes méthodes. Google a rendu le passé obsolète.

Tout le monde connaît Google [1], tout le monde l’utilise, mais rares sont ceux qui ont compris à quel point son mode de tri de l’information a constitué une révolution aussi importante que le réseau internet lui-même. Ce tri nous permet d’accéder en une fraction de seconde aux informations que nous cherchons. Le moteur de recherche vedette a supplanté tous les autres en quelques années, tout simplement parce que nous, ses utilisateurs, jugeons ses résultats plus pertinents que ceux des autres moteurs ou des annuaires.

Dans cet article, nous allons rentrer dans le fonctionnement de Google. Il ne se contente pas, comme beaucoup le croient, de proposer les pages les plus populaires chez les internautes. L’évolution des méthodes de tri de l’information depuis l’époque du papier jusqu’aux moteurs de recherche constituera une bonne introduction. La notion de qualité reposant sur une expertise partagée, qui est le fondement de la méthode de classement de Google, sera l’objet d’une étude plus détaillée.

Aux débuts d’internet, pour trouver les bonnes pages sur un sujet précis, les internautes répétaient les méthodes de leurs ancêtres.

Comme les livres dans les bibliothèques, les sites des années 90 étaient classés par catégories dans des annuaires par genre, type, sous-type etc. Bref, ce que l’on faisait depuis l’invention des documents écrits, soigneusement rangés dans des étagères par des bibliothécaires [2].

Des catalogues ou des armoires de fiches permettaient de faire des recherches dans le contenu des bibliothèques ou dans les fonds des éditeurs. Il en était de même sur le web : le faible nombre de sites à ses débuts permettait d’envisager la création d’une table des matières, d’un catalogue global.

Yahoo, le pionnier des catalogues-annuaires

Le plus célèbre de ces catalogues de sites, initié par des étudiants débrouillards, portait [3] le joli nom de Yahoo !. L’image ci-dessous représente le site Yahoo en 1996, soit la préhistoire du Web :

Les sites ou pages y étaient classés par des experts-indexeurs humains qui visitaient les sites, rédigeaient des notices et les intégraient dans la rubrique/sous-rubrique appropriée. Ils employaient une démarche classique de bibliothécaire.

Mais très vite, l’explosion du nombre des documents disponibles a rendu ingérable un tel annuaire qui ne reflétait qu’une faible partie du fond documentaire de la toile [4] et dont la mise à jour devenait ruineuse pour la société Yahoo. Des initiatives communautaires fondées sur des bonnes volontés sont apparues ensuite pour prendre le relais de Yahoo [5], mais elles n’ont pas eu plus de succès. Il devenait difficile de trouver des indexeurs indépendants, motivés, résistants aux critiques (nombreuses) des sites non retenus. De plus, il était impossible de classer une part significative d’une offre de documents en croissance exponentielle alors que les moteurs de recherche, plus exhaustifs, progressaient en pertinence et constituaient des concurrents de taille.

Après la "table des matières" Yahoo apparaissent les index : les moteurs de recherche

Les index sont apparus avec les livres volumineux et notamment les encyclopédies. En plus de la table des matières, un index permettait de chercher la page ou l’article utile à partir d’un mot-clé.

Quelques pionniers ont eu très tôt l’idée d’automatiser le processus d’indexation traditionnel : des ordinateurs connectés au réseau et appelés "spiders" (l’araignée qui explore la toile) ou "bot" (pour robot) vont explorer automatiquement le web en se comportant comme un internaute qui cliquerait au hasard sur tous les liens rencontrés sur chaque page. Chaque site ou presque étant lié à au moins un autre, l’exploration était quasi complète, d’autant que chaque gestionnaire d’un site nouveau pouvait signaler son existence au robot explorateur.

Lors du passage des ces robots explorateurs, chaque page est analysée et les mots contenus dans la page sont stockés dans un gigantesque index. Des requêtes (interrogations) faites ensuite sur cet index permettront de retrouver les sites visités, exactement comme l’index d’une encyclopédie permet de trouver le bon article au sein de 20 gros volumes. Les moteurs de recherche étaient nés : Wanderer, puis Lycos, Excite [6].

Mais nous sommes toujours dans des processus très classiques : malgré la lecture automatique des pages, les bases de données, les robots qui tentent de remplacer les opérateurs humains, ce n’est jamais que de l’indexation de mots dans un texte comme elle se faisait depuis l’invention des textes imprimés [7].

Les premiers moteurs de recherche automatisent l’indexation traditionnelle par mots-clés, mais n’inventent rien

Ces moteurs de recherche de première génération tentent de perfectionner leur indexation en apportant plus de poids aux mots répétés dans la même page ou présents dans les titres, les descriptions ou les mots-clés du site. Leur qualité culmine avec AltaVista, roi des moteurs de recherche des années 90. Mais il n’y a toujours aucune réelle nouveauté dans cette approche ; les encyclopédistes réalisaient cela manuellement depuis plusieurs siècles.

Les moteurs atteignent par ailleurs des limites infranchissables :
- Ils ne peuvent correctement indexer et classer que les pages bien rédigées par leurs auteurs : un titre mal choisi, une page mal organisée, et voila un document de référence qui ne sera proposé qu’en 50ème position dans les résultats de recherche ; autant dire invisible. Contrairement aux encyclopédies dont les rédacteurs sont coordonnés par l’éditeur, les webmasters sont libres d’organiser leurs sites et pages comme ils le souhaitent et ils génèrent un chaos bien difficile à indexer avec rigueur.
- Le commerce apparaît sur la toile, et les marchands comprennent que leur visibilité dans les moteurs de recherche est fondamentale. Ils ont tôt fait de s’intéresser aux méthodes d’indexation qu’ils manipulent à leur guise : comme les critères de pertinence utilisés par les moteurs sont uniquement [8] liés au contenu de la page, il est facile d’optimiser ou plutôt de truquer ses propres pages pour les faire sortir dans les premiers résultats des moteurs de recherche sur un requête donnée [9].

Dans le même temps, les annuaires gérés par des experts-indexeurs sont l’objet de nombreuses polémiques liées aux conflits d’intérêts souvent réels de ces experts avec leurs intérêts, croyances, opinions et autres facteurs qui éloignent leur activité d’une mesure objective de la qualité des sites.

Dans le monde sans pitié du web, la non-qualité ne survit pas. Yahoo a compris que pour durer, il devait s’adapter. Il a intégré très tôt, avant de l’identifier comme une menace, le moteur de recherche Google sur son site-annuaire. Il a ensuite développé son propre moteur s’inspirant de son allié initial devenu concurrent. Fait hautement significatif, l’annuaire de Yahoo, symbole de son expertise fondée sur l’humain et les méthodes traditionnelles, n’est plus présent sur son site principal , et la société est en voie d’être rachetée par Microsoft.

La qualité et les normes

Nous touchons là une problématique qui est au coeur de la qualité :
Lorsque les critères de qualité sont fondés sur l’objet lui-même et sur des normes prédéfinies (le plus souvent objectives), il est toujours possible et souvent facile de truquer la mesure de sa qualité en modifiant l’objet pour l’adapter au mieux à la norme. C’est d’autant plus facile et tentant lorsque la norme est connue de tous, ce qui est la norme de la norme... La multiplication des normes pour déjouer ces manipulations ne fait que rendre la mesure qualitative plus complexe et aboutit souvent à déqualifier des objets de qualité pour non-respect des normes, ce qui est un effet particulièrement pervers. L’énergie consacrée à adapter l’objet à la norme est souvent inversement proportionnelle à sa qualité intrinsèque [10]. Au final, la qualité fondée sur des normes sélectionne l’aptitude à s’adapter aux normes et non la qualité des objets. Il suffit à chacun de réfléchir aux normes de son environnement professionnel pour constater que si elles sont parfois fondées sur la logique et le bon sens, elles sont le plus souvent réductrices, obsolètes, parfois sclérosantes et surtout incapables de sélectionner avec pertinence les meilleurs agents.

La qualité de l’information peut s’évaluer grâce à des critères qu’elle ne contient pas !

Nous sommes arrivés à la limite d’un modèle millénaire de classement de la connaissance (rayons, étagères, annuaires, index, table des matières...) fondée sur l’analyse de son contenu.

C’est alors qu’entrent en scène Sergey Brin et Larry Page, deux étudiants en informatique de l’université Stanford. Ils ont 25 ans. Nous sommes en 1998.

JPEG - 61.5 ko
Cette photo des fondateurs de Google paraît ancienne. Elle n’a pourtant que 6 ans...

Ce qui n’était initialement qu’un simple projet de recherche propose une rupture totale avec le passé :

Les critères qui permettent d’apprécier la pertinence d’un document ne sont plus tant dans le document lui-même que dans l’usage que d’autres lecteurs ou bibliothécaires en font.

Avant 1998 : on analyse le contenu du document pour le classer et déterminer sa valeur :
- avec un expert : éditeur d’annuaire, bibliothécaire
- ou avec un indexeur automatique : robots des moteurs de recherche qui parcourent le web sans relâche et indexent automatiquement son contenu.

Après 1998 : Google analyse le comportement des hommes autour des documents, agrège ces comportements et en tire des informations sur la pertinence d’un document pour une recherche donnée. Ce sont les connexions créées par des hommes entre les documents qui permettent d’apprécier leur qualité, c’est-à-dire leur aptitude à répondre à la question posée [11].

Ce glissement de la pertinence vers la qualité (et vice-versa) est intéressant. En effet, il est bien difficile de définir la qualité de façon absolue. Le bon médicament, le bon médecin, le bon article le sont-ils dans l’absolu, pour tous et dans toutes les situations ? La qualité n’est-elle pas fondamentalement contextuelle, adaptée à chacun de nous, à nos désirs, nos déterminants et à ce que nous cherchons ou souhaitons ? Il est frappant de constater que les fondateurs de l’EBM [12] ont écrit dans leur article fondateur qu’ils "rejoindraient sur les barricades" ceux qui voudraient transformer leur approche rationnelle mais humaniste de la décision médicale en "recettes de cuisine" pour soigner les patients [13]. Ce glissement de l’EBM au service du patient vers le soin normalisé et imposé à tous est pourtant perceptible depuis quelques années, sous la pression conjointe des assureurs maladie et des autorités sanitaires françaises.

La mesure de la qualité extrinsèque de l’information est une rupture totale avec le passé

Avant d’étudier plus en avant le fonctionnement de Google, tordons le cou d’emblée à une idée aussi fausse que répandue : Google n’identifie pas les documents les plus "populaires" au sens de "documents les plus souvent consultés". Un tel critère n’aurait aucun intérêt et aboutirait rapidement à un nivellement de la qualité de l’information disponible, chaque éditeur de site cherchant alors à plaire au plus grand nombre. Ce serait "l’effet TF1" sur le Web.

Larry Page et Sergey Brin ont bâti leur outil sur une constatation : chaque fois que quelqu’un écrit une page pour internet, il crée des liens dans cette page pour indiquer au lecteur d’autres pages qui lui paraissent pertinentes, pour approfondir la réflexion sur le sujet traité ou pour étayer ses dires. C’est une micro-expertise : ces auteurs utilisent leurs capacités d’analyse et leur connaissance du sujet pour créer ces liens. Si l’on pouvait regrouper ce travail intelligent mais éparpillé en un tout cohérent, il y aurait émergence d’une expertise collective permettant d’identifier les documents intéressants.

Tel un cerveau dont l’intelligence repose sur des milliards de connexions entre ses neurones, les connexions (liens) entre les milliards de pages du web constituent une forme d’expertise diffuse qu’il serait intéressant de pouvoir agréger.

Les connexions neuronales de notre cerveau se sont créées au fur et à mesure de nos apprentissages et de nos expériences. Les liens internet se créent au fur et à mesure de la création des pages. Nous verrons aussi que Google "apprend" en examinant le comportement des lecteurs.

Page et Brin ont alors l’idée de créer une première règle d’indexation pour utiliser au mieux cette intelligence. Cette règle porte le nom de PageRank, du nom de son créateur. Ce sera leur sujet de mémoire de fin d’étude [14].

JPEG - 164.7 ko
Premier serveur Google, fabriqué avec des LEGOs (ce n’est pas une blague).

Le principe initial du PageRank est simple : une page internet est présumée intéressante si d’autres pages font des liens vers elle. Cela peut se traduire facilement dans l’ancienne représentation du classement de l’information : un livre est intéressant s’il remplit les conditions suivantes :
- Il est souvent cité en référence par d’autres livres ou articles [15]
- Il est souvent conseillé par un bibliothécaire.

Notez que le critère "il est souvent lu" n’est pas pris en compte : si un livre répondant aux deux critères précédents est certes plus souvent lu qu’un autre, il ne sera pas forcément le plus lu. Le nombre de lectures d’un livre ou d’un article n’est pas un facteur de qualité fiable (comme la taille de la clientèle d’un médecin).

Le schéma ci-dessous illustre bien le fonctionnement du PageRank ; la taille du petit symbole qui représente une page internet est proportionnelle à l’importance accordée à son contenu. Cette taille dépend de deux éléments :
- Le nombre de liens qui pointent vers lui.
- L’importance (qualité) de ceux qui font des liens vers lui.

Etre lié (pointé par) un éditeur de site de qualité augmente plus le PageRank qu’être lié par une page anonyme ou peu considérée par les autres. [16].

Pour résumer :
- Google propose une rupture totale avec l’indexation traditionnelle : ce n’est plus le contenu du document qui est le plus important, mais ce qu’en pensent les autres auteurs et les bibliothécaires.
- Google ne propose pas les liens les plus populaires, les plus lus, ou les mieux considérés par la foule des internautes car ces données ne sont pas pertinentes.
- Au contraire, Google met en valeur et vous propose les liens conseillés par d’autres auteurs car il considère qu’en faisant cela, il fédère l’expertise de tous ces auteurs et que cette expertise collective est plus rapide et étendue que toute autre. Google fonctionne comme un système neuronal [17].

Nos deux brillants sujets sont tellement sûrs de leur fait que la page d’accueil de leur nouveau site est une véritable provocation :

Jugez donc :
- aucun décor : un cadre de saisie et un titre, c’est tout. Pas d’options de recherche, de mode "avancé", ils insistent sur la rupture avec Altavista, le leader du marché des moteurs de recherche en 1998 dont la page d’accueil (ci-dessous) était déjà chargée pour l’époque.
- un bouton énigmatique "J’ai de la chance" affiche directement à l’écran le premier résultat de la recherche, sans passer par une page intermédiaire de liste de résultats. Dans la majorité des cas, ce premier résultat est le bon ! L’effet de saisissement est garanti alors qu’il fallait auparavant tester plusieurs résultats de recherche, voire plusieurs moteurs pour obtenir péniblement le document ou site recherché.

Malgré son succès immédiat, la première version de Google est assez primitive et se contente de trier l’information en examinant des liens entrants et en calculant un PageRank pour chaque page.

Voyons comment il va étendre ses capacités pour devenir la porte d’entrée principale sur le Web.

Amélioration du PageRank

Le PageRank n’était qu’une première étape. L’algorithme (la méthode de calcul) qui permet actuellement à Google de trier les ressources du Web repose sur une centaine de critères sur lesquels le secret est jalousement gardé pour éviter toute manipulation par les éditeurs de sites [18]. Certains de ces critères sont néanmoins suspectés ou connus et l’on se rapproche de plus en plus d’un fonctionnement neuronal :

JPEG - 132.9 ko
Réseau de neurones en 3D

Le PageRank s’appuiera désormais non plus sur des webmasters quelconques qui font un lien vers une page, mais sur les webmasters qui traitent du même sujet. C’est une modification importante car elle augmente la qualité de la sélection. Ce ne sont plus les bibliothécaires ou les auteurs en général qui conseillent un ouvrage ou un article, mais d’autres spécialistes du sujet traité. Ces "spécialistes" peuvent être réels ou autoproclamés, mais la loi du nombre pondère les extrêmes. On voit arriver le concept d’intelligence des foules [19], ou celui plus prudent d’Alchimie des multitudes de Pisani et Piotet.

Les liens sortants sont pris en compte. Il ne faut pas seulement être conseillé par d’autres auteurs (liens entrants), il faut soi-même conseiller de bons documents pour accroître sa réputation, ce qui est assez logique et conforme à ce qui se passe dans la vie réelle.

Google propose différents services additionnels, dont une barre d’outils qui permet à son utilisateur de stocker ses adresses de sites (favoris). La base de données est stockée sur les serveurs de Google. Il est probable que le moteur tient compte des sites sélectionnés pour leur donner un poids plus important. De plus, les internautes créent des dossiers (chez Google) pour ranger ces liens et le nom de ces dossiers est une information très importante [20].

Google n’analyse plus seulement le nombre de liens qui pointent vers un site, mais la dynamique d’apparition de ces liens. En effet, des liens artificiels créés pour l’influencer apparaissent généralement tous en même temps et à partir du même site. Au contraire, un contenu de qualité génère la création de liens spontanés dont la répartition dans le temps est progressive et étalée sur de nombreux sites.

Google tient compte de l’âge du document et de sa mise à jour. Un contenu ancien inséré dans un site qui ne bouge plus risque d’être moins pertinent qu’un article souvent modifié ou intégré dans un site dynamique.

Lorsque vous faites une recherche dans Google, celui-ci analyse votre comportement sur la page de résultat. Si vous allez voir une page indiquée et que vous revenez après quelques secondes, c’est que cette page ne correspondait pas à votre attente. Son PageRank sera abaissé. Au contraire, la page consultée en dernier aura un PageRank augmenté : si vous avez cessé vos recherches après cette page, c’est sans doute parce qu’elle a répondu à votre attente.

Il existe des dizaines d’autres critères destinés à reconnaître la bonne information sans la moindre analyse du contenu. Ces règles fonctionnent aussi bien pour du français que de l’anglais ou du chinois. Google met en oeuvre des techniques de détection de la fraude si pointue que le principal conseil actuellement pour être bien classé dans le moteur est "créez des contenus intéressants". Peut-on imaginer meilleure consécration pour le moteur de recherche ?

Google ne peut trouver que ce qui existe

Bien sûr, tout n’est pas parfait et le moteur vedette est parfois décevant sur certaines requêtes difficiles [21] ou très commerciales. Il faut néanmoins avoir à l’esprit une contrainte importante : Google comme tous les moteurs, ne peut trouver que ce qui est accessible. Autant le Web est riche en langue anglaise, autant le monde francophone tarde à libérer ses contenus. L’absence de lien de qualité dans une requête ne fait souvent que refléter (dans le monde médical francophone notamment) la pauvreté des contenus en accès libre disponibles.

En corollaire, sachant que Google est la porte d’entrée sur Internet pour la grande majorité des internautes, tout document qui n’est pas indexé par Google "n’existe pas", mais ceci une autre histoire [22].

Nous venons de passer en revue la façon dont Google s’appuie sur le travail intellectuel des webmasters et sur le comportement des internautes pour agréger ce "jus de cervelle virtuel" en une forme d’expertise neuronale très primitive. C’est à notre avis un des plus beaux exemples de ce que nous pourrions appeler la mesure extrinsèque de la pertinence :
- Google ne demande d’effort à personne, il utilise un travail déjà réalisé par d’autres.
- Google met en forme des données publiques, mais que lui seul parvient à agréger correctement.
- Google est ouvert à tous et ne coûte rien à ceux qui utilisent ses services, tout en gagnant énormément d’argent avec d’autres (l’innovation n’est en rien synonyme de bénévolat).
- Google sépare clairement le service qu’il apporte (trouver l’information) et son gagne-pain (la publicité). S’il ne le faisait pas, il disparaîtrait en quelques années faute d’utilisateurs, tant la crédibilité de ses résultats serait altérée.
- Google touche à un domaine clé de la civilisation de l’information : l’accès à la bonne information au sein d’un "bruit" phénoménal.
- Google se fonde sur un réseau mais il ne le crée pas : il utilise le maillage constitué par les auteurs-lecteurs du Web.

Les autres articles de cette série développeront la notion de mesure extrinsèque de la qualité [23]. Le principal reproche qui lui est souvent fait est son caractère subjectif, et cet aspect sera particulièrement développé. Le concept de "pairjectivité" à la Google, agrégat de subjectivités émanant d’individus ayant un trait commun (pairs) est sans doute la clé qui peut permettre de s’abstraire de ce paradoxe : la mesure la plus pertinente de la qualité s’appuie sur des éléments subjectifs et non objectifs, extrinsèques et non intrinsèques. Nous verrons d’ailleurs dans d’autres articles que c’est ainsi que nous fonctionnons au quotidien : l’avis de ceux qui connaissent un domaine et en qui nous avons confiance est le critère de qualité que nous plaçons au-dessus de tous les autres.

Vous pouvez réagir à cet article sur le Forum

Vers l’article suivant du dossier

Remarque : cet article avait déjà été publié sous une forme légèrement différente destinée à illustrer le concept de web 2.0

Notes

[1] En 2008, Google est devenu la marque la plus connue dans le monde, après seulement 10 ans d’existence Source Millwardbrown 2008

[2] http://etablissements.ac-amiens.fr/...

[3] Cet annuaire existe toujours.

[4] Toile est un terme souvent employé pour décrire le web, c’est-à-dire les pages consultables sur internet. Les trois "w" signifient World Wide Web, ce qui peut être traduit par "La grande toile d’araignée mondiale"

[5] Notamment l’annuaire DMOZ qui existe toujours

[6] Tous ces moteurs ont disparu ou ont été remplacés par d’autres services.

[7] Ce processus avait d’ailleurs été déjà automatisé pour les ouvrages imprimés depuis de nombreuses années

[8] Pour être honnête, il faut reconnaître que quelques critères extérieurs sont aussi pris en compte dans les dernières versions des moteurs "1.0", notamment le fait que le site contenant la page ait été indexé dans des annuaires gérés manuellement comme Yahoo

[9] Ces techniques d’optimisation portent désormais le nom de "référencement" et sont devenues un métier à part entière

[10] Observations répétées à comparer à votre expérience personnelle.

[11] Cette vision tranchée de l’apparition de facteurs extrinsèques de mesure de la qualité néglige bien sûr d’autres expériences du même type et notamment le "facteur d’impact" utilisé avec les publications sur papier. Merci de nous pardonner ces approximations destinées à faciliter la lecture du texte.

[12] Evidence Based Médecine ou médecine fondée sur des preuves. Il s’agit d’une approche scientifique mais aussi humaniste de la médecine qui consiste à fonder ses décisions sur les meilleurs éléments probants disponibles

[13] http://www.atoute.org/n/breve14.html

[14] Pour simplifier la compréhension du fonctionnement de Google, nous ne tenons pas compte de l’évolution progressive des algorithmes au cours du temps et décrivons un fonctionnement global actuel.

[15] Principe proche du "facteur d’impact"(déjà cité), utilisé avec les publications sur papier et né quelques années avant le PageRank.

[16] Les plus attentifs d’entre vous ont remarqué la similitude avec l’histoire de la poule et de l’oeuf ! Comment commencer ? Quels sont les premiers sites de qualité ? Ce problème a été géré par l’identification initiale de sites présents dans les annuaires (et donc déjà sélectionnés par un cerveau humain) et par ce qu’on appelle la récursivité : Google analyse régulièrement les liens entre les sites de son index pendant une courte période joliment appelée "Google Dance" et modifie le PageRank de chaque site en fonction notamment de ses liens entrants (qui pointent vers lui). Cette remise à niveau permanente du PageRank permet un ajustement de la place de chaque site ou page dans les résultats du moteur de recherche en fonction de la progression (ou baisse) de sa réputation.

[17] Nous parlons bien de système neuronal et non de "réseau neuronal", terme informatique ayant un sens différent. Voir aussi ce document sur l’hyperscience

[18] On peut assimiler le passage des spiders indexeurs de Google sur les sites à un examen ; pour qu’un examen soit juste et discriminant pour sélectionner les candidats, il vaut mieux que le sujet n’en soit pas connu à l’avance

[19] Traduit de l’anglais Wisdom of crowds

[20] Ce concept classification libre est appelé Folksonomie.

[21] C’est sur les concepts fumeux ou ésotériques que Google est le plus fragile car il va mettre en valeur non pas le site le plus scientifique, mais parfois le site le plus représentatif de cette théorie ou de ce mouvement, surtout si aucune page ne fait un point sérieux sur le sujet

[22] Ce phénomène en train de naître est une réédition du problème de l’anglais dans les publications scientifiques : dès les années 60, il est devenu évident (autant qu’injuste), que ce qui était publié en français "n’existait pas" pour le monde scientifique

[23] Le concept de qualité intriqué avec celui de pertinence, impliquant la variabilité de la qualité en fonction de son contexte, pourrait porter le nom de "qualinence". Dans un esprit de simplification du texte, nous parlerons souvent de qualité sans indiquer à chaque fois ce distinguo contextuel



Tweet Suivez-moi sur Twitter






Réagir à cet article