jeudi 14 avril 2011

test

test test

mardi 22 mars 2011

Vérifier la présence de son site dans les outils de recherche

Dans ce tutoriel, nous allons voir comment il est possible de vérifier la présence des pages de votre site dans un moteur de recherche.

UTILISATION DE L'OUTIL SOUMISSION-MANUELLE.COM

Cette outil gratuit permet de soumettre mais aussi de vérifier sa présence dans les principaux outils de recherche. Pour l'utiliser il suffit d'entrer votre adresse de site et l'outil calcule pour vous le nombre de page indexées.

Exemple :
J'ai effectué une recherche pour savoir si le sitewww.50liens.com était présent, voici les résultats fournis par l'outil soumission-manuelle.com :

exemple de vérification d'un référencement

L'outil n'est pas fiable à 100% (des bugs sont d'ailleurs signalés sur le site) mais reste très efficace, puisqu'il est même capable d'effectuer un test de présence sur certains annuaire de recherche.

Adresse de l'outil : www.soumission-manuelle.com

VÉRIFICATION MANUELLE

Il est possible de vérifier manuellement dans chaque moteur de recherche la présence de vos pages. Dans la plupart des moteurs (Google, Yahoo search, MSN Search, Voilà) il vous faudra alors saisir dans le champ du moteur la commande suivante :

"site:www.domaine.com"

Si votre site présente des sous-domaines vous pouvez écrire dans le champ de recherche du moteur :

"site:mondomaine.com"

Exemple
Dans Google, j'ai saisi dans le champ de recherche "site:www.50liens.com", j'obtiens le résultat suivant : 254 pages puis la liste des pages indexées par Google. Le résultat coincide d'ailleurs avec ceux de l'outil soumission-manuelle.com.

résultat google

Afin de suivre efficacement votre campagne de référencement vous pouvez télécharger ce tableau de suivi de présence (format pdf)

vendredi 1 février 2008

Chapitre 2. Preparation d’un referencement (1)

2.3. Sur quels moteurs et annuaires faut-il se référencer ?
Vous avez choisi vos mots clés, mais savez-vous sur quels outils vous allez devoir
être positionné ? Cette donnée est également importante car il ne sera pas question
de perdre du temps à tenter d’apparaître de façon optimale sur un annuaire ou un
moteur qui ne ramène aucun trafic. Voyons ce qu’il en est pour les moteurs dans un
premier temps...
2.3.1. Sur quels moteurs de recherche généralistes se positionner ?
La réponse à cette question est simple : sur ceux qui génèrent le plus de trafic sur
votre site web. Et il ne sont pas nombreux... Si l’on en croit les nombreux baromètres
du référencement disponibles en France (voir encadré), 99% du trafic est généré par moins de dix outils de recherche : Google (plus de 80% du trafic),Yahoo!, MSN et Voila (3 à 5% chacun), AOL (1%), Free (1%), AltaVista, Club Internet, Nomade, Lycos (0,5% ou moins chacun), plus quelques autres qui ne dépassent pas 0,2% du trafic total généré par les outils de recherche sur un site web. Et si l’on tient compte du fait que Free et Club-Internet utilisent la technologie de recherche de Google, qu’AltaVista, Nomade et Lycos utilisent celle de Yahoo!, le nombre de “technos de recherche” sur lesquelles il va vous falloir être présent est encore plus restreint :
- Google (Google, Club-Internet, Free).
- Yahoo! (Yahoo!, AltaVista, Tiscali, Lycos).
- Exalead (Exalead, AOL.fr).
- Voila (Voila, Wanadoo).
- MSN (MSN.fr).
Soit cinq “moteurs” seulement.
Et cette situation est quasiment identique dans tous les pays d’Europe, les moteurs typiquement “franco-français” comme Voila, Free ou Tiscali étant remplacés par des acteurs locaux comme Search.ch en Suisse ou Yell.com en Grande-Bretagne.Aux Etats-Unis, la situation est en revanche légèrement différente avec une hégémonie affirmée mais moins importante de Google. Pour le mois d’avril 2006, par exemple, selon le classement de Comscore (voir adresse ci-dessous), c’est Google qui s’octroyait la première place mais avec “seulement” 43,1% du trafic, devant Yahoo! (28%), MSN (12,9%), AOL (6,9%) et Ask (5,8%).
Selon Hitwise, le tiercé gagnant était à cette époque le suivant : 1. Google (47,40%),
2. Yahoo! Search (16%), 3. MSN (11,50%). Enfin, selon Nielsen // Netratings, on obtenait le classement : 1. Google (50%), 2.Yahoo! (22%), 3. MSN (11%).
La situation semble donc claire à ce niveau-là :
- Seule une petite dizaine de portails de recherche génèrent du trafic sur les sites
web. Et encore moins de technologies.
- Dans ce cadre, il n’est pas complétement vain de restreindre sa stratégie de référencement
au seul Google, qui représente en France près de 80% du trafic “outils de recherche”.Cette stratégie ne serait en revanche pas valable pour un site web visant le marché américain.

2.3.2. Sur quels annuaires généralistes se référencer ?
Depuis la nuit des temps (c’est-à-dire, dans le domaine des outils de recherche sur le Web, depuis une petite dizaine d’années), le monde de la recherche d’informations sur le Web se divise en deux grandes familles : les annuaires et les moteurs de recherche. Si cette distinction est avérée pour le monde de la recherche d’information, elle l’est également pour le référencement, puisqu’il faut inscrire un site web sur les deux familles d’outils. Historiquement, les annuaires ont longtemps été les outils les plus utilisés par les internautes. Il y a encore cinq ans de cela, Yahoo! était le plus gros générateur de trafic “outils de recherche” - et de loin - sur un site web, loin devant AltaVista qui était, lui, le premier “moteur”. La plupart des outils “mixtes” (proposant à la fois des liens issus d’un annuaire et d’un moteur), comme Voila, proposaient en premier les
liens issus de l’annuaire, etc. Bref, les annuaires étaient incontournables. Un site web se devait d’être présent dans leurs bases de données pour acquérir une visibilté importante sur la Toile.
Cependant, plusieurs élèments sont venus changer la donne depuis quelques années :
- Google génère aujourd’hui une très forte majorité du trafic “outils de recherche”, comme on l’a vu précédemment. Et Google est un moteur de recherche, pas un annuaire (même s’il utilise l’annuaire Open Directory pour son site, nous y reviendrons également dans la suite de cet ouvrage).
- La soumission est devenue payante sur les annuaires majeurs à un moment donné, et cette offre n’a pas réellement fonctionné, ce qui a fait chuter le nombre de soumissions, la mise à jour de ces outils et leur intérêt.
- Le positionnement publicitaire (liens sponsorisés) a également changé la donne en occupant les premières positions des pages de résultat des moteurs et en modifiant la vision des outils de recherche par rapport aux résultats proposés suite à la saisie d’un mot clé. Le positionnement publicitaire a également changé en profondeur la vision de la rentabilité d’un outil de recherche. Si vous regardez les statistiques de trafic de votre site web, vous verrez rapidement que la part des annuaires est aujourd’hui réduite à la portion congrue et certainement à moins de 1% du trafic total généré par les outils de recherche. A un point tel qu’une question se pose de façon claire à l’heure actuelle : “est-il nécessaire de référencer son site sur un annuaire ?
Pour tenter d’y répondre, nous avons essayé de lister les différents arguments qui
font que cette soumission pourrait être intéressante. Ou, plus simplement, les différents avantages à être présent dans un annuaire. Pour chacun d’eux, nous tenterons, dans les pages qui suivent, d’évaluer l’importance de la présence d’un site au sein du catalogue d’un annuaire et, par là-même, l’intérêt de passer du temps (voire de dépenser de l’argent) pour arriver à vos fins.
2.3.2.1. Trafic sur saisie de mots clés
Premier argument tout à fait logique : si votre site est intégré dans la base de données d’un annuaire, l’internaute pourra le trouver lorsqu’il saisira ses mots clés. Cette vision était exacte il y a quelques années encore, lorque Yahoo!, par exemple,
affichait d’abord sur sa page de résultats les liens issus de son annuaire PUIS ceux
de son moteur. Idem pour Voila, etc. Il n’en est rien aujourd’hui, puisque l’immense majorité des outils de recherche proposent d’abord les liens issus de leur moteur de recherche. Bien sûr, si les liens proposés sont issus des index “moteur”, il arrive que des informations affichées (résumé, nom des catégories) soient issues de la base de données “annuaire”. Mais ce ne sont là que des données complémentaires proposées si le site issu de l’index “moteur” est également présent dans l’annuaire. Il ne semble cependant pas que la seule présence d’un site dans l’annuaire soit à même de “booster” le classement d’un site sur saisie de mot clé

2.3.2.2. Trafic issu des catégories
Deuxième type de trafic issu des annuaires : celui provenant de clics sur un lien proposé dans l’annuaire, à l’intérieur de sa catégorie (au sein de la liste le plus souvent classée par ordre alphabétique, voire par ordre de popularité). Ce trafic peut être issu de deux comportements de l’internaute : le premier provient d’une navigation dans l’arborescence depuis la page d’accueil.

2.3.2.3. Obtention de liens
L’argument est connu : en intégrant un annuaire, on augmente son “indice de popularité”, donc son “PageRank”, au sens “Googlien” du terme (voir chapitre 3). Bref, on rajoute vers son site un lien de qualité, ce qui fait énormément de bien au positionnement du site sur les moteurs de recherche. En effet, si un site à fort PageRank pointe vers vous, cela augmente automatiquement votre PageRank, donc votre positionnement sur Google. Et Yahoo! ayant un fort PageRank, c’est tout bénéfice pour vous.
Certes, mais c’est oublier que, pour Google, la calcul du PageRank est effectué en tenant compte non pas du PageRank de la page d’accueil du site pointant vers vous, mais de celui de la page qui contient le lien. Donc, sur Yahoo!, de la page correspondant à la catégorie dans laquelle votre site sera référencé. Et sur Yahoo!, comme sur tous les annuaires, le PageRank (mesurable au travers d’une note sur 10 grâce à la Googlebar, comme nous le verrons très prochainement) décroit au fur et mesure de la navigation dans l’arborescence. Plus votre site sera inscrit dans une catégorie “profonde” au sein de l’arborescence de Yahoo!, ou tout du moins “peu populaire”, moins le lien qui sera effectué sur la page en question sera intéressant pour votre popularité... Ne l’oubliez pas ! L’idéal serait d’obtenir un lien depuis la page d’accueil de l’annuaire de Yahoo! (pageRank de 7). Mais vous imaginez bien que ce n’est pas chose aisée... On peut plus facilement parier que votre site sera listé dans une catégorie interne de l’annuaire, disposant d’un PageRank beaucoup plus faible. Et n’oubliez pas que vous ne maîtrisez pas, même en prenant en compte une soumission payante lorsqu’elle existe, la catégorie dans laquelle votre site sera inscrit, puisque ce choix sera effectué par le documentaliste de l’annuaire (voir chapitre 5).

Enfin, autre argument : le PageRank de votre page est calculé par Google en fonction du PageRank des pages qui ont mis en place un lien vers elle, mais également en tenant compte du nombre de liens sortants de chacune des pages en question. Plus il y a de liens sur la page “pointant” vers vous, moins son influence sera importante pour votre PageRank. Or, les catégories d’annuaires sont avant tout des pages de liens.Ceci dit, il nous semble évident que l’avantage des annuaires aujourd’hui se situe moins au niveau du trafic généré (quasi nul) qu’au niveau des liens qui peuvent être, parfois assez rapidement, créés, aidant ainsi à la popularité de votre source d’information et donc à son meilleur classement dans les moteurs.

2.3.2.4. Meilleure présence dans les Métamoteurs
L’idée, ici , est simple : plus on est présent dans les pages de résultats des outils de recherche, quels qu’ils soient, et meilleurs seront les résultats sur les métamoteurs de type Copernic, Kartoo, etc. Idée certes bonne, mais dans ce cas, on revient au premier argument évoqué dans ce paragraphe : pour être dans les premières pages de résultats des outils de recherche, il vaut mieux être présent dans les moteurs que sur les annuaires.

2.3.2.5. Présence induite sur les moteurs
De nombreux moteurs indexent de façon automatique les nouveaux sites référencés sur certains annuaires. Certains pensent que, pour être présent sur Google, une des méthodes les plus rapides consiste à voir son site référencé sur l’Open Directory. Quelques semaines plus tard, le site en question apparaîtrait dans l’index du moteur, même s’il n’a pas été soumis directement à Google. Ceci est discutable. De plus, nous verrons au chapitre 5 comment indexer son site
sur les moteurs de recherche en quelques jours, voire quelques heures. Pourquoi passer par des annuaires pour obtenir un résultat beaucoup plus aléatoire en plusieurs semaines ?

2.3.2.6. “Boost” du positionnement si le site est présent dans l’annuaire associé au
moteur
Un site est-il mieux positionné sur les résultats “moteur” s’il est présent dans l’annuaire associé à l’outil de recherche ? En d’autres termes, la présence dans l’Open Directory garantit-elle un meilleur classement sur Google ? Plusieurs théories allant dans ce sens ont été proposées dans les mois qui viennent de s’écouler. Rien de tout cela n’a été prouvé pour l’instant. Comme nous l’avons évoqué précédemment, rien ne dit que le fait qu’un site soit présent sur l’annuaire de Yahoo! “booste” son classement sur saisie de mots clés dans le moteur de recherche.
Mais disons que, pour cet argument, nous laisserons quelque peu la place au doute, car il noussemblerait logique qu’un moteur prenne en compte un aspect “humain”,
par l’intermédiaire du tri et de la sélection effectués par les documentalistes de l’annuaire, pour proposer plus de pertinence à ses résultats. Cependant, rien, actuellement, ne nous prouve que ce type de critère soit pris en compte par les outils de recherche.

2.3.2.7. Etre présent parce que les concurrents y sont : le “syndrome du salon
Dans de nombreux salons, dans le “monde réel”, des sociétés achètent un stand parce que leurs concurrents ont déjà acheté le leur... Pas question d’être absent si les concurrents directs sont présents de l’autre côté de l’allée. Même si le salon ne rapporte aucun prospect... C’est un argument qui se tient. Il peut être étendu aux annuaires du Web : si les sites des concurrents sont déjà dans Yahoo!, le Guide Voila ou autres Open Directory, il faut que le vôtre y soit également. Il s’agit là d’une décision stratégique et non pas basée sur la génération de trafic. Mais cet argument est recevable.

2.3.2.8. Descriptif du site (issu de l’annuaire) dans les résultats moteur (“snippet”)
Dernier argument que nous évoquerons dans ce paragraphe : sur Google, par exemple, le fait qu’un site soit présent dans l’Open Directory “powered by Google” (http://directory.google.fr/) induit parfois l’affichage, dans la page de résultats, du commentaire rédigé par le documentaliste.

2.3.2.9. Conclusion
Nous avons évoqué plusieurs arguments pour ou contre l’inscription d’un site dans les annuaires. Nous vous laissons vous faire votre propre opinion sur la base de ces quelques éclaircissements. Nous pensons, pour notre part, que la seule véritable motivation d’une inscription dans les annuaires majeurs et généralistes est le gain de nouveaux liens dans le cadre d’une augmentation de popularité. Un annuaire nous semble cependant incontournable aujourd’hui : l’Open Directory. Et ce pour plusieurs raisons :
- Il est utilisé par de très nombreux portails en France et dans le monde. Une inscription dans cette base de données implique donc, à terme, une présence - et donc des liens - sur de très nombreux sites web.
- Il est gratuit (pas de soumission payante). En revanche, il est de notoriété publique qu’il n’est pas très simple d’y entrer (manque d’éditeurs, problèmes techniques suite à la maintenance des plates-formes techniques, etc.). Mais la présence d’un site dans cet annuaire nous semble
aujourd’hui indispensable. Voici, en tout état de cause, les annuaires majeurs et généralistes sur lesquels vous pouvez concentrer votre attention :
Annuaires francophones :
- Open Directory (http://www.dmoz.org/World/Fran%c3%a7ais/)
- Yahoo! Guide (http://fr.dir.yahoo.com/)
- Guide de Voila (http://guide.voila.fr/)
Annuaires anglophones :
- Open Directory (http://www.dmoz.org/)
- Yahoo! Directory (http://dir.yahoo.com/)
Les autres annuaires généralistes, à la mi-2006, soit sont inintéressants soit ont disparu de la planète Web.On peut également, pour conclure, évoquer une autre possibilité, pour intégrer les
annuaires gratuitement : faites de votre site un “incontournable” de votre domaine
d’activité, par sa notoriété, son contenu et/ou son originalité. Ainsi, il sera automatiquement ajouté par les documentalistes des annuaires, dans le cadre de leur activité, de plus en plus importante, de “veille”. Vous serez alors présent dans les annuaires sans avoir effectué de soumission préalable. Le must ! Et ne l’oubliez jamais : Content is king !!

2.3.3. Et les autres outils de recherche ?
Nous avons évoqué jusqu’ici le référencement de votre site sur les principaux moteurs et annuaires généralistes, ayant pour vocation de traiter “tout le Web”. Cela veut-il dire que les autres outils de recherche (ceux qui ne sont pas considérés comme “majeurs”) sont négligeables et qu’il ne faut pas les prendre en compte ? Oui et Non...
Oui, si la seule chose qui vous intéresse est le trafic du point de vue quantitatif. Non, si la qualité du trafic obtenu est une chose importante pour vous (et tout nous pousse à croire que c’est le cas...). En effet, en dehors des outils “généralistes” que nous venons de voir, il existe deux familles de moteurs et d’annuaires qu’il peut être intéressant de prendre en compte dans le cadre d’une stratégie de référencement :
- Les outils de recherche thématiques, qui ne prennent en compte qu’une partie du
Web, mais qui tentent de la traiter mieux que les généralistes que sont Google ou autres Yahoo!. Exemples : Rugby Engine (http://www.rugby-engine.com/) pour ce sport, Indexa (http://www.indexa.fr/) pour les sites professionnels ou Mamma
Health (http://www.mammahealth.com/), spécialisé dans le domaine de la santé aux Etats-Unis.
- Les outils de recherche régionaux, qui n’effectuent des recherches que dans une région donnée comme la Bretagne (http://www.breizhoo.fr/ ou http://www.breizhat.com/) ou d’autres...
Ces outils peuvent être soit des annuaires, soit des moteurs, soit un condensé des deux.Dans ces cas, ne vous attendez pas à voir votre trafic exploser du fait de votre présence sur ces outils de recherche, en revanche le trafic généré sera certainement très bien ciblé. Vous n’aurez donc pas obligatoirement la quantité mais la qualité pourrait être au rendez-vous.Pour trouver ce type d’outils, voici quelques pistes et sites intéressants :
- Indicateur (http://www.indicateur.com/)
- Search Engine Colossus (http://www.searchenginecolossus.com/)
- Enfin (http://www.enfin.com/)
- Abondance (http://annuaire.abondance.com/)
- Les annuaires (http://www.lesannuaires.com/)
Ou tentez des requêtes du type “annuaire santé” ou “moteur de recherche santé” sur un moteur généraliste. Les premiers résultats devraient être pertinents (ici dans le domaine de la santé bien sûr).

En résumé
- Seule une petite dizaine de moteurs truste l’immense majorité du trafic généré par les outils de recherche.
- L’inscription sur les annuaires généralistes rapporte peu de trafic, mais est surtout intéressante dans une optique de création de liens.
- Les annuaires régionaux et thématiques peuvent apporter un trafic de qualité, même en faible quantité.

Chapitre 2. Preparation d’un referencement

Ce résumé n'est pas disponible. Veuillez cliquer ici pour afficher l'article.

Chapitre 1- Définitions (4)

1.8. Comment fonctionne un annuaire ?
Parmi les outils de recherche historiquement les plus utilisés par les internautes, les annuaires ont longtemps eu une place appréciable, et le plus connu d’entre eux a été celui de Yahoo!, dont la version française est aujourd’hui disponible à l’adresse : http://fr.dir.yahoo.com/directory/ Sa version anglophone peut être trouvée ici :http://dir.yahoo.com/ Ces outils ont un fonctionnement tout à fait différent de celui des moteurs de recherche que nous avons étudiés précédemment. En effet, la principale différence avec des moteurs tels que Google ou Yahoo! Search (la version “moteur” du portail Yahoo!) est qu’ils n’effectuent aucune recherche sur le contenu des documents (des pages) des sites référencés. Ils proposent “simplement” (ce terme n’est pas péjoratif) une collection de fiches descriptives des sites qu’ils référencent. Ils présentent, dans une hiérarchie de catégories et sous-catégories diverses, le contenu du Web au travers de ses sites décrits par un nom et un commentaire de quelques mots. Ces outils ressemblent à nos “Pages Jaunes”, qui auraient pris un “coup de jeune” en se structurant à l’aide d’un thésaurus interactif. La recherche se fait en descendant une hiérarchie qui balaie des thèmes allant du plus général au plus précis, et qui fournit, en dernier lieu, une liste de sites représentatifs du domaine présenté, quel que soit le niveau de l’arborescence atteint. Nous avons donc affaire ici à une base de données de liens pointant vers d’autres sites du Web, ces liens étant classés et décrits de façon hiérarchique. Ces annuaires sont utilisés pour trouver un site spécifique traitant d’un thème donné. Ils sont très efficaces pour identifier de l’information générale, puisqu’ils décrivent les services référencés au moyen de quelques mots seulement. Globalement, l’annuaire ne connaît que très peu d’informations sur le site qu’il référence : - Son nom (titre) ; - Son adresse (URL) ; - Un descriptif du site, de dix à vingt mots en général, rédigé par ses documentalistes; - La catégorie (ou rubrique, les deux mots sont synonymes dans ce cas) dans laquelle le site est inscrit. Certains annuaires proposent l’inscription dans plusieurs catégories, d’autres limitent cette soumission à une seule rubrique. La recherche sur ces outils peut alors se faire de deux façons : - En descendant l’arborescence afin d’atteindre la bonne catégorie dans laquelle trouver le site adéquat. Si elle a longtemps été utilisée, cette méthodologie de recherche semble aujourd’hui obsolète. - En saisissant un mot clé, qui sera alors recherché dans les informations que détient l’annuaire : titre, adresse, commentaires et nom de catégorie. A aucun moment donc, l’annuaire n’effectue une recherche en texte intégral dans le contenu des pages qui constituent le site, comme le ferait un moteur. Il ne prend en compte que les fiches descriptives des sites que contient sa base de données. La façon dont vos pages sont construites (titre, texte, balises Meta, etc.) n’est à aucun moment prise en compte par l’algorithme de classement. Elle ne joue en tout cas aucun rôle lors de l’inscription ou de l’affichage des résultats pour une requête par mots clés sur le contenu de l’annuaire (nous y reviendrons...). Enfin, sachez, dans un premier temps (voir chapitre 5) que pour être inscrit sur ces outils, il faut le demander. Le processus est exactement l’inverse de ce que nous connaissons pour le téléphone. Lorsqu’un opérateur de télécommunications installe une ligne téléphonique chez vous, vous êtes automatiquement inscrit dans l’annuaire. Si vous ne souhaitez pas l’être, vous devez demander à être inscrit sur une liste rouge. Sur l’Internet, comme souvent, c’est l’inverse : lorsque vous créez votre site web, vous n’êtes inscrit dans aucun annuaire par défaut. Vous êtes en liste rouge. Pour être référencé, il faut soumettre une demande à chacun de ces outils sur le Web pour voir votre demande prise en compte, sachant que l’inscription de votre site peut être refusée. Le référencement sur ces outils se fait donc au moyen d’une action volontaire de la part du responsable du site. La plupart du temps, il est recommandé (voire nécessaire) de trouver d’abord la ou les bonnes catégories dans lesquelles s’inscrire, puis d’effectuer cette demande dans un second temps. Ensuite, le documentaliste de l’annuaire va venir inspecter votre site puis l’accepter ou le refuser dans l’annuaire en fonction de la charte éditoriale de l’outil dont il a la charge. Si votre site est accepté, il écrit alors un titre et un descriptif de lui-même et le placera dans les catégories qui lui semblent les plus pertinentes. En clair, vous proposez votre site, l’annuaire (et ses documentalistes) dispose... Mais n’allons pas trop vite... Nous étudierons cette soumission sur les annuaires dans le chapitre 5 de cet ouvrage. Il est important également de dire que le trafic généré par les annuaires est aujourd’hui très faible. L’immense majorité du trafic “outils - moteurs + annuaires - de recherche” est à l’heure actuelle généré par les moteurs, qui feront donc l’objet de la plus grande partie de cet ouvrage. Là encore, le chapitre 5 de ce livre vous en dira plus à ce sujet.





En résumé
Il est très important de bien visualiser les différences entres les moteurs et les annuaires :
- Les moteurs sont maintenus de façon automatisée par des logiciels (robots,
systèmes d’indexation, algorithmes de pertinence) alors que les annuaires
sont maintenus par des êtres humains (documentalistes) qui rédigent des
fiches descriptives de sites.
- Les moteurs indexent le contenu textuel des pages alors que les annuaires
“se contentent” de fiches descriptives de sites (titre, résumé, url, catégorie(s)).
- Les moteurs indexent donc des pages web et les annuaires des descriptions
de sites web. Différence essentielle...
Ce chapitre d’”introduction” est maintenant terminé. Si vous l’avez lu avec assiduité,
vous devez logiquement être tout à fait au point sur la façon dont fonctionnent un
moteur et un annuaire ainsi que sur la stratégie globale à adopter pour optimiser vos
pages. Vous devez donc être prêts à relever vos manches et à plonger dans le
“cambouis” (terme noble selon nous) du moteur ! Ca tombe bien, c’est au chapitre
suivant que cela se passe...

Chapitre 1- Définitions (3)

1.5. Les trois étapes à respecter lors d’un référencement sur un moteur
Nous avons vu précédemment le fonctionnement d’un moteur de recherche. Cela va
nous servir à comprendre les différentes étapes qui vont constituer la mise en place
d’un référencement réussi. Reprenons ces stades de fonctionnement succcessifs :
Nous en avons déjà parlé, l’affichage des résultats par un moteur se décompose en
trois étapes :
1. Extraction depuis son index des pages contenant les mots de la requête tapée
par l’utilisateur.
2. Classement des résultats par pertinence.
3. Affichage.
De la même façon, les étapes à mener dans le cadre d’un “bon” référencement suivront
cette même logique :
1. Le moteur se sert d’un index de recherche. Il faudra donc que votre site web soit
présent dans cet index. Il s’agit de la phase de “référencement”. Si votre site propose
100 pages web, il faudra idéalement qu’elles y soient toutes. C’est, bien
entendu, une condition sine qua non pour qu’elles soient trouvées. Cela va sans dire
mais bien mieux en le disant... Et cela n’est pas sans incidence sur la façon dont
votre site doit être “pensé” lors de sa conception... Nous y reviendrons tout au long
de cet ouvrage.
2. L’internaute saisit ensuite un mot clé sur le moteur. Celui-ci “extrait” de son index
général toutes les pages qui contiennent le mot en question (nous verrons, plus loin
dans cet ouvrage, que cette affirmation doit être quelque peu révisée). Il faudra donc
que vos pages contiennent les mots clés importants pour votre activité. Cela vous
semble évident ? Pourtant, à en voir de nombreux sites web que nous ne nommerons
pas, cette notion semble bien souvent oubliée ;-)... Bref, si vous voulez obtenir
une bonne visibilité sur l’expression “hotel obernai”, il faudra que les pages que vous
désirez voir ressortir sur cette requête contiennent - au minimum - ces mots.
3. Mais pas seulement. En effet, pour cette expression, Google renvoie plus de 85
000 résultats. Donc, il ne faudra pas mettre ces mots “n’importe où” dans vos
pages... Pour faire en sorte que vos documents soient réactifs par rapport aux critères
de pertinence des moteurs, et donc qu’ils soient bien positionnés (depuis les
30 premiers résultats jusqu’au “triangle d’or”, voir précédemment dans ce chapitre),
il faudra insérer ces termes de recherche dans des “zones chaudes” de vos pages :
titre, texte, urls, etc. Nous étudierons tout cela au chapitre 3.
En résumé
Un processus de référencement s’effectue en 3 phases essentielles :
1. Référencement : votre site doit être “trouvable” (“en rayon”) dans l’index du
moteur, de la façon la plus complète possible.
2. Identification : une ou plusieurs des pages de votre site doit se trouver
“dans le lot” des pages identifiées car contenant les mots clés constituant la
requête de l’internaute.
3. Positionnement : vos pages doivent être optimisées en fonction des critères
de pertinence des moteurs afin d’être classées au mieux dans les pages
de résultats pour vos mots clés choisis au préalable. Pour cela, il faudra
(entre autres) placer les termes désirés dans des “zones chaudes” des pages.
Nous espérons que le contenu de ce livre vous aidera à franchir ces trois étapes...

1.6. Deux écoles : optimisation du site versus pages satellite
Vous l’avez compris si vous avez lu de façon assidûe ce chapitre : la façon dont
votre site va être conçu aura une incidence importante sur son classement et donc
sa visibilité sur les moteurs de recherche...
Longtemps, deux écoles ont cohabité sur le Web à ce sujet :
- La première consiste à dire qu’il est nécessaire d’optimiser les pages “réelles” de
votre site web : bien étudier leur titre, leur texte, leurs liens, leur url, éviter les obstacles
(voir chapitres 3 et 4). Bref, une optimisation “à la source” du code HTML des
pages du site, sans artifice.
- La deuxième école consiste à dire : “développez votre site sans tenir compte des
moteurs de recherche ou ne le modifiez pas s’il est déjà en ligne”. Des pages web
spécifiques, appelées “pages alias”, “pages satellites”, “doorway pages” ou “pages
fantômes” (entre autres dénominations qui désignent toutes le même concept)
seront alors créées. Ce sont celles-ci qui seront optimisées pour être bien position
nées sur les moteurs. Ces pages contiennent une redirection (le plus souvent écrite
en langage JavaScript) vers le “vrai” site. Exemple : une page satellite est construite
pour l’expression “voyage maroc”. Elle est “optimisée” pour cette requête et contient
une redirection vers la page qui traite de ce thème sur le site du client. Si cette page
satellite est bien positionnée dans les pages de résultats des moteurs, l’internaute
va cliquer dessus et sera donc redirigé vers la “vraie” page du site qui, elle, n’est pas
optimisée. Ce type de “rustine” a longtemps été utilisée sur le Web, au moins jusqu’en
2005/2006. Disons-le tout de suite : nous ne sommes pas partisans de ces pratiques
et, plus radicalement, nous vous déconseillons formellement de faire appel à ces
systèmes dans le cadre de votre référencement...

1.7. Pourquoi faut-il éviter les pages satellites ?
Pourquoi est-ce que nous vous déconseillons d’utiliser des pages satellites ? Nous
allons essayer ici de vous donner quelques arguments...
1. Les moteurs de recherche considèrent les pages satellites comme du spam.
Relisez les conseils techniques de Google à ce sujet aux adresses suivantes :
http://www.google.fr/intl/fr/webmasters/guidelines.html
http://www.google.fr/intl/fr/webmasters/seo.html
Vous y lirez la phhrase suivante : “Évitez les pages satellites (« doorway ») créées
exclusivement pour les robots de moteur de recherche”... Difficile d’être plus explicite.
En règle générale, lisez attentivement les deux pages proposées aux adresses
ci-dessus, elles regorgent de conseils très intéressants...
D’autres moteurs que Google proposent également dans leur site des “guidelines”
assez précises dans ce domaine:
Yahoo! :
http://eur.help.yahoo.com/help/fr/ysearch/deletions/index.html
http://eur.help.yahoo.com/help/fr/ysearch/deletions/deletions-04.html
http://eur.help.yahoo.com/help/fr/ysearch/deletions/deletions-05.html
MSN :
http://search.msn.fr/docs/siteowner.aspx?FORM=WMDD2
http://search.msn.fr/docs/siteowner.aspx?t=SEARCH_WEBMASTER_REF_Guideli
nesforOptimizingSite.htm&FORM=WGDD
A noter cependant que des moteurs comme Exalead, Gigagblast ou Ask ne donnent
aucune indication dans ce sens sur leur site web.
2. Malheureusement, de nombreux abus ont été constatés dans ce type de technique,
et les moteurs ont, petit à petit, de moins en moins apprécié ce type de page
et l’ont dit de façon de plus en plus explicite dans leurs zones d’aide. Pour clarifier
ce point, nous avons demandé à Matt Cutts (Google), Olivier Parriche (Yahoo!) et
Antoine Alcouffe (MSN) leur opinion sur ce thème. La question était : “Quelle est
votre opinion sur les pages satellites, souvent utilisées par les référenceurs ?” Voici
leurs réponses, sans langue de bois...
La conclusion nous semble donc évidente : exit les pages satellites pour les mois
qui viennent. Le seul vrai “bon” référencement est bien celui qui est basé sur l’optimisation
“à sa source” du site web lui-même, sans information cachée dans les
pages et sans page satellite. Ceux qui seront blacklistés ou pénalisés dans un proche
avenir pour avoir abusé des pages satellites ne pourront pas dire qu’ils n’ont pas
été prévenus...
Il ne reste plus alors qu’aux webmasters à envisager un référencement basé sur
l’optimisation “à sa source” du site web lui-même, sans information cachée dans les
pages et sans page satellite. Ce qui donne d’ailleurs d’excellents résultats, comme
vous allez pouvoir vous en rendre compte en lisant cet ouvrage. Ou à inventer de
nouvelles possibilités de contourner les algorithmes des moteurs. Et le jeu des gendarmes
et des voleurs continuera alors... Jusqu’à quand ?
Ces arguments nous semblent suffisants pour bien réfléchir avant de mettre en
place une stratégie basée sur les pages satellites. La situation, à notre avis, est similaire
à celle des balises “meta”, il y a quelques années de cela :
1. Les balises meta (“description” et “keywords”, voir chapitre 3) étaient une solution
idéale pour les moteurs de recherche puisqu’elles permettaient de fournir à ces derniers des informations sur le contenu des pages de façon transparente. Les pages
satellites permettent également de pallier des problèmes techniques pouvant bloquer
un référencement (Flash, sites trop graphiques ou dynamiques, etc.).
2. Certains webmasters sont allés trop loin et ont réellement fait “n’importe quoi”
avec les balises meta, les truffant notamment de mots clés n’ayant aucun rapport
avec le contenu du site ou indiquant de nombreuses occurrences d’un même terme,
etc. Les pages satellites connaissent actuellement les mêmes abus, certains référenceurs y ajoutant par exemple de façon cachée des liens vers leur propre site,
voire, encore pire, vers les sites d’autres clients histoire d’en améliorer la popularité...
3. Que s’est-il passé, à l’époque, pour les balises meta ? Les moteurs en ont eu
assez des excés de certains webmasters et ont, dans leur immense majorité, décidé
de ne plus prendre en compte ces champs dans leur algorithme de pertinence. Les
webmasters qui, eux, les géraient de façon “propre” en ont fait les frais... Nous vous
laissons le choix de la réflexion quant à la façon dont va se passer l’étape “3” pour
les pages satellites... Les moteurs sont clairs aujourd’hui sur ce point : les pages
satellites sont du spam et doivent être abandonnées...
Il est très important de bien comprendre que la page satellite ne doit pas obligatoirement être considérée comme un “délit” en soi. Il fut une époque où cela marchait très bien et où la communication à ce sujet par les moteurs de recherche était plus que floue... Mais la multiplication des abus a amené les moteurs à supprimer ce type de pages de leurs index. Ceux qui auront basé toute leur stratégie de référencement sur ces “rustines” - et auront certainement payé très cher pour cela - en seront alors pour leurs frais... Cela deviendra aussi inutile que de baser tout son référencement sur l’usage des balises meta “keywords”, globalement inefficaces aujourd’hui... A bon entendeur.
Mais ne nous y trompons pas : la majorité des sociétés de référencement en France
n’utilise plus à la mi-2006 les pages satellites comme système de référencement /
positionnement et basent plutôt leur stratégie sur le conseil et l’optimisation des
pages existantes du site voire la création de véritables pages de contenu optimisées.
Là est la véritable voie de réflexion pour l’avenir... En revanche, les entreprises
orientées “pages satellites” devront clairement et très rapidement réfléchir à leur
avenir et à leurs méthodologies avant qu’il ne soit trop tard...
Puissiez-vous en être persuadé à la lecture de ce chapitre : la page satellite est une
technologie qui peut aujourd’hui être considérée comme obsolète, voire dangereuse.
Elle DOIT être abandonnée ! Mais pour cela, il faut absolument que tous les
acteurs de la chaîne de la création de site web soient clairement persuadés que
chacun doit et peut avancer dans le même sens :
- Le propriétaire d’un site web doit être conscient que, pour obtenir une bonne visibilité sur les moteurs de recherche, certaines concessions, notamment techniques,
doivent être faites (moins de Flash, de JavaScript, plus de contenu textuel, etc.).
- Le créateur du site web (web agency) doit être formé aux techniques d’optimisation
de site et conseiller, en partenariat avec le référenceur, de façon honnête, le
client sur ce qui est possible et ce qui ne l’est pas.
- Le référenceur doit garantir la non utilisation de pages satellites ou d’autres procédés
aujourd’hui clairement refusés et interdits par les moteurs de recherche. Il est
possible d’obtenir une excellente visibilité sur un moteur de recherche en mettant en
place une optimisation “propre”, loyale, honnête et pérenne, et sans artifice ni “rustine” à durée de vie limitée... Le tout est surtout de partir d’une base la plus “saine”
possible, c’est-à-dire d’un site web préparé dès le départ pour le référencement...
Alors, si tout le monde y met du sien (et pourquoi, dans ce sens, les moteurs de
recherche ne se joindraient-ils pas au cortège ?), peut-être évitera-t-on le type de
problème qu’on voit apparaître aujourd’hui avec le blacklistage (mise en liste noire)
de certains sites majeurs par les moteurs... Mais cela passera nécessairement par
une “révolution culturelle” et la remise en question d’une certaine approche du référencement. Les sociétés françaises qui se sont perdues dans la voie de la page
satellite sont-elles prêtes à cette révolution qui n’est peut-être d’ailleurs qu’une évolution? L’avenir le dira...
Bref, vous l’aurez peut-être compris, l’auteur de ce livre est un fervent adepte de
l’optimisation “in situ” des pages constituant un site web. Ce sont ces pratiques d’optimisation “loyale”, aujourd’hui éprouvées, efficaces, et extrêmement pérennes, que nous allons vous expliquer dans cet ouvrage... Un peu de patience encore, les chapitres prochains y seront entièrement consacrés...

Chapitre 1- Définitions (2)

1.4. Comment fonctionne un moteur de recherche ?
Avant d’y référencer votre site, savez-vous ce que l’outil de recherche que vous utilisez au quotidien a “dans le ventre” ? Pas si simple, car si des moteurs comme Google, Yahoo! ou MSN Search semblent simplissimes à l’utilisation, sous leur capot sommeille souvent un tigre redoutable. Nous vous proposons dans ce chapitre une analyse globale du fonctionnement des moteurs et des processus qui sont mis en oeuvre pour traiter les documents, stocker les informations les concernant et restituer des résultats aux requêtes des utilisateurs. En effet, bien maîtriser le fonctionnement d’un moteur permet de bien mieux appréhender le référencement et l’optimisation de son site.
Un moteur de recherche est donc un ensemble de logiciels parcourant le Web puis indexant automatiquement les pages visitées. Trois étapes sont indispensables à son fonctionnement :
- La collecte d’information (ou crawl) grâce à des robots (ou spiders ou crawlers).
- L’indexation des données collectées et la constitution d’une base de données de documents nommée “index”.
- Le traitement des requêtes, avec en particulier un système d’interrogation de l’index
et de classement des résultats en fonction de critères de pertinence suite à la saisie de mots clés par l’utilisateur de l’outil.
Deux principaux types de contenus sont actuellement affichés par les moteurs dans leurs pages de résultats, comme nous l’avons vu dans les pages précédentes :
- les liens “organiques” ou “naturels”, obtenus grâce au “crawl” du Web.
- les liens sponsorisés.
Nous allons nous concentrer ici en priorité sur les techniques utilisées par les moteurs pour indexer et retrouver des liens “naturels” et nous n’aborderons pas le traitement spécifique des liens sponsorisés (liens commerciaux, traités au chapitre 7 de cet ouvrage).
1.4.1. Technologies utilisées par les principaux portails de recherche
En dehors des trois leaders du marché (Google, Yahoo et MSN), de nombreux moteurs n’utilisent pas leurs propres technologies de recherche mais ils sous-traitent cette partie auprès de grands moteurs. En fait il n’existe que peu de “fournisseurs de technologie” sur le marché : Google, Yahoo!, MSN, Teoma, Wisenut et Gigablast aux Etats-Unis, comme sur le plan mondial, sont les principaux. Exalead,
Mirago et Voila sont les acteurs majeurs en France, à côté d’autres moins connus comme Antidot, Deepindex, Seekport, Misterbot ou Dir.com (mais il en existe d’autres).
1.4.2. Principe de fonctionnement d’un moteur de recherche
Pour leur fonctionnement, les moteurs de recherche suivent plusieurs étapes : des robots (ou spiders ou crawlers) explorent dans un premier temps le Web de lien en lien et récupèrent des informations (phase dite de “crawl”). Ces informations sont ensuite indexées par des moteurs d’indexation, les termes répertoriés enrichissant un index régulièrement mis à jour (une base de données des mots contenus dans les pages). Une interface de recherche permet enfin de restituer des résultats aux utilisateurs en les priorisant en fonction de leur pertinence (phase de “ranking”).
1.4.2.1. Les crawlers ou spiders
Les spiders (également appelés agents, crawlers, robots ou bots) sont des programmes de navigation visitant les pages Web et leurs liens de manière continue en vue d’indexer leurs contenus. Ils parcourent les liens hypertextes entre les pages et reviennent périodiquement visiter les pages retenues pour prendre en compte les éventuelles modifications.
Un spider est donc un logiciel très simple mais redoutablement efficace. Il ne sait faire que deux choses :
- Lire des pages web et stocker leur contenu (leur code HTML) sur les disques durs du moteur.
- Détecter les liens dans ces pages et les suivre pour identifier de nouvelles pages web.
Le processus est immuable : le spider trouve une page, la sauvegarde, détecte les liens qu’elle contient, se rend aux pages de destination de ces liens, les sauvegarde, y détecte les liens, etc. Et cela 24 heures sur 24... L’outil parcourt donc le Web inlassablement pour y détecter des pages web en suivant des liens... Une image assez communément répandue pour un spider serait celle d’un “internaute fou” qui lirait et mémoriserait toutes les pages web qui lui sont proposées et qui cliquerait sur tous les liens qu’elles contiennent pour aller sur d’autres documents, etc. Parmi les spiders connus, citons notamment le spider “Googlebot” de Google,“Yahoo! Slurp” de Yahoo, “Henri Le Robot Mirago” du moteur Mirago ou encore le plus récent “MSNBot” de MSN.
Mais parcourir le Web ne suffit pas. En effet, lorsqu’un spider arrive sur une page, il va vérifier s’il ne la connaît pas déjà. Si c’est le cas, il va regarder si la version découverte est plus récente que celle qu’il a déjà à sa disposition... En cas de réponse positive, il va “jeter” l’ancienne version et la remplacer par la nouvelle. L’index se met ainsi à jour de façon automatique... Il y a quelques années de cela, les mises à jour des index des moteurs étaient mensuelles.Chaque mois, le moteur mettait à jour ses données en supprimant un “ancien” index pour le remplacer par un “nouveau”, mis à jour pendant 30 jours par ses robots, scrutant le Web à la recherche de nouveaux documents ou de versions plus récentes de pages déjà en sa possession. Cette période avait notamment été appelée chez Google la “Google Dance”. Elle fut d’ailleurs, pour l’anecdote, longtemps indexée (c’est le cas de le dire) sur les phases de pleine lune... On savait, à cette époque, que lorsque la pleine lune approchait, un nouvel index était en préparation chez Google... Nous verrons plus tard dans ce livre que le terme de “Google Dance” désigne tout autre chose actuellement. Ce système de mise à jour mensuelle des index n’a plus court aujourd’hui. La plupart des moteurs gère le crawling de manière “différenciée” et non “linéaire”. Ils visitent plus fréquemment les pages à fort taux de renouvellement des contenus (très souvent mises à jour) et se rendent moins souvent sur les pages “statiques”. Ainsi, une page qui est mise à jour quotidiennement (par exemple, un site d’actualité) sera visitée chaque jour ou tous les deux jours par le robot tandis qu’une page rarement modifiée sera “crawlée” toutes les quatre semaines en moyenne. De plus, la disponibilité du document dans l’index du moteur est quasi immédiate. Ainsi, une page souvent mise à jour sera le plus souvent accessible à la recherche sur le moteur un ou deux jours plus tard. Ces pages récemment crawlées sont par exemple identifiables sur Google car la date de crawling est affichée. Le résultat proposé ci-dessus montre bien que la page proposée a été “crawlée” (sauvegardée par les spiders) deux jours auparavant et qu’elle a été immédiatement traitée et disponible dans les résultats de recherche. On pourra noter que la technique de suivi par les spiders des liens hypertextes peuvent poser plusieurs problèmes pour :
- L’indexation des pages qui ne sont liées à aucune autre et ne peuvent donc pas être répérées par les crawlers qui n’ont aucun lien à “se mettre sous la dent” (si tant est que les robots aient des dents...). Il en est ainsi des sites qui viennent d’être créés et qui n’ont pas encore de “backlinks” (liens entrants) qui pointent vers eux.
- L’indexation des pages “dynamiques” de périodiques ou de bases de données (ces pages étant moins facilement prises en compte, nous y reviendrons au chapitre 4...).
- Les pages pointées par des documents proposant des liens non pris en compte par les moteurs de recherche, comme beaucoup de ceux écrits en langage JavaScript. Là aussi, nous y reviendrons (chapitre 4).
Le passage des spiders sur les sites peut être vérifié par les webmasters en analysant les fichiers “logs” sur les serveurs (ces fichiers indiquent l’historique des connexions, dont celles des spiders, qui ont eu lieu sur le site). La plupart des outils statistiques comprennent dans leurs graphiques ou données une partie “visites des robots”. Attention cependant : ces outils doivent le plus souvent être spécifiquement configurés pour prendre en compte tous les robots émanant de moteurs français.Les outils statistiques, notamment d’origine américaine, ne prennent pas toujours en compte ces spiders “régionaux”...
1.4.2.2. Le moteur d’indexation
Une fois les pages du Web “crawlées”, le spider envoie au moteur d’indexation les informations collectées. Historiquement, plusieurs systèmes d’indexation des données ont été utilisés :
- Indexation uniquement des balises meta (meta-tags) insérées par les webmasters dans le code source des pages html, balises qui comprennent entre autres le résumé et les mots-clés attribués par l’auteur à la page. Très peu de moteurs fonctionnent ainsi aujourd’hui.
- Indexation des titres seulement ou de quelques lignes des documents. Là aussi, ce mode de fonctionnement est devenu très rare.
- Indexation en texte intégral (c’est de loin le cas le plus fréquent). Tous les mots d’une page, et plus globalement son code HTML, sont alors indexés. Le plus souvent donc, les systèmes d’indexation se chargent d’identifier en “plein texte” l’ensemble des mots des textes contenus dans les pages ainsi que leur position.Certains moteurs peuvent cependant limiter leur capacité d’indexation. Ainsi, pendant de longues années, Google s’est limité aux 101 premiers kilo-octets des pages (ce qui représentait cependant une taille assez conséquente). Cette limite ne
semble aujourd’hui plus d’actualité. MSN Search, pour sa part, semblait se limiter aux 150 premiers kilo-octets des pages au moment où ces lignes étaient écrites.
D’autres moteurs peuvent effectuer une sélection en fonction des formats de document (Excel, Powerpoint, PDF…). Cependant, comme pour les logiciels documentaires et les bases de données, une liste de mots “vides” (par exemple, “le”, “la”, “les”, “et”…) appelés “stop words” en anglais, est le plus souvent automatiquement exclue (pour économiser de l’espace de stockage) ou ces mots sont systématiquement éliminés à l’occasion d’une requête (pour améliorer la rapidité des recherches).
1.4.2.3. L’index inversé
Au fur et à mesure de l’indexation et de l’analyse du contenu des pages web, un index des mots rencontrés est automatiquement enrichi. Cet index est constitué :
- D’un index principal ou maître, contenant l’ensemble du corpus de données capturé par le spider (URL et/ou document…).
- De fichiers inverses ou index inversés, créés autour de l’index principal et contenant tous les termes d’accès (mots clés) associés aux URL exactes des documents contenant ces termes sur le Web.
L’objectif des fichiers inverses est simple. Il s’agit d’espaces où sont répertoriés les différents termes rencontrés, chaque terme étant associé à toutes les pages où il figure. La recherche des documents dans lesquels ils sont présents s’en trouve ainsi fortement accélérée.
Pour comprendre le fonctionnement d’un index inversé, prenons, par exemple, une page A (disponible à l’adresse http://www.sanglots.com/) comprenant la phrase “Les sanglots longs des violons de l’automne” et une page B (http://www.violons.com/) contenant les mots “Les violons virtuoses : les premiers violons du Philharmonique de Radio France”.
- L’index de documents, comprenant toutes les pages prises en compte par le moteur lors d’une recherche. C’est cette base de données que nous appelerons “index” dans cet ouvrage, par souci de concision.
- L’index inversé, qui comprend en fait les mots clés potentiels de recherche ainsi que leurs connexions avec l’index de documents. Il s’agit de la partie immérgée de l’iceberg, invisible pour l’utilisateur du moteur mais pourtant indispensable à son fonctionnement...
L’index doit être mis à jour régulièrement, en ajoutant, modifiant ou supprimant les différentes entrées. C’est en effet la fréquence de mise à jour d’un index qui fait en grande partie la qualité des résultats d’un moteur et sa valeur (pas de doublons ou de liens morts dans les résultats…), d’où des délais de rafraîchissement relativement courts.
1.4.2.4. Le système de ranking
Le ranking est un processus qui consiste pour le moteur à classer automatiquement les données de l’index, de façon à ce que, suite à une interrogation, les pages les plus pertinentes apparaissent en premier dans la liste de résultats. Le but du classement est d’afficher dans les 10 à 20 premières réponses les documents répondant le mieux à la question. Les moteurs élaborent pour cela en permanence de nouveaux algorithmes (des formules mathématiques utilisées pour classer les documents).
Ces algorithmes sont un véritable facteur différenciant. Ils ne sont donc que très rarement rendus publics et ils sont même dans certains cas protégés par des brevets et font parfois l’objet de “secrets défenses” voire de mythes comparables à celui du “7X” (principal composant du Coca-Cola)...Il existe plusieurs grandes méthodes de ranking des résultats et les moteurs utilisent pour la plupart un mélange de ces différentes techniques...
- Le tri par pertinence Les résultats d’une requête sont triés en fonction de six principaux facteurs appliqués aux termes de la question (toutes ces notions seront revues en détail au chapitre 3) :
- Localisation d’un mot dans le document (exemple : le poids est maximum si le mot apparaît dans le titre ou au début du texte) ou son adresse (url).
- Densité d’un mot, calculée en fonction de la fréquence d’occurrences du mot par rapport au nombre total de mots dans le document.
- Mise en exergue d’un mot : gras, titre (balise Hn), lien, etc.
- Poids d’un mot dans la base de données calculé en fonction de la fréquence d’occurrences du mot dans l’index (les mots peu fréquents sont alors favorisés).
- Correspondance d’expression basée sur la similarité entre l’expression de la question et l’expression correspondante dans un document (un document est privilégié lorsqu’il contient une expression similaire à celle de la question, notamment pour des requêtes à plusieurs mots clés).
- Relation de proximité entre les termes de la question et les termes utilisés dans le document (les termes proches l’un de l’autre sont favorisés).
- Le tri par popularité (indice de popularité)
Popularisé - mais pas inventé - par Google en 1998 (pour contrer entre autres les abus possibles des méthodes de tri par pertinence), le tri par popularité s’appuie sur une méthode basée sur la “citation”, l’analyse de l’interconnexion des pages web par l’intermédiaire des liens hypertexte, et il est a priori indépendant du contenu. Ainsi, Google classe les documents en fonction de leur “PageRank” (nombre et qualité des liens pointant vers ces documents, nous y reviendrons en profondeur au chapitre 3). Le moteur analyse alors les pages contenant les liens (les liens émanant de pages issues de sites considérés comme “importants” pèsent plus “lourd” que ceux de pages de certains forums ou de “pages perso” jugées secondaires par exemple). Plus une page est pointée par des liens émanant de pages “populaires”, plus sa popularité est grande est meilleur est son classement. Cette méthode de tri des résultats est aujourd’hui utilisée par de nombreux moteurs (pour ne pas dire tous les moteurs majeurs).
- Le tri par mesure d’audience (indice de clic)
Créée par la société DirectHit en 1998, cette méthode permet de trier les pages en fonction du nombre et de la “qualité” des visites qu’elles reçoivent. Le moteur analyse alors le comportement des internautes à chaque clic, chaque visite d’un lien depuis la page de résultats (et notament le fait qu’il revienne ou non sur le moteur et au bout de combien de temps) pour tenter de trouver les pages les plus “populaires” (au sens du clic) parmi les pages référencées et améliorer en conséquence leur classement dans les résultats. Plus une page sera cliquée et moins les internautes reviendront sur le moteur après l’avoir consultée (signifiant ainsi qu’ils ont trouvé “chaussure à leur pied”), et plus cette page sera considérée comme pertinente et sera donc mieux classée à la prochaine requête similaire... Cette méthode semble être tombée en désuétude depuis quelques temps.
- Le tri par catégories Lancé en 1997, Northernlight proposait le classement automatique des documents trouvés dans des dossiers ou sous-dossiers (clustering) constitués en fonction des
réponses. celles-ci, intégrées à chaque dossier, étaient également triées par pertinence. Cette technique de “clusterisation” thématique des résultats est aujourd’hui notamment utilisée, entre autres, par le français Exalead (http://www.exalead.com/) et les américains Vivisimo (http://www.vivisimo.com/) et Clusty (http://www.clusty.com/).
Les moteurs sont également amenés à ajuster en permanence leurs algorithmes afin de contrer le “spamdexing”, c’est-à-dire les techniques peu scrupuleuses de spam utilisés par certains webmasters pour “tromper” les moteurs de recherche et améliorer artificiellement le positionnement d’une page. Parmi les techniques les plus connues (et réprouvées par les moteurs), citons notamment le fait de multiplier les mots-clés dans les balises meta des pages
HTML, qui a certainement amené les moteurs à ne plus prendre en compte ce champ (voir chapitre 3), le fait d’intégrer un texte “invisible” sur une page (en blanc sur fond blanc, par exemple), la création de “sites miroirs” ou de liens fictifs ou invisibles pointant vers une page (ce qui permet de détourner l’indice de popularité), les pages satellites, la mise en place de faux portails contenant en fait des liens commerciaux ou le développement de “fermes de liens” (linkfarms), à savoir des listes de liens sans cohérence ayant pour unique objectif de gonfler la popularité des sites inscrits. Mais nous aurons l’occasion d’en reparler plus longuement dans cet ouvrage...
1.4.2.5. Le logiciel de recherche / moteur d’interrogation
Le moteur d’interrogation (searcher) est l’interface frontale (formulaire de recherche) proposée aux utilisateurs. Plusieurs niveaux de requête (interface de recherche simple ou avancée) sont en général offerts. A chaque question, par le biais d’un script CGI (Common Gateway Interface), une requête est générée dans la base de données
et une page Web dynamique restitue les résultats généralement sous forme de listes ou de cartes de résultats. L’interface CGI permet d’exécuter un programme sur un serveur et de renvoyer le résultat à un navigateur Internet.
1.4.2.6. Focus sur le fonctionnement de Google
Créé en 1998 par deux étudiants de l’université de Stanford, Sergey Brin et Larry Page, Google s’est rapidement imposé comme le leader mondial des moteurs de recherche.
Le stockage des données et la réponse aux requêtes sont effectués à partir de dizaines de milliers de PC traditionnels tournant sous Linux. Réunis en clusters (grappes), les ordinateurs sont interconnectés selon un système basé sur la répartition des charges entre ordinateurs (un ordinateur distribue les tâches au fur et à mesure vers les autres ordinateurs disponibles).
D’un coût moins élevé que celui des serveurs, les PC traditionnels offrent un avantage au moteur de recherche dans la mesure où il est possible d’agrandir relativement “facilement” le parc informatique à mesure que croissent le Web et la quantité de documents à indexer. L’index de Google est découpé en petits segments (des “shards”) afin qu’ils puissent
être répartis sur l’ensemble des machines distribuées dans des datacenters déployés dans le monde entier, cela afin de réduire au maximum les temps de réponse aux requêtes et les coûts en bande passante. Pour rester disponible en cas de défaillance d’un PC, chaque “shard” est dupliqué sur plusieurs machines. Plus le PageRank est élevé et plus le nombre de duplicata est élevé Dévoilée il y a sept ans (et probablement toujours similaire à l’heure actuelle, même si plusieurs projets, dont le célèbre “BigDaddy” l’ont dernièrement renouvellée) l’architecture de Google fait apparaître l’interconnexion de plusieurs composants séparés. Chaque composant a un rôle bien défini :
- Le serveur d’URL (URL server) envoie aux crawlers (Googlebot) toutes les adresses des pages devant être visitées (et notamment les liens soumis via le formulaire de soumission de Google, voir chapitre 5).
- Le store server compresse les pages extraites par les crawlers et les envoie au Repository où elles sont stockées.
- L’indexeur lit et décompresse le contenu du Repository. Il associe à chaque document un numéro identifiant docID et convertit chaque page en un ensemble d’occurrences de termes (chaque occurrence est appelé un “hit”), enregistrant les informations sur le “poids” du mot dans la page (position, mis en exergue…).
- L’indexeur distribue les occurrences dans un ensemble de “barrels” (organisés pardocID).
- L’Anchors stocke certaines informations générées par l’indexeur, à savoir les liens hypertextes et les ancres qui leurs sont associés (textes des liens).
- Le solveur d’URL (URL Resolver) récupère les informations fournies par l’Anchors
et convertit chaque adresse URL pointée par l’ancre en un docID (si cette adresse n’existe pas dans le Doc Index, alors il l’ajoute).
- Le Links contient des paires de docID (reçues du solveur d’URL). Il s’agit de paires de liens car chaque ancre appartient à une page et pointe vers une autre page.
- Le PageRank récupère les informations de cette base de données de liens pour calculer le PageRank de chaque document (indice de popularité).
- Le Sorter récupère les données stockées dans les “Barrels”, organisées par docID, et les réorganise en wordID (identités des mots). Cette opération permet de générer l’index inversé, stocké dans les mêmes “Barrels”.
- La liste des mots créée par le Sorter est comparée avec celle du Lexicon (lexique) et tout mot ne figurant pas dans le lexique y est ajouté.
- Enfin, le Searcher (interface de recherche) exécute les recherches pour répondre aux requêtes des utilisateurs. Il utilise pour cela le lexique (créé par l’indexeur), l’index inversé contenu dans les Barrels, les adresses URL associées aux mots de l’index
inversé (provenant du Doc Index) et toutes les informations du PageRank concernant la popularité des pages. A chaque requête, le serveur consulte l’index inversé et regroupe une liste de documents comprenant les termes de recherche (hit list). Il classe ensuite les pages en fonction d’indices de popularité et de pertinence.
En résumé
Un moteur de recherche est basé sur plusieurs “modules” indispensables :
- Des spiders qui parcourent le Web pour collecter les documents qui le constituent, en adaptant leurs fréquences de visites aux délais de mise à jour des pages.
- Un index des documents identifiés par les spiders.
- Un index inversé contenant les mots compris dans les documents.
Lors de la saisie d’une requête, l’algorithme de pertinence du moteur permet
de classer les pages web en fonction de la pertinence par rapport aux mots clés demandés.