Contenu principal

Rechercher dans Docinfos

Internet paraît bien loin aujourd’hui de l’état d’esprit qui a régné à ses débuts où le tout gratuit était maître. Ce support est devenu un vecteur essentiel de la vie économique d’un grand nombre de pays au risque même de voir disparaître le modèle de base. En effet, la majeure partie des sites sur le Web sont commerciaux et quand on sait qu’« Au total, sur le premier semestre 2005, 27,151 millions de transactions ont été effectuées par carte bancaire sur Internet pour un montant de 2,383 milliards d’euros, soit une croissance de 95% par rapport au premier semestre 2004, tant en volume qu’en valeur » (1), on comprend l’importance des techniques de promotion. Pour que l’investissement soit rentable, il faut rendre le site visible aux internautes afin de générer du trafic et par là même dégager un bon chiffre d’affaires et surtout accroître sa notoriété.

Il existe plusieurs méthodes pour promouvoir un site comme le référencement, les bannières publicitaires, l’achat de mots-clés ou le positionnement payant, les liens promotionnels, etc. Les détailler dans un article serait pénalisant, nous ne pouvons donc être que descriptif. Comme cet écrit s’adresse à des lecteurs variés, tels des documentalistes ou des bibliothécaires, mais aussi à des particuliers ou des enseignants-chercheurs, nous avons préféré l’axer sur le référencement. Ce procédé reste abordable d’un point de vue financier par comparaison avec les autres modes de promotion.

Cependant, le référencement, qui consiste à soumettre un site aux différents outils de recherche afin qu’il soit présent dans leur base de données, ne peut être valable que s’il est accompagné d’un bon positionnement, donc le site doit figurer dans les trente premiers résultats.

Dans ce qui suit, nous allons donc définir ce que c’est que le référencement, puis présenter quelques conseils pour optimiser un site, expliquer le fonctionnement de quelques outils de recherche tout en sachant que là aussi notre ambition n’était pas d’être exhaustif, mais de donner un exemple de ce qui est essentiel à connaître. Enfin, nous ne pouvions pas aborder le référencement sans traiter des pratiques déloyales qui constituent un vrai fléau.


Préparer le référencement

La stratégie de référencement commence dès la conception d’un site. En amont, ce dernier doit être attractif et apporter une valeur ajoutée par rapport aux concurrents. Il doit être optimisé pour un public cible à atteindre. La création de site n’étant pas notre propos, nous allons nous contenter de rappeler rapidement quelques règles : un contenu riche et actualisé ;

  • une charte graphique bien définie ;
  • un temps de chargement court ;
  • une mise en pages très claire ;
  • une bonne ergonomie qui permet une navigation aisée ;
  • etc.

En aval, il faut procéder à quelques adaptations sur les pages du site ou au moins sur quelques-unes avant d’effectuer le référencement.

Les « balises META » ou « META TAG »

Les balises META, qui font partie du langage HTML (HyperText Markup Language), vont faciliter la tâche du moteur de recherche en lui communiquant les données utiles pour préciser le contenu du site (2).

Parmi les balises incontournables, citons :

  • <i>Le titre de la page</i> . En plus de faire apparaître le titre dans la barre de titre du navigateur, cette balise est utilisée par les moteurs de recherche pour avoir des indications sur le contenu de la page. Les mots du titre doivent refléter le contenu du reste du document. Les spécifications HTML recommandent de ne pas dépasser les 64 caractères.
  • Le descriptif du site ou de la page“>. Destinée à insérer un descriptif qui ne doit pas dépasser 200 caractères, faute de quoi il serait tronqué par les moteurs de recherche. Cette balise, qui peut être utilisée dans chaque page, permet dans certains outils de contrôler les descriptions qui s’affichent avec les résultats ; elle doit être cohérente avec l’ensemble du texte.
  • suite de mots clés“>. Les mots-clés ne doivent pas dépasser les 1000 caractères et peuvent être séparés, indifféremment, par un espace, une virgule ou une virgule suivie d’un espace. Privilégiez les virgules, ce qui vous permettra d’isoler les expressions qui n’ont pas le même sens si les mots sont dissociés (exemple sciences de l’information, agent intelligent). Même si plusieurs moteurs de recherche ne se contentent plus de ces balises et prennent en considération la totalité de contenu, il est conseillé d’accorder une attention particulière au choix des mots-clés en évitant :
    • les mots génériques (voiture, livre, etc.),
    • les mots vides (pronoms, conjonction) ils sont le plus souvent ignorés par les outils de recherche,
    • les mots protégés par un copyright si on n’est pas autorisé à les employer par exemple la marque d’un concurrent,
    • les mots étrangers au site juste pour drainer du trafic comme l’usage des termes très utilisés dans les recherches, les noms d’artistes célèbres, ou des noms de marque,
    • les majuscules, certains moteurs étant sensible à la casse.

Classez les mots-clés par ordre d’importance. Il existe des sites qui affichent les mots-clés les plus recherchés par les internautes et qui aident le webmaster à sélectionner les siens.(3)

Il existe d’autres balises complémentaires :

  • HTTP“> : indique le type de caractères utilisés dans la page afin d’éviter les problèmes des caractères accentués avec d’autres codes sur divers systèmes (Mac/Windows).
  • HTTPContent-Language” CONTENT=”fr“> : renseigne sur la langue utilisée sur le site.
  • revisit-after CONTENT=”Nombre de jours ex. : 20 days“> : Demande de revisiter le site après un temps donné. Il est inutile d’exiger du moteur de revenir souvent si ce dernier n’est pas mis à jour.
  • robots” CONTENT=”index“> : Indique si le robot doit indexer ou pas la page et/ou suivre les autres pages du site :
    • « All » (par défaut) permet d’indexer vos pages et de suivre les liens hypertextes d’une page à l’autre.
    • « None » interdit d’indexer vos pages et de suivre les liens.
    • « Index » précise que vos pages peuvent être indexées.
    • « NoIndex » pour que les robots ne procèdent à aucune indexation.
    • « Follow » donne la permission de suivre les liens hypertextes des pages.
    • « NoFollow » ne permet pas de suivre les liens hypertextes.

Il est possible de combiner plusieurs options en les séparant par des virgules sous réserve qu’elles ne soient pas contradictoires.

La liste des balises est beaucoup plus exhaustive, une description complète est disponible sur le site du World Wide Web Consortium.(4)

Le traitement de ces balises n’est pas identique pour tous les moteurs de recherche. Cependant, il est toujours utile de leur accorder une attention particulière, elles doivent être présentes dans toutes les pages importantes d’un site avec un descriptif et des mots-clés spécifiques à chacune d’entre elles.

Certains sites spécialisés(5) dans le référencement mettent à disposition des générateurs de balises META. Il suffit de remplir les différents champs et le générateur propose le code HTML correspondant. Ensuite, il faut copier ce code et le coller dans l’en-tête de la page. Tous les sites ne proposent pas les mêmes balises. Il existe même des logiciels dédiés(6) qui permettent de générer ces balises et de les insérer dans les pages.

Comme nous l’avons précisé précédemment, les balises META ont des caractéristiques qu’il faut respecter notamment en ce qui concerne le nombre de caractères. Plusieurs outils et sites permettent de faire ce contrôle(7).

Les liens

Plus un site est cité, plus il est considéré comme populaire par un moteur de recherche, notamment Google, et donc il est mieux classé dans les résultats. De ce fait, prévoyez des liens vers d’autres sites et demandez à ce que vous soyez mentionné à votre tour. Attention, la qualité des liens est majeure.

Les images

Les concepteurs ont tendance à créer des sites qui privilégient le design et font appel au graphisme. Si le côté esthétique s’en trouve amélioré, les moteurs de recherche n’y sont pas sensibles et deviennent aveugles puisqu’ils ne peuvent traiter que du texte. Pour contourner cet obstacle, associez un texte à l’image grâce à la balise ALT(8).

Outre le fait de donner des indications aux internautes qui ont désactivé l’affichage des images pour accélérer la navigation, cette balise enrichit la page en texte pertinent qui sera pris en considération par les moteurs de recherche.

La technique flash

Il s’agit d’un fichier créé par le logiciel Macromédia et qui peut être intégré à un site Web. Cette technique permet d’améliorer le côté esthétique d’un site, cependant elle est inaccessible aux robots. De ce fait, il est déconseillé de l’utiliser sur toutes les pages ; les moteurs n’ayant pas accès à du texte rejetteront votre site. Une des solutions a longtemps consisté à utiliser les fichiers flash en créant des pages satellites (doorway pages, pages alias). Ces pages destinées à être indexées par les moteurs de recherche sont optimisées avec des mots-clés et grâce à une redirection, elles renvoient l’internaute vers la page conçue en flash. Compte tenu des abus, de plus en plus d’outils de recherche les rejettent en les assimilant à du spam, il est donc déconseillé de les utiliser. Une autre possibilité réside dans l’utilisation de la balise </i> et <i> pour ajouter du contenu textuel, mais ceci complique la tâche du référenceur et augmente le coût du référencement.

Les cadres ou « frames »

Les cadres permettent de diviser une page HTML en plusieurs zones, chaque zone faisant appel à une page distincte. Si pour l’internaute, le tout est affiché dans une seule page, ce n’est pas le cas pour les moteurs de recherche. En effet, les robots n’indexent que la page principale qui permet de définir la mise en pages. Le fait de soumettre chaque page du cadre séparément est inutile, le moteur ne réussira pas à les regrouper à la restitution, donc on aboutira à une page hors contexte. Si l’utilisation des cadres est indispensable pour certains, il est nécessaire de créer du contenu comme pour une page d’accueil classique. Ce contenu sera inséré dans la balise et qui renseignera les robots sur le contenu des différents cadres.

Le plan du site ou le « sitemap »

Ajouter à un site le plan communément connu sous le nom de « sitemap » permet tant à l’internaute qu’au robot du moteur de recherche de suivre tous les liens et d’accéder à toutes les pages. De ce fait, il est nécessaire que cette page renvoie, par des liens hypertextes, vers les pages les plus importantes du site ; une courte description du contenu de la page est un plus.

Les pages dynamiques

Une page dynamique est une page reconstituée à la volée en réponse à une action de l’internaute selon un modèle préconçu. Par exemple, un internaute accède à un site et effectue une recherche, les résultats sont présentés dans des pages dynamiques créées en réponse à sa requête.

Cette solution est très satisfaisante d’un point de vue du webmaster et des contributeurs - plusieurs personnes ayant la possibilité d’alimenter un site - puisqu’elle autorise la mise à jour sans se préoccuper de la mise en pages. Le traitement de ces pages n’est pas identique dans tous les moteurs de recherche, certains les indexent d’autres non. La technique de rewriting transforme les adresses dynamiques en adresses statiques cependant, elle nécessite certaines compétences techniques.

Le fichier robot.txt

N’oubliez pas de renseigner le fichier robot.txt. Il s’agit d’un fichier placé à la racine d’un site et destiné à donner au robot des indications sur les pages à indexer ou à ne pas indexer .

L’adresse du site ou le nom de domaine

L’URL d’un site contribue aussi à un bon référencement. Il est préférable d’éviter les hébergements gratuits, les hébergements en sous-domaine, les domaines en fr.st (nom de domaine gratuit utilisant la redirection) d’autant plus qu’il existe aujourd’hui des solutions de dépôt de nom de domaine et d’hébergement à des prix dérisoires (environ 15€ par an). Une adresse véhiculant un mot-clé - nom de l’organisme, nature de l’activité – peut améliorer le référencement.

N’oublions pas qu’un site est principalement destiné à être lu par des êtres humains, donc il s’adresse à un public cible donné. Donc, il ne faut pas tomber dans l’écueil de l’optimisation à outrance au point de le rendre inintéressant. Un site conçu uniquement dans un objectif de référencement et qui néglige les utilisateurs n’aura pas de succès.

 


Le référencement manuel

Avoir un site bien conçu, n’est pas une garantie d’un bon référencement, ni d’un bon positionnement sauf si vous êtes chanceux et si vous bénéficiez de beaucoup de popularité. C’est la raison pour laquelle, il est nécessaire de référencer son site et de le soumettre aux différents outils de recherche. Deux méthodes existent : le référencement manuel et le référencement automatique. Seule la première est garante d’un bon résultat.

Un bon référencement manuel nécessite une bonne connaissance des différents types d’outils de recherche et de leur mode de fonctionnement. Le référencement ne se faisant pas de la même manière selon les outils.

Il existe deux types d’outils de recherche sur Internet, les moteurs de recherche et les annuaires.

Les moteurs de recherche

Les moteurs de recherche utilisent des algorithmes spécifiques pour explorer les pages Web et générer leur index. Quand un internaute lance sa requête, il interroge directement les bases de données créées par le « crawler » ou le « spider » ce qui accélère le traitement. Pour mener à bien une opération de référencement, il faut bien connaître la manière dont l’indexation est effectuée et le mode de fonctionnement des différents outils. Compte tenu de leur nombre, ils ne seront pas tous décrits dans cet article, seuls Google et Yahoo, qui sont leaders sur le marché de la recherche d’informations, vont être examinés. Néanmoins, nous sommes conscients que le travail reste incomplet si on se limite à ces deux outils et il est nécessaire de ne pas négliger les autres moteurs comme MSN, Gigablast, Teoma, etc.

Google

Lancé en 1998, Google référence plus de 8 milliards de pages(9). Selon le « Panorama Médiamétrie-eStat/@position » publié en mai 2005(10), plus de 8 internautes sur 10 effectuent leur recherche en utilisant ce moteur. Ceci explique l’engouement des webmasters à référencer leur site dans cet outil.

L’élément primordial qui détermine le classement est l’indice de popularité. Cette technologie est appelée PageRank qui « permet de mesurer objectivement l’importance des pages Web. Ce classement est effectué grâce à la résolution d’une équation de plus de 500 millions de variables et de plus de 2 milliards de termes. Au lieu de compter les liens directs, PageRank interprète chaque lien de la Page A vers la Page B comme un vote pour la Page B par la Page A. PageRank évalue ensuite l’importance des pages en fonction du nombre de votes qu’elles reçoivent. PageRank tient également compte de l’importance de chaque page qui « vote » et attribue une valeur supérieure aux votes émanant de pages considérées comme importantes. Les pages importantes bénéficient d’un meilleur classement PageRank et apparaissent en haut des résultats de recherche… ».(11)

Le deuxième élément qui est pris en considération est l’analyse de mise en correspondance hypertextuelle : « le moteur de recherche de Google analyse également le contenu des pages. Cependant, l’analyse Google ne porte pas uniquement sur le texte (qui peut être manipulé par les éditeurs de sites au moyen de balises META), mais sur la totalité du contenu des pages afin de tenir compte des polices, des subdivisions et de l’emplacement de chaque mot. Google analyse également le contenu des pages Web voisines pour s’assurer que les résultats renvoyés sont bien en rapport avec les recherches des utilisateurs ».(12)

Google tient compte des balises Title et ALT, il indexe différents types de format de fichiers (pdf, asp, jsp, html, shtml, xml, cfm, doc, xls, ppt, rtf, wks, lwp, wri, swf, cfm et php.) et même des fichiers de bases de données.

Google effectue deux types d’indexation : complète et partielle. Quand un site apparaît dans la page de résultats avec une description complète, ceci signifie qu’il a été visité par le robot et donc indexé complètement. Par contre, quand il figure uniquement avec son URL, ceci signifie qu’il a été repéré grâce à des sites visités, mais il n’a pas été analysé par le robot.

Pour figurer dans l’index, vous pouvez :

  • soumettre gratuitement l’URL de votre site. Cette procédure ne garantit aucun résultat puisqu’on lit sur cette page « Bien entendu, nous n’ajoutons pas systématiquement dans notre index les adresses de sites qui nous parviennent ; par conséquent, nous ne pouvons ni annoncer ni garantir l’inclusion de votre site ».
  • faire de la publicité en utilisant les annonces Google AdWords. Le webmaster, après avoir ciblé sa clientèle (langue, région, ville), rédige son annonce et choisit les mots-clés qui déclencheront son annonce. Ensuite, il choisit son coût par clic (CPC) et son budget quotidien, ce service est donc payant.(13)

Récemment, Google a ajouté une nouvelle fonctionnalité Google sitemaps (toujours en version bêta) pour faciliter le référencement d’un site : « Google Sitemaps est une expérience d’exploration du Web. Nous espérons étendre notre couverture du Web et accélérer la découverte et l’ajout de pages dans notre index en utilisant des plans Sitemap pour informer et piloter nos robots d’exploration ».(14)

Donc, pour bien référencer un site sur Google, il est nécessaire que votre site soit bien conçu, qu’il intègre un sitemap et qu’il bénéficie d’une large audience, de préférence de liens sérieux et populaires. D’où le conseil de référencer son site en premier dans les annuaires de recherche. De ce fait, les sites récents sont pénalisés ainsi que les sites dont le sujet est très pointu.

Yahoo

Le moteur de recherche de Yahoo est récent, puisqu’il a été lancé en février 2004. Auparavant, cet outil proposait un annuaire de recherche (voir plus bas) et sous-traitait sa partie moteur à Google. En août 2005, donc 6 mois après sa date de lancement, il recensait 20 milliards de documents, soit 19,2 milliards de pages web, 1,6 milliard d’images et plus de 50 millions de fichiers audios et vidéos.(15)

Yahoo fixe plusieurs conditions pour qu’un site soit indexé :
* Contenu original pour des pages de valeur.
* Pages conçues en premier lieu pour des humains (les optimisations pour moteurs d’indexation sont secondaires).
* Hyperliens vraiment utiles, pointant sur des pages au contenu intéressant.
* Titre et description dans les balises META et HEAD (par exemple) qui décrivent précisément votre contenu.
* Bon design de pages, en général.
(16)

Le robot suivra les liens contenus dans le site, il indexera les URL courtes et ignorera les pages stockées à partir du 4e répertoire. Il indexera certains contenus de sites dynamiques.

Par contre, il va ignorer les :
* Pages qui nuisent à la pertinence ou à la diversité des résultats de recherche.
* Pages ne servant qu’à diriger l’internaute vers une autre page.
* Pages au contenu substantiellement identique à celui d’autres pages existantes.
* Sites possédant de nombreuses URL virtuelles.
* Pages générées automatiquement en grand nombre et de peu d’intérêt.
* Pages usant d’astuces pour artificiellement augmenter leur classement.
* Utilisations de texte invisible pour l’internaute.
* Pages ne présentant pas le même contenu à notre robot qu’aux internautes.
* Pages pointant les unes vers les autres dans de grandes proportions.
* Pages utilisant de façon abusive le nom d’un concurrent.
* Différents sites offrant le même contenu.
* Pages utilisant de trop nombreux pop-ups.
(17)

Pour figurer dans l’index de Yahoo, vous pouvez :

  • acheter des liens promotionnels en passant par les services de la société Overture(18) qui est une filiale de Yahoo.

« Si votre site est indexé dans le guide Web Yahoo!, cela peut augmenter ses chances d’apparaître dans les résultats de recherche ».(19)

Pour permettre à un webmaster de connaître les pages de son site indexées par le moteur Yahoo, un nouveau service a été lancé le 29 septembre 2005. Il s’agit du Siteexplorer.

Les annuaires de recherche

Les annuaires de recherche sont des inventaires thématiques de ressources qui sont essentiellement des sites Web organisés selon des classifications très variées. Contrairement à un moteur de recherche, ils n’utilisent pas des robots pour référencer un site et de ce fait ils ne référencent pas des pages, mais des sites. Le classement est effectué par des êtres humains (documentalistes, cyberdocumentalistes, cybersurfeurs ou surfeurs) qui seront très vites découragés si votre site est mal conçu, il sera donc ignoré. Les annuaires se contentent en général des mots-clés et du descriptif fournit lors du référencement, c’est la raison pour laquelle il faut être précis au moment du choix. Ensuite, il suffit de repérer celui qui nous intéresse, la catégorie dans laquelle le site doit être classé puis de trouver le lien qui permet de soumettre un site. La mise à jour étant plus aléatoire que dans les moteurs, il convient de ne pas rater son référencement.

Open directory project

Cet annuaire est un des plus importants sur le Web et est maintenu par des éditeurs bénévoles. Il a été fondé dans l’esprit du mouvement Open Source et n’importe quel site sur le Web peut l’utiliser sous réserve qu’il respecte la « free use license » en précisant que le free désigne libre et non pas gratuit.

En date du 3 octobre 2005, il recensait 1 603 680 sites dont 172 467 pour la version en français.

Le référencement se fait en quatre étapes(20) :

1. Assurez-vous que le site proposé répond à certains critères. Il ne faut pas soumettre :

  • des pages identiques et dans des catégories inappropriées ;
  • des sites identiques, mais avec des URL différentes (sites miroirs) ;
  • des liens profonds différents d’un même site ;
  • un site dont l’adresse redirige vers une autre ;
  • des sites en construction ;
  • des sites au contenu illicite.

2. Vérifiez qu’il ne figure pas déjà dans l’annuaire en faisant attention de rechercher dans la version relative à la langue du site. Ne cherchez pas un site en français dans la partie en anglais et vice versa.

3. Trouvez la catégorie qui correspond au mieux au contenu de votre site.

4. Cliquez sur le lien « Proposer un site » et remplissez le formulaire. Si vous ne réussissez pas à trouver cette fonction, c’est que la catégorie n’accepte plus de suggestion.

Open directory project lutte contre le spam et si des webmasters persistent dans leurs tentatives, ils se « verront leurs soumissions bloquées, et leurs sites pourraient être complètement retirés du répertoire ».

Open directory project lutte contre le spam et si des webmasters persistent dans leurs tentatives, ils se « verront leurs soumissions bloquées, et leurs sites pourraient être complètement retirés du répertoire ».(21)

Yahoo

Lancé en 1994 pour le Yahoo anglophone, la version française n’a vu le jour qu’en 1997. Il s’agit d’un des plus anciens annuaires du Web. Avant 2001, le référencement dans Yahoo était totalement gratuit. De 2001 à octobre 2004, Yahoo proposait deux types de référencement : la soumission standard, gratuite, réservée aux particuliers et sans garantie de délai et la soumission via le service Yahoo! Express, payante et offrant une garantie de traitement dans un délai de sept jours ouvrés à compter de la date de réception du paiement. Aujourd’hui, seule la soumission standard perdure. Pour expliquer ce revirement, on peut lire sur les pages de Yahoo « Nos études montrent qu’un nombre sans cesse croissant de recherches se font par les résultats de recherche Web. Par conséquent, il nous a semblé moins pertinent de continuer à faire cette proposition commerciale en Europe ; c’est pourquoi nous fermons le service »(22). Lorsque Yahoo a annoncé l’arrêt des soumissions, plusieurs ont craint la disparition de cet outil et nous trouvons que c’est une grande perte si une telle décision est prise.

Pour figurer dans l’annuaire de Yahoo, un site doit remplir certains critères entre autres : une conformité avec la loi, un site qui ne soit pas en cours de construction et qu’il soit en français. Pour la liste complète des critères, consulter les « Conditions d’acceptation d’un site sur Yahoo! France »(23) Pour référencer son site, il faut contrôler si le site n’existe pas déjà, ensuite, il faut repérer la bonne catégorie, et à la fin cliquer sur proposer un site.

Comme on peut le voir, les offres des outils de recherche changent et il est nécessaire d’effectuer une veille afin de suivre les évolutions tant au niveau technologique qu’au niveau de l’offre commerciale. Cette remarque est valable pour tous les outils.

Les outils thématiques et régionaux

Une fois le référencement dans les outils généralistes effectués, il convient de procéder au référencement dans les outils thématiques et régionaux.(24)

Comme ces sites sont moins submergés que les annuaires généralistes, vous avez plus de chance de voir apparaître votre site dans un délai relativement court. Il y a de fortes chances que, quand certains sites connaîtront le succès de leur aîné, il deviendra très difficile de référencer un site. Pour mémoire, rappelons qu’en 1994, lorsque Yahoo! s’est lancé, référencer un site s’effectuait sans problème. Aujourd’hui, les deux tiers des sites proposés à Yahoo ! sont rejetés.

Connus par les internautes, les annuaires thématiques et régionaux deviennent des pages d’entrée vers le Web incontournables. L’avantage de faire référencer un site dans ces outils est triple :

  • Premièrement, votre site risque moins d’être noyé dans un site spécialisé que dans un site généraliste.
  • Deuxièmement, vous pouvez atteindre un public ciblé. Un grand nombre des internautes visitent un annuaire thématique ou régional parce qu’ils s’y intéressent.
  • Troisièmement, vous augmenterez votre indice de popularité en faisant en sorte que plusieurs sites pointent vers le vôtre.

La soumission automatique de sites

Plusieurs sites sur Internet proposent une soumission automatique – nous préférons de loin utiliser le terme soumission au terme référencement qui est un savoir-faire qui ne peut pas se résumer à une procédure automatisée.

La soumission automatique se fait grâce à des logiciels ou grâce à des interfaces accessibles en ligne.

Les logiciels de soumission automatisée

Ces logiciels permettent d’automatiser la soumission d’un site sur éventuellement plusieurs centaines, voire des milliers de moteurs. Il suffit de saisir vos mots-clés et la description du site et le logiciel se charge de contacter la plupart des moteurs de recherche et d’effectuer le travail à votre place.

Pour choisir un logiciel de référencement automatique, il faut tenir compte de :

  • La qualité des annuaires et des moteurs retenus. Si le logiciel propose un grand nombre d’outils qui ne sont pas utiles pour votre domaine, il est inutile de l’acheter.
  • La fréquence des mises à jour du logiciel. Annuaires et moteurs évoluent constamment, il faut que le logiciel puisse suivre
  • Les catégories des annuaires sont-elles reconnues dans leurs spécificités ou le logiciel ne reconnaît-il que le premier niveau de classement ?

Les services de référencement automatique en ligne

Ils ont la même fonction que les logiciels de soumission sauf que l’utilisateur n’a pas besoin d’installer de programme sur sa machine. Donc, il s’applique pour un usage ponctuel et non pas pour un usage professionnel. Quant aux sites qui proposent ce service gratuitement, ils en profitent pour attirer et qualifier le prospect.

Les limites du référencement automatique

Les deux solutions - logiciels ou interface en ligne - ont les mêmes limites :

  • Ils ne garantissent pas le résultat du référencement.
  • Plusieurs moteurs rejettent cette technique et certains outils ont mis en place des méthodes pour y faire barrage.
  • La soumission n’est pas vraiment personnalisée en fonction de chaque moteur, ni ciblée en fonction du public du site à référencer.
  • Les logiciels sont pour la plupart anglophones donc la soumission s’effectue essentiellement sur des outils américains.
  • Cette technique peut fonctionner sur les moteurs, mais n’est en aucun cas adaptée aux annuaires qui nécessitent de repérer une catégorie avant de pouvoir ajouter un site et ce choix détermine la réussite du référencement. Cette opération ne peut pas être automatisé et un référencement automatique ne reconnaît le plus souvent que les catégories principales et ignorent les sous catégories. Il faut savoir qu’un site mal classé est un site difficile à trouver, il risque même d’être rejeté par les netsurfeurs.

Si cette technique permet de gagner du temps, elle effectue un référencement quantitatif et non pas qualitatif. D’ailleurs, cette pratique a été interdite dans la charte de déontologie du référencement en vigueur jusqu’en juillet 2003(25).


L’après référencement

Une fois que votre site est référencé et qu’il est bien positionné, il ne faut pas dormir sur ses lauriers. Il faut vérifier régulièrement la visibilité du site et son indice de popularité.

Audit de positionnement ou degré de visibilité

Cette technique permet d’évaluer et de connaître le classement d’un site par les outils de recherche. Cet audit peut se faire en utilisant des logiciels dédiés(26).

Par expérience, on constate que ces tests ne sont pas toujours pertinents. La meilleure manière de bien contrôler le positionnement d’un site est d’effectuer le contrôle manuellement. Pour les annuaires, il suffit de vérifier la présence de votre site dans la catégorie qui vous a permis de le référencer, donc effectuer une recherche par navigation.

Quant aux moteurs, ils proposent des fonctionnalités de recherche qui permettent de le faire. Exemple : site:www.monsite.com qui est valable pour Google et Yahoo.

Indice de popularité

Comme nous l’avons expliqué, l’indice de popularité sert à certains moteurs de critère pour bien positionner un site. Il fait référence au nombre de pages sur le Web qui pointent vers un site.

Pour vérifier cet indice, les outils de recherches proposent des opérateurs qui permettent de le faire. Par exemple : link:www.monsite.com pour Google et linkdomain:www.monsite.com pour Yahoo.

Mais le vrai indice de popularité reste celui que vous pouvez effectuer par vous-même sur votre site à savoir contrôler le nombre d’accès. Là aussi, plusieurs logiciels et services tant payants que gratuits (moyennant la présence d’icône sur votre site) vous permettent de contrôler qui vient sur votre site, quand, d’où, et de quelle manière ils vous ont trouvé ? Pour ce faire, il suffit d’intégrer dans vos pages HTML un code source généré par le service que vous avez choisi. Dès lors, il suffit d’observer la pratique de vos visiteurs.

Il faut savoir que l’évaluation par la mesure de l’indice de popularité n’est qu’un indicateur et non pas une évaluation à part.

Pratiques déloyales

Le fait d’optimiser un site pour le référencement ne doit pas inciter les webmasters à pratiquer le spamindexing(27). Pourtant, on constate que tous les moyens sont bons pour être premier. En effet, des pratiques abusives ont été observées, citons :

  • Donner un titre qui commence par la lettre A afin que le site soit mieux classé dans les annuaires.
  • Répéter abusivement les mots-clés dans les balises META.
  • Alterner les mêmes mots-clés en les répétant afin d’éviter d’être repéré par les moteurs de recherche.
  • Insérer dans la page une liste de mots-clés répétés abusivement ou camouflés dans un paragraphe ou dans la balise . Certains n’hésitent pas à prendre n’importe quel texte, ils remplacent tous les articles par un mot-clé en utilisant la même couleur que celle du fond de page. Les moteurs réussissent à détecter ces pratiques en comparant les deux balises et . D’autres emploient une police de caractères trop petite afin qu’elle soit invisible à l’internaute, c’est pourquoi beaucoup d’outils ignorent les textes écrits en petit. Mais les spammeurs trouvent toujours des parades comme le fait de créer un fond d’écran sous forme d’image et d’insérer le texte de la même couleur.
  • Répéter dans une même page les différentes balises : titre, description, mots-clés.
  • Enregistrer plusieurs fois un site avec des adresses différentes et ceci en créant de fausses pages d’accueil ou des pages alias avec un contenu identique et des redirections automatiques.
  • L’abus de parrainage. Cette technique est essentiellement valable pour le moteur de recherche Google et c’est la raison pour laquelle elle est aussi connue sous le nom de « Google Bombing ». Pour ce faire, il suffit que plusieurs sites pointent vers un site avec des mots-clés spécifiques et le tour est joué. Jusqu’à présent, cet abus de parrainage a été utilisé pour véhiculer des idées politiques. Jusqu’au 3 octobre 2005, une recherche sur l’expression Miserable failure renvoyait au site de la Maison blanche et plus spécialement sur la biographie de Georges Bush. Il en est de même pour l’expression député liberticide qui renvoyait vers le site du député Jean Dionis qui est le rapporteur de la loi sur l’économie du numérique (LEN). Jusqu’à ce jour, il n’existe pas de parade à ce phénomène.
  • Utiliser des mots-clés sans rapport avec le contenu du texte. Cette pratique est susceptible de sanctions juridiques en France, mais aussi aux États-Unis et en Grande-Bretagne.
  • Pratiquer le cloaking. Il s’agit d’une technique qui consiste à créer deux pages d’accueil, une page normale et une page spammée. Ensuite, vous soumettez la page spammée au moteur de recherche, vous surveillez votre site et dès le passage du robot, vous remettez la page normale. Une autre technique consiste à développer un petit programme en cgi-bin qui reconnaît le passage du robot grâce à son adresse IP et lui soumet une page adaptée.
  • Pratiquer le Pagejacking. Cette technique consiste à copier le code source en partie ou en entier d’une page classée en première position pour la recréer sur son propre site. En indexant cette page via une technique de cloaking, il est possible d’obtenir un bon positionnement. Cette méthode est interdite pour plusieurs raisons : violation de la propriété intellectuelle et concurrence déloyale.

Ces trois dernières pratiques sont condamnées par la loi.(28)


Les actions contre le spamindexing

Les actions contre les pratiques déloyales sont nombreuses, elles s’articulent essentiellement autour de trois axes : la loi, les outils de recherche et les professionnels.

La loi

Même si Internet n’obéit pas à une seule législation, mais à des législations multiples, la loi commence à s’imposer dans différents pays notamment en ce qui concerne les droits de la propriété intellectuelle et la concurrence déloyale. Plusieurs cas ont été traités par les tribunaux tant en France qu’aux Etats-Unis. Pour plus d’informations, nous renvoyons le lecteur à l’article « Du bon usage des méta-tags » écrit par Maxence Abdelli qui est Avocat à la Cour et directeur d’Actoba.

Les outils de recherche

Comme nous l’avons déjà constaté dans la description des outils de recherche, la plupart essayent de parer aux différentes pratiques déloyales car il y va de leur réputation. Les algorithmes sont adaptés au fur et à mesure pour contrer ces pratiques. C’est ainsi qu’une bonne partie des outils repèrent les mots-clés répétés abusivement, refusent d’indexer des pages satellites, etc. mais leurs actions ne s’arrêtent pas là. Ils vont même jusqu’à radier un site de leur index et de le « blacklister ». Cette action consiste à diminuer sensiblement, voire complètement, la visibilité d’un site de la part de l’outil de recherche. Elle peut être directe et volontaire (effectuée par un humain pour un site donné) ou indirecte (répercussion sur un site du blacklistage d’un autre site).

En ce qui concerne le blacklistage directe, il existe deux types de sanctions :

  • La sanction temporaire ou NPL (No Print List). Le site est présent dans la base de données, mais n’apparaît pas dans les résultats.
  • La sanction extrême ou NCL (No Crawl List). Le site a été retiré de la base de données et est exclu du crawl.

Quant au blacklistage indirecte, il fonctionne au même titre que les votes positifs, mais avec un effet inverse. Si un site est cité par des sites blacklistés, il se voit attribuer un Page Rank négatif et de ce fait, il est retiré de la base de données. Il s’agit du « spamrank ».

Les dernières opérations de blacklistage ont concerné des sociétés spécialisées dans le référencement. Afin d’assainir la situation Google propose une sorte de partenariat, le " Google Advertising Professionals“. Et, dès le mois de janvier 2006, il va changer sa politique de commissionnement, il en est de même pour Yahoo(29).

Les professionnels du référencement

Cependant, ces actions de blacklistage ne se font pas sans polémique. En septembre 2004, Netbooster, Absolute Référencement et Ability Référencement, des sociétés spécialisées dans le référencement ont été désindexées par Google. Le directeur de Netbooster accuse Google de l’avoir déréférencé parce qu’il fait de l’ombre aux liens sponsorisés(30). Cette polémique n’est pas récente puisqu’en novembre 2003, plusieurs sites ont perdu des places dans le classement de Google… Certains y voient une tentative de Google pour favoriser son système de liens sponsorisés Adwords. Pour d’autres, ce « nettoyage » viserait à inciter les sites marchands à souscrire au service payant de Google Adwords, afin de préserver leur visibilité sur les pages du moteur.(31).

Cet incident démontre des relations très tendues entre les sociétés de référencement et les outils de recherche. Il faut dire que la concurrence fait rage et les montants qui sont en jeu sont assez importants.

Aperçu du marché français de l’Internet
  Du 01/01 au 30/09/2004 Evolution sur un an Source
Investissements publicitaires 516 millions d’euros + 69,0% IAB/TNS Media Intelligence
Nombre d’internautes (Français de 11 ans et plus) 23,23 millions + 18,5% Médiamétrie
Part d’internautes acheteurs (en juin 2004) 46% + 27,8% TNS Sofres
CA du e-Commerce (26 sites marchands audités) 644 millions d’euros + 69,2% Acsel
Taux de pénétration du haut-débit 50,1% +100,0% ART
Source : Journal du Net, 2005(32)

 

Si les relations entre outils de recherche et professionnels de l’information ne sont pas simples, les relations entre les prestataires du secteur ne sont pas plus claires. En 2000, l’IPEA (Internet positioning european association) adopte une « Charte de qualité et de déontologie sur le référencement de sites Web » qui était en vigueur jusqu’en juillet 2003 date à laquelle elle a été remplacée par « Le code de déontologie de l’IPEA ».(33)

Toujours en juillet 2003, la sema7 (Search Engine Marketing Association) qui est l’association des professionnels du référencement a été créée. Elle a pour objectif de faire progresser le niveau des prestations de référencement. Cette association a aussi sa propre charte de déontologie du référencement(34). Au même moment, l’IPEA a changé de nom pour devenir The Search Marketing Association. Raphaël RICHARD, fondateur et Président de CVFM, estime pour sa part que ce changement de nom a pour objectif de parasiter le lancement de sa propre association le sema7(35).

Si les relations entre outils de recherche et professionnels de l’information ne sont pas simples, les relations entre les prestataires du secteur ne sont pas plus claires.

En 2000, l’IPEA (Internet positioning european association) adopte une « Charte de qualité et de déontologie sur le référencement de sites Web » qui était en vigueur jusqu’en juillet 2003 date à laquelle elle a été remplacée par « Le code de déontologie de l’IPEA ».(36)

Toujours en juillet 2003, la sema7 (Search Engine Marketing Association) qui est l’association des professionnels du référencement a été créée. Elle a pour objectif de faire progresser le niveau des prestations de référencement. Cette association a aussi sa propre charte de déontologie du référencement (37). Au même moment, l’IPEA a changé de nom pour devenir The Search Marketing Association. Raphaël RICHARD, fondateur et Président de CVFM, estime pour sa part que ce changement de nom a pour objectif de parasiter le lancement de sa propre association le sema7(38).

Le 1er mars 2005, NetBooster a adopté une nouvelle Charte afin de mieux répondre aux attentes du marché, des annonceurs aux internautes.(39)

Ces incidents et ces tiraillements démontrent bien que la profession est en manque de normalisation. Est-ce vraiment utile d’avoir autant de chartes déontologiques pour un même métier ? Si nous évoquons les professionnels du référencement, c’est parce que nous sommes convaincus qu’ils ont un rôle primordial à jouer dans la lutte contre les pratiques déloyales.


Conclusion

Dans cet article, nous avons pu faire le tour des pratiques du référencement et nous avons pu voir qu’il s’agit d’une tâche fastidieuse. Elle nécessite une optimisation d’un site dès sa conception, une connaissance parfaite des outils de recherche et une surveillance constante des évolutions. Nous avons également découvert les différentes pratiques déloyales et de plus pour ce qui concerne les autres techniques promotionnelles, on constate qu’il y a le même problème de manipulations de données. Pour s’en convaincre il suffit de se renseigner sur le « position squatting »(40) et la justice a condamné Google, avec son programme Adwords, pour contrefaçon de marque comme AXA, Vuitton, etc.(41) Ce qui nous amène à nous interroger sur l’objectivité et la validité de l’information sur Internet. Lorsqu’un internaute effectue une recherche sur un outil accède-t-il vraiment aux résultats les plus pertinents ou bien juste aux sites qui ont su mener une campagne de promotion efficace, et la distinction entre résultats promotionnels et vrai résultats est-elle bien claire comme l’exige la loi ?(42)


Notes de bas de page

De plus, nous avons pu constater avec les deux requêtes « miserable failure » et « député liberticide » que les résultats sont manipulables. Ces deux requêtes véhiculent une opinion politique et sont facilement repérables, mais n’existe-t-il pas des sites qui utilisent cette technique pour faire passer leurs produits et leurs messages ? C’est la raison pour laquelle, nous ne cesserons de clamer qu’il est nécessaire de valider l’information qu’on retrouve sur Internet avant de pouvoir la prendre pour de l’argent comptant. Force est de constater que ce n’est pas spécifique aux résultats des outils de recherche et aux techniques de référencement, mais qu’il s’agit d’une caractéristique de l’Internet.

Cet article a fait l’objet d’une conférence en novembre 2001. Il est paru dans les Actes du Séminaire Écrit, Image, Oral et Nouvelles technologies : 2004-2005. – Paris : Université Paris 7 – Denis Diderot, 2005. - pp. 209-237.

1) Journal du Net. Indice e-commerce : 14 millions de paiements CB au deuxième trimestre 2005 / Anne-Laure Béranger. - 11/07/2005.


2) Pour plus d’informations voir : HTML 4.01 Specification : W3C Recommendation. 24 décembre 1999.


3) Quelques exemples de sites qui permettent de voir les mots-clés le plus utilisés par les internautes : Le Journal du net. http://www.journaldunet.com/0310/031016motscles.shtml |Les mots-clés les plus tapés en septembre]]. ; Lycos. Les mots clés tapés sur Lycos en ce moment même ; Google Zeitgeist ; Mozbot : le Top 100 des mots clés.


4) The global structure of an HTML document.


5) Ci-dessous quelques générateurs de meta tag : TopWebSite Search Engines Guide ; CapIT Générateur gratuit de meta tags ; Meta Builder. ; Marketing-internet. Générateur de balises Meta.


6) Citons pour exemple le logiciel gratuit Metty Freeware Meta Tag Maker


7) Citons pour exemple : Marketing Internet. Validité ; Webmasterplan. Préréférencement.


8) La balise ALT appartient au langage html et permet de décrire une image. Exemple d’utilisation : ”Description


9) Informations sur la société Google.


10) Panorama Médiamétrie-eStat/@position


11) Google. Technologie Google.


12) , 17) idem


13) Pour plus d’information : Google AdWords. Procédure détaillée


14) Aide Google Sitemaps (version bêta).


15) Yahoo! Search blog: Our Blog is Growing Up – And So Has Our Index.

16) Charte éditoriale de la recherche Yahoo!.

18) Les liens promotionnels.


19) Yahoo search. Comment faire pour que mon site apparaisse dans les résultats ?


20) Comment proposer un site à l'Open Directory Project.


21) Directives d'édition de l'Open Directory - Inscriptions abusives (spam).


22) Yahoo France ! Guide Web. Les Questions / Réponses sur Yahoo! Express.


23) Conditions d'acceptation d'un site sur Yahoo! France.


24) Liste des annuaires régionaux et thématiques .


25) http://www.search-marketing-association.com/code-de-deontologie.htm/IPEA : internet positioning european association.
26) Citons pour exemple : Webposition ou des interfaces accessibles en ligne ;Quelques services en ligne : Suivi du positionnement d'un site Web ; Audit de positionnement
27) Acronyme de “Spiced Pork And Meat”. Article abusif (publicité, escroquerie, chaîne) posté en masse dans de nombreux groupes de discussion. De tels pratiques sont malvenus car ils utilisent abusivement les ressources du réseau, au mépris de la nétiquette. Ils sont souvent annulés sans préavis. Glossaire Learn The Net


28) A ce propos, voir : Legalis.net.
29) Searchenginewatch. Google Changing Agency Commission Payments In Europe / Danny Sullivan. - 28 septembre 2005.


30) ZDNet.fr. Des référenceurs français "déréférencés" par Google / Philippe Astor. (22 septembre 2004).


31) ZDNet.fr. Le ménage de Google dans son index soulève des protestations
/ Estelle Dumout (11 décembre 2003).
32) Journal du net. http://www.journaldunet.com/0501/050118buffet.shtml/Trois questions à... Guillaume Buffet (IAB France) / Frédéric QUIN. - 18/01/2005.


33) Silicon.fr - Google est condamné en appel, en France / Yves Grandmontagne. - 17 mars 2005.


34), 37) Charte de déontologie du référencement : SEMA 7.


35) Charte de qualité et de déontologie sur le référencement de sites web.


36) IPEA : internet positioning european association.


38) NetEconomie. Du rififi chez les web marketers de l’IPEA / Ariane Beky. - 4/12/2003.


39) Charte de qualité et de déontologie sur le référencement de sites web.


40) Journal du net. Rubrique juridique : Les risques du « position squatting » / Arnaud Diméglio. - 9 juillet 2002.


41) Silicon.fr. - Google est condamné en appel, en France / Yves Grandmontagne. - 17 mars 2005.


42) Une recherche sur le terme « référencement » dans le moteur de recherche Voilà (http://www.voila.fr), nous donne une première page de liens sponsorisés à l’exception du dernier résultat et la deuxième page est une page spammée par des professionnels du secteur qui utilisent la technique des sites miroirs.