Le contenu dupliqué a longtemps été une pratique courante sur internet. Aujourd’hui, vivement traqué par les robots de Google, le duplicate content représente un risque majeur pour le référencement. Car c’est parfois le plagié qui trinque.
Dans la première décennie de ce siècle, je me souviens avoir trouvé sur un forum le texte d’un contributeur qui racontait la naissance d’une chanson et de la progression de sa popularité, au point de devenir un fameux chant de stade.
L’art du copier-coller
Ce n’est pas le contenu du texte à proprement parler qui m’interpellait, mais le style d’écriture, la tournure des phrases, les mots choisis… Mais oui, ce texte, c’est moi qui l’avait écrit ! Et je le retrouvais là, copié-collé sur un forum sans même en avoir été informé. Le forumiste sans scrupule n’avait cité ni l’auteur ni le site dans lequel il avait découvert ce (merveilleux) texte.
Dans les posts suivants, je lisais non sans fulminer les félicitations des autres contributeurs (félicitations que finalement j’aurais dû prendre à mon compte), jusqu’à ce que je tombe sur un nouveau post de mon plagiaire qui rédige, avec ses propres mots cette fois, quelque chose comme : “Merci les copains. Oui, j’avais deux trois heures à occuper, j’ai fait quelques recherches sur cette chanson, et puis voilà, j’ai trouvé sympa de vous partager mon travail…”.
Tu parles Charles ! Ça ne t’a pris que trente secondes : Contrôle C, Contrôle V !
Original et copie
Le contenu dupliqué (ou duplicate content pour faire américain) a longtemps été la grande plaie du web d’avant le 2.0. Il était fréquent de retrouver du texte copié-collé d’un site à l’autre, ce qui était très frustrant pour l’auteur mais aussi pour l’internaute un peu fatigué de retrouver en plusieurs endroits un contenu similaire sans une once de valeur ajoutée.
Très vite, Google et les autres moteurs de recherches ont décidé d’attaquer ces sites qui proposent le même contenu que le site voisin. Depuis 2011, l’algorithme Panda traque sans répit le contenu dupliqué, n’hésitant pas à déclasser les sites pris en flagrant délit. Le problème de cette répression est que la police googlienne ne fait pas toujours la différence entre l’auteur originel et le plagiaire.
On peut donc retrouver sa page déclassée alors que le texte provient de notre inspiration, notre talent, notre sang, nos tripes, du moins de notre équipe rédactionnelle. Il est donc devenu important de ne pas reproduire sur son site du contenu externe, mais aussi de vérifier régulièrement si un concurrent n’a pas reproduit notre prose sur ses propres supports.
La chasse aux copieurs
Il existe de nombreux outils pour vérifier qu’un rédacteur n’a pas copié son texte sur un autre site : Kill Duplicate, Copyfight, Duplichecker, CopyScape sont les plus populaires.
Mais le plus simple à utiliser est largement plus connu. Vous copiez une partie du texte (deux ou trois phrases assez longues et qui se suivent) et vous le collez dans la barre de recherche Google. Rapidement celui-ci trouvera l’occurrence équivalente. Pourquoi chercher plus loin ?