Duplicate Content et TestSimilarity

0 Flares 0 Flares ×

Il est difficile de passer à coté de la question du Duplicate Content (Duplication de Contenu) ces derniers jours. Certes c’est un sujet mainte fois abordé par le passé, mais en ce moment il est sur tous les blogs. Et comme je suis pas trop d’humeur original le vendredi matin, je vais faire comme tout le monde et en parler … :)

La question qu’on se pose tous est la suivante : est-ce que mon contenu est dupliqué ? (par moi même ou des tiers) Est-ce que je vais être sanctionné par Mr Google ?

Les différentes approches pour la duplication de contenu

En général il y a 2 approches pour apporter une réponse à cette question

- les rationnels : ils font des recherche sur les algorithmes de similarité et traitent la question de manière très scientifique. Je vous invite à lire les post de Papy Spinning ou de Seo Black Inside dont le très bon article et script sur Simhash.

- les autres : ils n’ont pas l’esprit matheu et font ça à l’oeil et l’intuition … (un peu comme les joueurs de loto)

Personnellement j’aime beaucoup lire les articles comme celui de Gurmeet Singh Manku intitulé « Detecting Near-Duplicates for Web Crawling » que je trouve passionnant, cependant je dois vous avouer que je n’en comprend que la moitié et que je trouve que cela relève plus de la recherche que de la pratique …

Comment évaluer la duplication quand on n’est pas Scientifique

Pour ma part voila comment je procède pour savoir si mon contenu risque d’être considéré comme dupliqué ou non :

1)- Je vais sur sur TestSimilarity ou sur Duplicate Content Checker (ce dernier étant moins sévère que le premier)

2)- Je prend deux articles traitant du même sujet :

Par exemple je vais dans Google News, je tape « CAC 40″ et je prend les premiers résultats comme « Le CAC 40 plonge sous la barre des 3000 points  » (Libération) et « Le Cac 40 plonge sous les 3.000 points » (Les Echos). Je les passe à la moulinette et je regarde le taux de similarité : 49,54% avec TestSimilarity et 15,38% avec Duplicate Content Checker (Shingle 1).

3)- Je commence la procédure 2 sur beaucoup d’autres sites ayant les caractéristiques suivantes :

- notoriété haute et faible

- langues variées (en, fr, et ru)

- date de publication différentes

4)- J’en tire les résultats

Selon moi on est sur d’être tranquille si l’on est en dessous des 30% avec TestSimilarity. C’est mon estimation, à vous de vous faire la votre. En prenant 30% je me suis accordé une marge assez large pour être sur d’être au dessus de tout soupçons.

Conclusion

Si comme moi vous ne vous ne vous sentez pas l’âme de quelqu’un qui a fait Math Sup, je vous invite à adopter cette méthode. Après il est très simple de l’automatiser :

- Choix de vos fonctions de comparaison (il existe même un paquet simhash pour Ubuntu :) )

- Vous fixez la tolérance pour le return

- On scrape les 100 premiers résultats Google (ou plus tout dépend de vos ressources) et on scrape toutes les pages retournées.

- On compare toutes les pages que vous avez scrapé avec le texte que vous allez incessamment publier grâce à votre la fonction.

 

Ecrit par

Fondateur de l'Agence Kaliseo
Profil : Développeur PHP
Suivez moi sur Twitter ou sur Google+, voir même sur Viadeo

2 Commentaires pour “Duplicate Content et TestSimilarity”

  1. Ca ce complique si votre site est scrapé par un site de bonne notoriété.

    Qui devient l’original « cache de Google faisant foi » ?
    Le site de PR 5 est scrollé environ toutes les 24h et un site PR 3 environ tous les 3 à 7 jours…

    Qui scrappe qui et qui croire ?

    • PH dit :

      Tiens je n’avais pas vu ton commentaire.

      PR et crawl : je ne crois pas que cela ait un rapport direct, même si évidement un PR7 sera crawlé 1000 fois plus rapidement qu’un PR1. Je pense que l’age du domaine y est plus pour quelque chose. Par exemple j’ai un petit blog PR3 qui à 6 ans d’existence est qui est crawlé très régulièrement (ok le l’auto ping y est pour beaucoup). En général pour un nouveau post Google met moins de 15 minutes pour le mettre dans son index.

      Après bien sûr ce n’est pas le premier crawlé qui sera forcément considéré comme l’auteur. Voir le post de 512banque sur comment pourrir un concurrent en soumettant son contenu dans les commentaire annuaires.

igraal
option-sas
jeux-gratuits.com
Baladeo
be-eco-services
disquesbg
chemins
juriste
xprmarine
Alta Cuir
kalista solutions
brt
Atelier VFX