Les spams sur blogs envahissent le web

, Partager

Les spams sur les blogs ne sont pas destinés à être lus (ils consistent d’ailleurs dans la plupart des cas à des suites de mots sans sens), mais contiennent des liens vers des sites à promouvoir qui permettent d’augmenter leur classement dans les moteurs de recherche, ou bien des publicités qui rémunèrent. Une nouvelle technique utilisée par les spammeurs consiste à reprendre le contenu d’autres pages de manière à tromper les filtres antispam.
Ces spam blogs sont entrain d’envahir le web et les moteurs de recherche sur les blogs doivent y faire face. Selon Technocrati, qui recense 35 millions de blogs et 1,2 million nouveaux messages par jour, 9% des blogs créés actuellement seraient du spam et 60% des messages signalant des nouveaux contenus à un service centralisé (pings) proviendraient de sources identifiées comme spam. Selon une étude de décembre de l’eBiquity Research Group de l’université du Maryland, ce dernier chiffre atteindrait en fait 75%, 50% des blogs effectuant des pings sur weblog.com seraient du spam. Selon Tim Finin, professeur d’informatique à l’université du Maryland, qui a co-écrit une publication sur la détection de spam blogs présentée à un symposium de l’AAAI en mars, malgré les filtres mis en place par Technocrati, encore un cinquième des messages indexés par Technocrati serait du spam.
Deux problèmes sont spécifiques aux blogs : d’une part les entreprises fournissant des moteurs de recherche spécialisés dans les blogs sont petites, alors que les entreprises dominant la recherche sur le web sont dotés d’équipes spécialisées dans la qualité des données ; d’autre part, alors que les moteurs de recherche sur le web classent les résultats par pertinence, les moteurs de recherche sur blogs préfèrent classer le contenu par actualité.

Source :

http://www.informationweek.com/showArticle.jhtml ;jsessionid=CRVKHVH5GX40QQSNDBECKICCJUMEKJVN?articleID=187202310&queryText=%22artificial+intelligence%22

Pour en savoir plus, contacts :


- http://en.wikipedia.org/wiki/Blog_spam
- SVMs for the Blogosphere : Blog Identification and Splog Detection, AAAI Spring Symposium on Computational Approaches to Analysing Weblogs - http://ebiquity.umbc.edu/_file_directory_/papers/213.pdf
- http://www.technorati.com/
Code brève
ADIT : 33724

Rédacteur :

Sébastien Morbieu, sebastien.morbieu@ambafrance-us.org

Voir en ligne : http://www.bulletins-electroniques….