Autoblog de sebsauvage.net

Ce site n'est pas le site officiel de sebsauvage.net
C'est un blog automatisé qui réplique les articles de sebsauvage.net

Revue de logs de Project Honeypot

jeudi 4 août 2011 à 11:31

(Cet article est technique.)

D'où viennent les spammeurs

J'ai fait une petite revue rapide de mes logs Project Honeypot pour voir par où passent les spammeurs. On trouve des choses intéressantes. En dehors des spammeurs de tous horizons (Ukraine, Russie, Chine, USA...) et des internautes français piratés (généralement en ADSL), on trouve également:

Par exemple, l'adresse IP 80.12.213.34 a visiblement balancé des spams en Russe. D'ailleurs elle n'a pas été repérée que chez PH: On la retrouve dans d'autres blacklists. En faisant un whois, on voit que cette adresse IP est un point d'accès GPRS de la Réunion appartenant à Orange ("GPRS-Orange-Reunion"). C'est confirmé par la grande variété de User-Agents (SonyEricssonK550i, SAGEM-myX5-2m, iPhone, Android...). D'autres fournisseurs d'accès tombent dans le même cas, comme SFR ("SFR GPRS NETWORK").

Un problème plus général: Les adresses IP partagées

En fait, ce problème peut se retrouver dans tous les cas où une adresse IP externe est partagée par de multiples machines (proxy public ou privé, réseau d'entreprise, etc.). Project Honeypot ne me permet malheureusement pas de distinguer les différentes machines. La page de blocage (qui vous demande de confirmer que vous êtes bien un humain) sera donc affichée pour tous les utilisateurs de ces adresses IP, même s'ils sont sous Linux, Android ou iOS. C'est dommage de leur imposer un lien à cliquer supplémentaire, mais je n'ai pas de moyen de les distinguer (Non le User-Agent n'est pas une solution: Il identifie un logiciel, non une machine. Et les spammeurs savent très bien mettre ce qu'ils veulent dedans. Ce n'est pas fiable.) (Bon un lien à cliquer ce n'est pas non plus la fin du monde.)

Un cas intéressant

Mais je suis tombé aussi sur un cas intéressant: 74.125.158.85

(Au passage, j'admire Project Honeypot qui a réussi à le choper alors que cette IP a posté un seul spam. Même SpamCom, SpamHaus et SORBS ne l'ont pas repéré.) Avez-vous remarqué les User-Agent utilisés. Curieux, non ? Voyons à qui appartient l'IP... vous ne devinez pas ?

Cette adresse IP appartient bien à Google. Que s'est-il passé ? A vue de nez, je dirais qu'un spammeur a utilisé l'AppEngine de Google pour développer une application qui envoie du spam. J'ignore si cette tendance va se développer, mais j'espère très sérieusement que Google fera des efforts pour éviter ça. En fait, vu le passé de Google en la matière, je suis plutôt pessimiste. Il y a de fortes chances que les spammeurs utilisent de plus en plus les fournisseurs de services "cloud" pour spammer. Ce qui n'est pas cool puisque ces mêmes adresses IP sont aussi celles des fournisseurs de service, hébergeurs et robots des moteurs de recherche (Amazon, Microsoft, OVH, Google et autres), ce qui va rendre le filtrage nettement plus difficile. (J'ai déjà eu dans mes logs des adresses IP de serveurs OVH identifiés comme spammeurs.)

Au passage, vous aurez remarqué les User-Agents de 74.125.158.85:

Ce qui est moche, c'est que la même adresse IP serve à la fois pour les robots de Google et pour l'AppEngine.

Ils passent sous le radar... mais pas celui de Project Honeypot


La plupart des systèmes de lutte contre le spam fonctionnent par seuils: Par exemple si une adresse IP émet une trop grande quantité de mails ou de commentaires, elle est considérée comme spammeur. Mais les spammeurs sont loin d'être idiots et font tout pour rester en dessous des seuils de détection:

Sauf que PH les repère malgré tout grâce à son système de pages-piège. Ces pages ne sont ni visibles, ni utilisables par les internautes. Par contre du point de vue des robots spammeurs, elles ressemblent à des formulaires de soumission de commentaires. Du coup, un seul commentaire posté dans une de ces pages est forcément un spam envoyé par un robot. Cela permet à PH de repérer un spammeur même s'il envoie un seul spam.

PH utilise également d'autres méthodes, comme poster des adresses email-piège dans les pages (tout email reçu à cette adresse est donc forcément un spam), des liens "nofollow" (s'ils sont suivis, c'est forcément par de "mauvais" robots), etc. Le principe de page-piège fonctionne donc bien pour repérer ces spammeurs, même avec un faible trafic. PH repère ainsi beaucoup de spammeurs qui passent complètement sous le radar des autres systèmes (SpamCop, Spamhaus, SORBS, DNSBL et autres).

Je regrette juste de ne pas avoir de solution pour différencier les différentes machines utilisant la même adresse IP afin d'épargner la page d'alerte à une partie de mes lecteurs sans amoindrir la protection.


(Voir mes deux articles précédents: Project Honeypot : Une alternative à Akismet ? et Retour sur Project Honeypot)

Source : http://sebsauvage.net/rhaa/index.php?2011/08/04/09/31/40-revue-de-logs-de-project-honeypot