Autoblog de sebsauvage.net

Revue de logs de Project Honeypot

jeudi 4 août 2011 à 11:31

(Cet article est technique.)

D'où viennent les spammeurs

J'ai fait une petite revue rapide de mes logs Project Honeypot pour voir par où passent les spammeurs. On trouve des choses intéressantes. En dehors des spammeurs de tous horizons (Ukraine, Russie, Chine, USA...) et des internautes français piratés (généralement en ADSL), on trouve également:

Des noeuds de sortie TOR. Les spammeurs ne sont pas bêtes, ils utilisent TOR. Ce qui n'empêche pas PH des les repérer. Mais du coup ceux qui utilisent TOR ont de fortes chances de tomber sur la page de blocage en consultant mon site (qu'ils peuvent passer pour continuer à consulter mon site, fort heureusement).
Des adresses IP de points d'accès GPRS et 3G: Les opérateurs attribuent la même adresse IP à leurs utilisateurs 3G/GPRS. Il suffit qu'une machine infectée utilise ce point 3G pour que l'adresse IP soit repérée par PH.

Par exemple, l'adresse IP 80.12.213.34 a visiblement balancé des spams en Russe. D'ailleurs elle n'a pas été repérée que chez PH: On la retrouve dans d'autres blacklists. En faisant un whois, on voit que cette adresse IP est un point d'accès GPRS de la Réunion appartenant à Orange ("GPRS-Orange-Reunion"). C'est confirmé par la grande variété de User-Agents (SonyEricssonK550i, SAGEM-myX5-2m, iPhone, Android...). D'autres fournisseurs d'accès tombent dans le même cas, comme SFR ("SFR GPRS NETWORK").

Un problème plus général: Les adresses IP partagées

En fait, ce problème peut se retrouver dans tous les cas où une adresse IP externe est partagée par de multiples machines (proxy public ou privé, réseau d'entreprise, etc.). Project Honeypot ne me permet malheureusement pas de distinguer les différentes machines. La page de blocage (qui vous demande de confirmer que vous êtes bien un humain) sera donc affichée pour tous les utilisateurs de ces adresses IP, même s'ils sont sous Linux, Android ou iOS. C'est dommage de leur imposer un lien à cliquer supplémentaire, mais je n'ai pas de moyen de les distinguer (Non le User-Agent n'est pas une solution: Il identifie un logiciel, non une machine. Et les spammeurs savent très bien mettre ce qu'ils veulent dedans. Ce n'est pas fiable.) (Bon un lien à cliquer ce n'est pas non plus la fin du monde.)

Un cas intéressant

Mais je suis tombé aussi sur un cas intéressant: 74.125.158.85

(Au passage, j'admire Project Honeypot qui a réussi à le choper alors que cette IP a posté un seul spam. Même SpamCom, SpamHaus et SORBS ne l'ont pas repéré.) Avez-vous remarqué les User-Agent utilisés. Curieux, non ? Voyons à qui appartient l'IP... vous ne devinez pas ?

Cette adresse IP appartient bien à Google. Que s'est-il passé ? A vue de nez, je dirais qu'un spammeur a utilisé l'AppEngine de Google pour développer une application qui envoie du spam. J'ignore si cette tendance va se développer, mais j'espère très sérieusement que Google fera des efforts pour éviter ça. En fait, vu le passé de Google en la matière, je suis plutôt pessimiste. Il y a de fortes chances que les spammeurs utilisent de plus en plus les fournisseurs de services "cloud" pour spammer. Ce qui n'est pas cool puisque ces mêmes adresses IP sont aussi celles des fournisseurs de service, hébergeurs et robots des moteurs de recherche (Amazon, Microsoft, OVH, Google et autres), ce qui va rendre le filtrage nettement plus difficile. (J'ai déjà eu dans mes logs des adresses IP de serveurs OVH identifiés comme spammeurs.)

Au passage, vous aurez remarqué les User-Agents de 74.125.158.85:

Google Wireless Transcoder est le proxy Google qui reformatte les pages web pour les téléphones portables (vous tombez parfois dessus quand vous cliquez sur des résultats de recherche Google sur un smartphone).
Google Web Preview, le robot chargé de faire les captures d'écran affichées dans les résultats de recherche Google.
translate.google.com, le proxy de Google qui traduit les pages à la volée.

Ce qui est moche, c'est que la même adresse IP serve à la fois pour les robots de Google et pour l'AppEngine.

Ils passent sous le radar... mais pas celui de Project Honeypot

La plupart des systèmes de lutte contre le spam fonctionnent par seuils: Par exemple si une adresse IP émet une trop grande quantité de mails ou de commentaires, elle est considérée comme spammeur. Mais les spammeurs sont loin d'être idiots et font tout pour rester en dessous des seuils de détection:

Ils émettent parfois moins de 5 spams à partir d'une même adresse IP.
Ils attendent parfois plusieurs semaines avant de re-poster du spam à partir de la même adresse IP.

Sauf que PH les repère malgré tout grâce à son système de pages-piège. Ces pages ne sont ni visibles, ni utilisables par les internautes. Par contre du point de vue des robots spammeurs, elles ressemblent à des formulaires de soumission de commentaires. Du coup, un seul commentaire posté dans une de ces pages est forcément un spam envoyé par un robot. Cela permet à PH de repérer un spammeur même s'il envoie un seul spam.

PH utilise également d'autres méthodes, comme poster des adresses email-piège dans les pages (tout email reçu à cette adresse est donc forcément un spam), des liens "nofollow" (s'ils sont suivis, c'est forcément par de "mauvais" robots), etc. Le principe de page-piège fonctionne donc bien pour repérer ces spammeurs, même avec un faible trafic. PH repère ainsi beaucoup de spammeurs qui passent complètement sous le radar des autres systèmes (SpamCop, Spamhaus, SORBS, DNSBL et autres).

Je regrette juste de ne pas avoir de solution pour différencier les différentes machines utilisant la même adresse IP afin d'épargner la page d'alerte à une partie de mes lecteurs sans amoindrir la protection.

(Voir mes deux articles précédents: Project Honeypot : Une alternative à Akismet ? et Retour sur Project Honeypot)

Source : http://sebsauvage.net/rhaa/index.php?2011/08/04/09/31/40-revue-de-logs-de-project-honeypot