Separar el spam del correo legítimo, también conocido como ham, no es fácil. Esto se debe, en parte, al enorme volumen de mensajes que es necesario procesar y, en parte, a las expectativas del correo electrónico: los usuarios quieren que los correos lleguen en minutos, por no decir segundos, después de su envío. Analizar el contenido de cada correo podría ser un método fiable para identificar el spam, pero se tarde demasiado en hacerlo, señala Nick Feamster, profesor ayudante de Georgia Tech que supervisó la investigación de SNARE. Por otra parte, dejar que el spam pase a nuestras bandejas de entrada sin filtrar tampoco es una buena opción. Según un informe presentado por la empresa de seguridad de correo electrónico MessageLabs, el 90,4% de todos los correos enviados en junio fueron spam.
"Si a alguien no le preocupa el spam le sugiero que desconecte el filtro de spam de su correo durante una hora aproximadamente y vea lo que sucede", señaló Sven Krassen, director principal de investigación en minería de datos de McAfee. Fue esta compañía, de Santa Clara, California, la que proporcionó los datos para el análisis al equipo de Georgia Tech.
El equipo analizó 25 millones de correos electrónicos recopilados por TrustedSource.org, un servicio en línea desarrollado por McAfee para reunir datos acerca de las tendencias en cuanto a spam y malware. Utilizando estos datos, los investigadores de Georgia Tech descubrieron varias características que se podrían reunir en un solo paquete de datos y utilizarlas para identificar eficazmente el correo basura. Por ejemplo, su investigación reveló que el ham suele proceder de ordenadores que tienen muchos canales, o puertos, abiertos para comunicación. Los bots, sistemas automatizados que a menudo se utilizan para enviar montones de spam, suelen tener abierto solo el puerto de correo, conocido como Protocolo Simple de Transferencia de Correo o SMTP.
Además, los investigadores observaron que representando en una gráfica la distancia geodésica entre las direcciones IP del emisor y las del receptor –medidas sobre la superficie curva de la Tierra– se podía determinar si el mensaje era un correo basura (al igual que cada casa tiene una dirección, cada ordenador conectado a Internet tiene una IP, y esa dirección se puede asociar con un área geográfica). Los investigadores observaron que el spam tiende a viajar mucho más lejos que el ham. Además, los spammers suelen tener direcciones IP próximas numéricamente a las de otros spammers.
Dean Malmgren, doctorando de la Universidad Northwestern cuyo trabajo incluye el estudio de nuevos métodos para identificar spam, afirma que la investigación le parece muy interesante, pero se pregunta hasta qué punto mantendrá su eficacia SNARE una vez que se conozca ampliamente su metodología. Las direcciones IP son fáciles de trampear, por lo que si los spammers averiguan cómo funciona SNARE, podrían, por ejemplo, utilizar una IP falsa próxima al receptor.
Fuente: Technology Review