<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	>

<channel>
	<title>Maestros del Web &#187; Eduardo Gonzalez Gonzalez</title>
	<atom:link href="http://www.maestrosdelweb.com/author/eduardo-gonzalez/feed/" rel="self" type="application/rss+xml" />
	<link>http://www.maestrosdelweb.com</link>
	<description>Un espacio para los entusiastas del web</description>
	<pubDate>Fri, 03 Oct 2008 15:03:43 +0000</pubDate>
	<generator>http://wordpress.org/?v=2.5.1</generator>
	<language>en</language>
			<item>
		<title>Una nueva modalidad de spam: secuestro de log de referidos</title>
		<link>http://www.maestrosdelweb.com/editorial/spamlog/</link>
		<comments>http://www.maestrosdelweb.com/editorial/spamlog/#comments</comments>
		<pubDate>Thu, 30 Sep 2004 00:00:00 +0000</pubDate>
		<dc:creator>Eduardo Gonzalez Gonzalez</dc:creator>
		
		<category><![CDATA[Editorial]]></category>

		<category><![CDATA[Seguridad]]></category>

		<guid isPermaLink="false"></guid>
		<description><![CDATA[Este artículo provee un minucioso análisis de las técnicas usadas por los spammers y cuáles son los beneficios al corromper nuestros logs.
Este año nos sorprende con la popularizaci&#243;n de una modalidad de spam (publicidad no solicitada) que usa como veh&#237;culo de propagaci&#243;n a los programas de estad&#237;sticas web de los servidores a los que ataca. [...]]]></description>
			<content:encoded><![CDATA[<p><span class="intro">Este artículo provee un minucioso análisis de las técnicas usadas por los spammers y cuáles son los beneficios al corromper nuestros logs.</span><span id="more-271"></span></p>
<p>Este año nos sorprende con la popularizaci&oacute;n de una modalidad de spam (publicidad no solicitada) que usa como veh&iacute;culo de propagaci&oacute;n a los programas de estad&iacute;sticas web de los servidores a los que ataca. Este art&iacute;culo provee un minucioso an&aacute;lisis de las t&eacute;cnicas usadas por los spammers, cu&aacute;les son los beneficios que obtiene el spammer al corromper nuestros logs, y brinda consejos para defenderese de este tipo de spam. </p>
<p> Todo webmaster que analiza la actividad de sus sitios web no puede dejar de estudiar detalladamente la secci&oacute;n que resume los referidos o enlaces de origen de las visitas. Esta tabla contiene un listado ordenado con todos los sitios web que teniendo un link hacia nuestras p&aacute;ginas nos han enviado visitas. </p>
<p> Esta es la secci&oacute;n de las estad&iacute;sticas m&aacute;s &uacute;til cuando deseamos evaluar los resultados de la promoci&oacute;n de nuestra web (banners en p&aacute;ginas de terceros, intercambio de links, visitas desde buscadores, etc). </p>
<p> En los referidos podemos hallar sitios web predecibles (aquellos donde sabemos que hay un link hacia nuestras p&aacute;ginas) y tambi&eacute;n sitios nuevos (aqu&iacute; es donde nos enteramos de qui&eacute;n ha puesto links a nuestro sitio y d&oacute;nde). </p>
<p><img src="/images/editorial/spanlog_stats.gif" alt="Spam Log" width="479" height="484" class="centro"/><br />
<strong>Fig. 1 </strong> Reporte (webalizer) de www.estadisticasweb.com </p>
<p> Las entradas en esta tabla son a su vez links hacia la p&aacute;gina referente. De modo que cuando veo la URL de un sitio que no conoc&iacute;a (y que me est&aacute; mandando visitas) hago click sobre su nombre y este sitio se abre. Entonces busco el bot&oacute;n, la imagen o el link desde el cual se accedi&oacute; a mi sitio. En algunos casos es sencillo: el link est&aacute; completamente a la vista. En otros casos puede ser un poco m&aacute;s complejo, si la p&aacute;gina del referente se genera din&aacute;micamente (desde una base de datos, o como resultado de una b&uacute;squeda, por ejemplo). </p>
<p> Pero existe una tercera situaci&oacute;n, en donde directamente el link no existe ni existi&oacute; nunca. Y ah&iacute; se encuentra el webmaster: revisando y reviendo un sitio web del que no sab&iacute;a su existencia. Viendo detenidamente todo&#8230; y buscando d&oacute;nde se halla el link a su web. </p>
<h3>Los objetivos del spammer</h3>
<p>Muy claro: tener una enorme cantidad de visitas que abran muchas p&aacute;ginas en su web. Todos los webmasters que encontraron un link en su listado de referrers y que buscan el link desde donde les &quot;mandan las visitas&quot;. </p>
<p> Un segundo objetivo lo alcanzan en los casos en que las estad&iacute;sticas de nuestro sitio sean p&uacute;blicas: hacer que en cientos o miles de p&aacute;ginas de terceros (en sus estad&iacute;sticas p&uacute;blicas) aparezcan links hacia su sitio. Y todos sabemos el beneficio que esto implica para el posicionamiento en buscadores, y en particular en Google, donde esta situaci&oacute;n se reflejar&aacute; tarde o temprano en el pagerank del spammer.</p>
<h3>Las t&eacute;cnicas del spammer </h3>
<p>    Encontr&eacute; swoftware para realizar esta fechor&iacute;a. Pero como mi objetivo no es promocionar esta t&eacute;cnica (ni este software, por supuesto), no lo mencionar&eacute; en este art&iacute;culo. Pero s&iacute; voy a describir c&oacute;mo es que funcionan estos programas. </p>
<p> En principio, el trabajo del spammer se divide en dos partes: </p>
<ol>
<li>Constru&iacute;r una lista de direcciones de sitios web, y </li>
<li>Generar la falsa actividad sobre cada uno de los sitios, mediante peticiones HTTP especialmente manipuladas  </li>
</ol>
<p> El punto <strong>1 </strong> parece ser obvio: se puede usar la informaci&oacute;n de buscadores o directorios en la web para obtener una lista de v&iacute;ctimas. Tambi&eacute;n es posible poner a funcionar un crawler (un software de indexaci&oacute;n que navega en la web siguiendo los links hacia otros sitios, y de ah&iacute; a otros, y otros m&aacute;s&#8230; de esta forma construyen sus bases de datos los buscadores). <br />
En la mayor&iacute;a de los casos, estos sistemas buscan sus v&iacute;ctimas en el <a href="http://www.maestrosdelweb.com/editorial/dmoz/">DMOZ</a> (Open Directory). Se ha comprobado una relaci&oacute;n directa entre la figuraci&oacute;n de una web en DMOZ y la recepci&oacute;n de spam de esta naturaleza. </p>
<p> El punto <strong>2 </strong> es el verdadero &quot;secuestro&quot;: un software especialmente dise&ntilde;ado &quot;visita&quot; cada una de las p&aacute;ginas de la lista, envi&aacute;ndoles una petici&oacute;n HTTP manipulada: </p>
<div class="codigo">
<pre>GET / HTTP/1.1
Host: www.estadisticasweb.com
Referer: http://www.soy-un-sucio-spammer.com/
User-Agent: Mozilla/5.0 Galeon/1.2.0 (X11; Linux i686;) Gecko/20020
Accept: image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */*
Accept-Language: en-us, en
Accept-Encoding: gzip, deflate, compress;q=0.9
Accept-Charset: ISO-8859-1, utf-8;q=0.66, *;q=0.66
Keep-Alive: 300
Connection: keep-alive</pre>
</div>
<p> Este es el tipo de petici&oacute;n que env&iacute;a nuestro browser cuando seguimos el link desde el sitio <strong>soy-un-sucio-spammer.com </strong> Y eso es lo que registra nuestro servidor: la URL <strong>www.soy-un-sucio-spammer.com</strong>  nos acaba de enviar una visita.</p>
<p> Otra variente de esta t&eacute;cnica consiste en un crawler que realiza los pasos 1 y 2 en uno solo: cuando &quot;abre&quot; nuestra p&aacute;gina para seguir los links hacia p&aacute;ginas de otras v&iacute;ctimas, ya nos est&aacute; mandando el campo &quot;Referer: http://www.soy-un-sucio-spammer.com/&quot; modificado. De esta forma es mucho m&aacute;s r&aacute;pido, y el spammer se puede dar el gusto de secuestrar varias decenas de sitios web por segundo (10 a 40 sitios web por segundo t&iacute;picamente: la carga se limita s&oacute;lo al texto excluyendo las im&aacute;genes de modo que el spammer gana tiempo y ahorra ancho de banda). </p>
<h3>Qu&eacute; podemos hacer para evitarlo</h3>
<p>    Existen m&uacute;ltiples aproximaciones, ya que estamos en una etapa muy temprana del problema. Analizaremos algunas de ellas, con sus correspondientes ventajas y desventajas. </p>
<h4> a) Filtrado por referente </h4>
<p>  Esta t&eacute;cnica se basa en un .htaccess que implementa una lista negra de sitios desde los cuales no se aceptan referidos. Hoy la lista negra puede imprimirse en una carilla de papel carta, pero estoy seguro que en unos meses superar&aacute; ampliamente el vol&uacute;men de la gu&iacute;a telef&oacute;nica, y este m&eacute;todo de filtrado ser&aacute; inviable. Otra desventaja de este sistema es que supone que ya contamos con la lista negra, y por tanto conocemos cu&aacute;les son los sitios spammers. </p>
<h3>Archivo .htaccess </h3>
<div class="codigo">
<pre>

RewriteEngine On
#
RewriteCond %{REMOTE_ADDR} ^64\.38\.236\.*$ [OR]
#
RewriteCond %{HTTP_REFERER} ^http://(www\.)?sitiospammer-1.com.*$ [NC,OR]
RewriteCond %{HTTP_REFERER} ^http://(www\.)?sitiospammer-2.com.*$ [NC,OR]
&#8230;.
&#8230;.
RewriteCond %{HTTP_REFERER} ^http://(www\.)?sitiospammer-N.com.*$ [NC,OR]
RewriteRule .* - [F,L]
 </pre>
</div>
<p> <strong>Nota 1: </strong>se debe escribir una l&iacute;nea por cada sitio en la lista negra</p>
<p>  <strong>Nota 2:</strong> las l&iacute;neas con los puntitos no van! Significan que ah&iacute; deben insertarse m&aacute;s l&iacute;neas de bloqueo  </p>
<p> He evitado escribir en este ejemplo las URLs de los spammers: no es mi intenci&oacute;n presentar en este art&iacute;culo una lista negra. Sin embargo, para quien est&eacute; interesado, hay listas de sitios de spammers en los foros de <a href="http://www.estadisticasweb.com/cgi-bin/foro/Blah.pl">www.estadisticasweb.com </a>. </p>
<h4> b) Bloqueo del acceso p&uacute;blico a las estad&iacute;sticas</h4>
<p>  Una buena forma de reducir el beneficio obtenido por los spammers consiste en hacer que nuestros reportes de estad&iacute;sticas tengan acceso protegido por password. De esta forma los buscadores no entrar&aacute;n, y el spammer no se beneficiar&aacute; de los links gratis hacia su sitio web. No es una verdadera soluci&oacute;n al problema (seguiremos viendo spam entre nuestros referidos), pero al menos estaremos tomando acciones que reduzcan el beneficio que el spammer desea obtener de nosotros.
</p>
<h4>c) Uso de Page-Tagging en lugar de an&aacute;lisis de logs </h4>
<p>  He notado que (por ahora) en todos los casos de secuestro de log de referidos, el spammer ataca al servidor web con una petici&oacute;n HTTP s&oacute;lo al documento html, y esta petici&oacute;n se guarda en los logs y por tanto la vemos en los resultados de las estad&iacute;sticas que obtienen sus datos de los logs. </p>
<p> Si usamos &quot;Page-Tagging&quot; (la t&eacute;cnica de monitorizar las visitas a un sitio mediante la inclusi&oacute;n de un bot&oacute;n especial o un c&oacute;digo en cada p&aacute;gina a ser monitorizada) no veremos en nuestras estad&iacute;sticas los referidos de los spammers. </p>
<p> Si el spammer quisiera que su t&eacute;cnica de ataque abarcara tambi&eacute;n a los sitios que usan Page-Tagging, deber&iacute;an modificar sus programas de forma tal que abriesen -adem&aacute;s del documento base de la p&aacute;gina web- todos y cada uno de los elementos contenidos en la p&aacute;gina (el tag podr&iacute;a llegar a ser cualquiera de los elementos: una imagen, por ejemplo). De esa forma el spammer (si contase con una versi&oacute;n modificada del software que utilizan actualmente) no podr&iacute;a realizar tantos ataques por segundo, y la eficacia de la dispersi&oacute;n bajar&iacute;a notablemente. </p>
<h3>Conclusi&oacute;n</h3>
<p>    Esto es otra muestra de lo que las mentes inescrupulosas son capaces de inventar, corrompiendo nuestras estad&iacute;sticas y robando nuestro ancho de banda y recursos de servidor para beneficio propio. </p>
<p> Hasta la fecha no existe ninguna t&eacute;cnica completamente eficaz para evitarlo (al menos durante mucho tiempo). Personalmente pienso que combinando las t&eacute;cnicas b y c del apartado anterior (mas algunas otras que el con el tiempo se puedan inventar) podremos desplazar la barrera de la conveniencia del spammer, de forma que el negocio no le sea tan conveniente, y as&iacute; desestimular este tipo de pr&aacute;cticas: si es m&aacute;s trabajoso aplicarlo y da menos beneficio, tal vez logremos que el spammer se dedique a otras fechor&iacute;as y deje nuestros servidores web y nuestros programas de estad&iacute;sticas en paz. </p>
<p> Estoy muy interesado en seguir investigando y encontrar soluciones para este tipo de abusos. De forma que quien desee aportar ideas, experiencias o comentarios ser&aacute; muy bienvenido al foro que hemos creado sobre el &quot;Secuestro de logs&quot; (Log Hijacking) en los foros de <a href="http://estadisticasweb.com/cgi-bin/foro/Blah.pl">www.estadisticasweb.com </a>. </p>
]]></content:encoded>
			<wfw:commentRss>http://www.maestrosdelweb.com/editorial/spamlog/feed/</wfw:commentRss>
		</item>
	</channel>
</rss>
