Análisis logs servidores HTTP

Análisis de logs de servidores HTTP

Los servidores web (y los de FTP, proxy-cache, etc.) guardan, si están configurados para ello, unos ficheros en el sistema donde anotan todos los eventos que ocurren durante el funcionamiento normal del servicio. Dichos ficheros se llaman ficheros de registro o log. En ellos podemos encontrar el registro de operaciones que han fallado, incluyendo algunas veces el motivo del
fallo. Encontraremos también registro de operaciones anómalas y, además, un registro de todas las operaciones realizadas correctamente.

Formato del fichero de log

Por norma general, los servidores web guardan los registros en un formato llamado Common Log Format. Los servidores que no usan dicho formato por defecto suelen incluir una opción para usarlo. El formato Common Log Format es el siguiente:

65.61.162.188 - - [14/Dec/2003:04:10:38 +0100] “GET /exec/rss HTTP/1.1” 200 9356
66.150.40.79 - - [14/Dec/2003:04:18:46 +0100] “HEAD / HTTP/1.1” 302 0
69.28.130.229 - - [14/Dec/2003:04:36:59 +0100] “GET /robots.txt HTTP/1.1” 404 1110
69.28.130.229 - - [14/Dec/2003:04:37:00 +0100] “GET /space/start HTTP/1.1” 200 17327
64.68.82.167 - - [14/Dec/2003:05:23:32 +0100] “GET /robots.txt HTTP/1.0” 404 1110
64.68.82.167 - - [14/Dec/2003:05:23:32 +0100] “GET / HTTP/1.0” 304 0
66.196.90.246 - - [14/Dec/2003:05:36:14 +0100] “GET /robots.txt HTTP/1.0” 404 1110
66.196.90.63 - - [14/Dec/2003:05:36:14 +0100] “GET /exec/authenticate HTTP/1.0” 302 0
66.196.90.63 - - [14/Dec/2003:05:36:19 +0100] “GET /space/start HTTP/1.0” 200 17298
69.28.130.222 - - [14/Dec/2003:05:50:32 +0100] “GET /robots.txt HTTP/1.1” 404 1110
69.28.130.222 - - [14/Dec/2003:05:50:33 +0100] “GET / HTTP/1.1” 302 14
69.28.130.222 - - [14/Dec/2003:05:50:34 +0100] “GET /space/start HTTP/1.1” 200 17327

El formato común extendido

Existe una variante extendida del Common Log Format, denominada Extended Common Log Format o más conocida como Combined Log Format, que añade al formato anterior dos campos adicionales:

65.61.162.188 - - [14/Dec/2003:04:10:38 +0100] “GET /exec/rss HTTP/1.1”
200 9356 “http://www.google.com” Mozilla/4.5[en]66.150.40.79 - - [14/Dec/2003:04:18:46 +0100] “HEAD / HTTP/1.1”
302 0 “http://www.altavista.com” Mozilla/3.1[en]

Análisis del fichero de log

Los ficheros de log nos van a proporcionar una información muy útil que nos permitirá conocer algunos datos importantes sobre los visitantes de nuestro sitio web. No obstante, muchos datos relevantes no los podremos encontrar en nuestros ficheros de log, por lo que deberemos inferirlos de forma aproximada a partir de la información de éstos.

Los datos que vamos a poder encontrar en el fichero de log son:

• Número de peticiones recibidas (hits).
• Volumne total en bytes de datos y ficheros servidos.
• Número de peticiones por tipo de fichero (por ejemplo, HTML).
• Direcciones de clientes diferentes atendidas y peticiones para cada una de ellas.
• Número de peticiones por dominio (a partir de dirección IP).
• Número de peticiones por directorio o fichero.
• Número de peticiones por código de retorno HTTP.
• Direcciones de procedencia (referrer).
• Navegadores y versiones de éstos usados.

A pesar de que las informaciones que podemos obtener del análisis de los ficheros de log son numerosas, hay unas cuantas que no podemos obtener. De ellas, algunas resultarían de especial interés:

• Identidad de los usuarios, excepto en aquellos casos en los que el usuario se identifique por petición del servidor.
• Número de usuarios. A pesar de tener el número de direcciones IP distintas, no podemos saber de forma absoluta el número de usuarios, y más si tenemos en cuenta la existencia de servidores proxy-cache. Una dirección IP puede representar:

– Un robot, araña u otro programa de navegación automático (por ejemplo, los usados por los buscadores como Google).
– Un usuario individual con un navegador en su ordenador.
– Un servidor proxy-cache, que puede ser usado por cientos de usuarios.

• Datos cualitativos: motivaciones de los usuarios, reacciones al contenido, uso de los datos obtenidos, etc.
• Ficheros no vistos.
• Qué visitó el usuario al salir de nuestro servidor. Este dato quedará recogido en los log del servidor donde el usuario fue  después del nuestro.

Hay otra información que sí queda registrada pero de forma parcial, por lo que puede llevarnos a interpretaciones erróneas de los datos.
Gran parte de dichas inconsistencias proceden del cache que realizan los propios navegadores, del que realizan servidores proxy-cache intermedios, etc.

Fuente:

Desarrollo de aplicaciones web
Carles Mateu
UOC

Si quieres conocer otros artículos parecidos a Análisis de logs de servidores HTTP puedes visitar la categoría SEGURIDAD INFORMATICA.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Subir