Internet invisible es un nombre claramente inadecuado para referirse al sector de sitios y de páginas web que no pueden indizar los motores de búsqueda de uso público como Google o AltaVista. Pese al nombre, afortunadamente, la web invisible es perfectamente visible ya que los contenidos de tales páginas y sitios web pueden ser vistos o bien mediante un navegador convencional o bien mediante un navegador complementado con algún programa adicional (plugin).

Por tal motivo, debería denominarse, en realidad, la web “no indizable”, lo cual es un término mucho más adecuado, pero claramente alejado de la capacidad de sugeridora del término “invisible”. Dado que, sin embargo es el término más habitual incluso en la bibliografía técnica, usaremos en este trabajo el término Web o Internet invisible para referirnos a información
publicada en servidores Web que, por diversos motivos no puede ser indizada y, por tanto, no puede ser encontrada por los motores de búsqueda convencionales.

Veamos ahora porqué hay contenidos no indizables en la Web. Hay, al menos tres motivos. En un orden no significativo, podemos decir que el primer motivo son los formatos de los documentos. Los motores de búsqueda fueron creados originalmente para descargar, leer e indizar páginas HTML. Cualquier otro formato era ilegible, es decir, invisible para
tales motores. Todos sabemos de la proliferación de formatos no HTML en la Web (que, sin embargo se integran con toda facilidad en el navegador). Es el caso, por ejemplo, de los cada vez más abundantes documentos en formato .pdf (documentos Acrobat) e incluso en formato .doc (documentos Word). En la medida en que una parte de los contenidos de la Web está
formada por documentos no HTML, esa parte es candidata a ser Internet invisible.

 

Fuente:

Internet invisible y web semántica: el futuro de los sistemas de información en línea
Lluís Codina
UPF