Recuperación de Información | aprender-libre.com

Recuperar significa volver a tener. Recuperar información significa volver a tener una información que alguna vez, hace unos minutos o hace unos años, ha sido producida por alguien, bien por nosotros mismos o bien por terceras personas.

La Recuperación de Información (RI, a partir de ahora) es la disciplina que estudia la representación, la organización y el acceso eficiente a la información que se encuentra registrada en documentos.

De las operaciones propias de la RI, sin duda la más característica consiste en la selección de documentos, bien a partir de las características de su contenido, (los temas tratados), bien a partir de características de su contexto (p.e. la fecha de publicación,) bien a partir de alguna combinación de ambas cosas (p.e: "documentos sobre desarrollo humano publicados por UNESCO entre 2003 y 2005").

Ahora bien, para que la RI tenga sentido se presupone un entorno en el cual no es trivial, precisamente, el hecho de acceder a los documentos por su contenido. Este contexto lo genera, típicamente, cualquier fondo documental a partir del momento que contenga unos centenares o unos miles de documentos. Empresas pequeñas, medianas o grandes, con ejecutivos, abogados, químicos o ingenieros que necesitan encontrar una información en fondos internos o externos es un ejemplo. Universitarios e investigadores que necesitan consultar bases de datos bibliográficas para asegurarse de que no reinventan la rueda es otro. Finalmente, la Web, que en realidad es un enorme sistema de información documental con varios miles de millones de documentos es el ejemplo extremo de contexto característico de RI.

### Qué es la Recuperación de Información

El objetivo final de la RI es el estudio y desarrollo de los métodos, bien algorítmicos (preferentemente) o bien intelectuales (cuando no es posible su automatización), que faciliten al máximo el siguiente grupo de operaciones:

1. Indización: Esta operación, en particular cuando se realiza en modo intelectual, se divide en realidad en otras dos:

1.1. Análisis: identificación de los temas o conceptos más relevantes del documento.

1.2. Normalización: transformación de los conceptos que expresan el contenido del documento en los términos de indización (descriptores) más adecuados. A veces, esta segunda fase recibe también el nombre de indización, obviando o dando por supuesto a la primera.

La indización puede aplicarse también a la necesidad de información. Podemos hablar, por tanto, de indización de documentos y de indización de la pregunta. En ambos casos, el resultado es un conjunto de descriptores. En el caso de la necesidad de información, los descriptores de la pregunta pueden estar relacionados con operadores lógicos (operadores booleanos).

2. Selección: identificación del conjunto de documentos más relevante para una necesidad de información dada. También se denomina recuperación (en este caso, debido a que es la parte más significativa del proceso, a menudo sirve para dar nombre al todo).

3. Ordenación: determinación del orden más adecuado de presentación al usuario de los documentos seleccionados o recuperados (en caso que sean más de uno, claro). La idea es ofrecer la lista de los documentos en orden decreciente (el más relevante primero) de probabilidad de satisfacer la necesidad de información. También se denomina ranking.

4. Interconexión: establecimiento de relaciones hipertextuales, caminos y, en general, estructuras de navegación entre secciones del mismo documento o entre documentos distintos.

5. Categorización: asignación de cada documento a un grupo, clase o subclase de un cuadro de clasificación, taxonomía u ontología.

6. Abstracción: producción de resúmenes de documentos que, en algunas circunstancias, puedan sustituir la lectura del documento completo.

7. Visualización: representación en forma gráfica de informaciones no necesariamente icónicas, así como de conceptos o procesos.

De los siete procesos anteriores, todos están automatizados en algún grado, pero ninguno lo está en modo óptimo. Ante ello, nos podemos hacer esta pregunta: ¿podrán algún día automatizarse al completo tales tareas? Ignoramos la respuesta, pero sí podemos indicar algunas cosas al respecto: las tareas indicadas están relacionadas con las habilidades más complejas de la condición humana, aquellas que se vinculan con la cognición y el lenguaje. Si, en algún momento del futuro, pudieran automatizarse tales tareas de manera completa y satisfactoria, seguramente esto significaría que las máquinas pueden pensar, en el sentido más profundo y completo del término.

En estos momentos, en tal sentido, lo cierto es que las posturas entre los investigadores están divididas: la mayor parte de la comunidad de ingenieros informáticos afirma, en la más pura tradición de Alan Turing (1912-1954), el gran pionero de la inteligencia artificial, que la inteligencia es una cuestión de conducta observable: si un sistema se comporta como si fuera inteligente, entonces es inteligente.