Scroll Top

PC Search: análisis e indexación automática de documentos

Por Lluís Codina

PC Search es un sistema de gestión de bases de datos que puede incorporar documentos en formato nativo, así como indexarlos automáticamente a fin de que cualquiera de las palabras presentes en los mismos puedan ser utilizadas como puntos de acceso.

Sin embargo, a diferencia de otros sistemas similares, PC Search permite asociar a cada documento una ficha en la que pueden indicarse datos estructurales (autor, fecha, etc.) y descriptivos (título, tema, descriptores, etc.), que también son utilizables a efectos de localización y que eventualmente completan la indexación automática que realiza el programa.

Análisis de la información
La versión básica del programa proporciona filtros para interpretar el formato nativo de los procesadores WordPerfect y Word, lo cual supone que la ventana de diálogo que sirve para importar los documentos incluye un Perfil de documento (ficha descriptiva asociada) estándar pre-definido, más o menos ajustado a esos procesadores. De este modo un registro estándar de PC Search está compuesto, de hecho, por dos objetos: el documento en sí, más una descripción del mismo.

Una vez importados, PC Search realiza un análisis de los documentos para obtener datos estadísticos sobre cada uno de ellos, que relaciona con el conjunto de la base de datos. Con tales datos el programa podrá estimar las propiedades estadísticas de cada documento, de manera que ante una petición de información enjuiciará el grado de probabilidad de cada documento para solucionar esa necesidad de información.

Para ello PC Search utiliza el reputado motor de recuperación de Fulcrum, considerado como uno de los dos o tres mejores del mundo, compartiendo tal distinción con motores como Topic, de Verity, o BasisPlus, distribuido por Centrisa.

El sistema de indexación de PC Search representa, probablemente, el estado del arte en indexación automática (dejando aparte los desarrollos que aún están en el laboratorio), por lo menos en su variante estadística, que es la más utilizada actualmente.

Adicionalmente PC Search admite la utilización de un tesauro online, con lo cual proporciona la posibilidad de complementar la indexación automática con la indexación intelectual y el uso de lenguajes documentales controlados, aunque se trata de un módulo que debe adquirirse aparte y que no fue evaluado en esta ocasión.

Un documento visualizado con PC Search

Un documento visualizado con PC Search. Obsérvense los controles de navegación arriba. Los términos marcados son las palabras clave que se han usado en la búsqueda.

Las operaciones de búsqueda se realizan con ayuda de una plantilla que incluye los mismos campos de la ficha descriptiva de cada documento. En este caso las  palabras de la pregunta pueden aparecer en cualquier lugar del documento

Ordenaciones
En su lenguaje de interrogación PC Search ofrece una amplia batería de recursos para seleccionar información, tales como operadores booleanos (incluyendo la posibilidad de construir ecuaciones complejas con paréntesis); operadores de proximidad; operadores de comparación; uso de máscaras y truncamientos; y búsquedas indistintamente por palabras o por frases.

Una vez recuperado así uno o más documentos, es cuando el programa realiza estimaciones sobre su grado de relevancia, para lo cual el usuario puede elegir entre los cuatro modos o algoritmos distintos de estimación que le ofrece el programa.

Cada uno de estos algoritmos pondera de manera diferente indicios o pistas de tal idoneidad. Por ejemplo, algunos algoritmos pueden estimar como más relevante el documento que contiene mayor número de ocurrencias de cada palabra de búsqueda, mientras que otros valoran más la variedad de términos de la pregunta presentes en el documento, y otros utilizan en cambio el peso o capacidad discriminadora de cada término en función directa a su abundancia local (en el documento) e inversa a su abundancia global (en toda la base).

 

PC Search 3

Para importar los documentos se pueden utilizar máscaras de entrada como la mostrada aquí, preparada para interpretar directamente documentos WordPerfect. Algunos campos los puede rellenar automáticamente el programa.

Las opciones de ordenación permiten seleccionar el algoritmo de cálculo de relevancia que aplicará el programa. En este caso se ha elegido el de función inversa del documento, que valora más los términos muy frecuentes localmente y poco frecuentes globalmente. Además, se pueden definir criterios de ordenación secundarios.

Salida de la información
PC Search realiza la explotación de la información, bien exhibiendo el texto completo de los documentos en pantalla, o bien exportándolo a un fichero de disco o a una impresora.

En el primer caso, el programa proporciona una ventana de lectura y navegación en la cual el texto ocupa la mayor parte, con una línea de botones mediante los cuales es posible recorrer las páginas del documento, acceder a documentos anteriores y posteriores, saltar al contexto donde se producen las ocurrencias de los términos de búsqueda, imprimir todo o parte del documento, etc.

También puede conmutarse el modo de lectura y tener en pantalla el perfil del documento en lugar del texto completo, así como pueden cambiarse algunos aspectos de presentación: columnas, fuente y tamaño de letra, etc. Es posible también editar el documento original, para lo cual PC Search invoca un procesador de textos.

En su versión básica el programa es parco, sin embargo, en las opciones de exportación, ya que sólo prevé la posibilidad de enviar los documentos marcados a un fichero de texto ANSI (el formato de texto propio de Windows) o a la impresora. Dicha versión básica, que es la que hemos testado en esta ocasión, no presenta facilidades adicionales para definir informes.

Sin embargo, el programa se puede complementar con diversos módulos (como el de tesauros ya mencionado), entre los que figura un kit de desarrollo para administradores de bases de datos, que amplían considerablemente sus prestaciones, tanto en cuanto a los lenguajes nativos que es capaz de reconocer, como en las posibilidades de definición de estructuras de registros, establecimiento de diccionarios de datos, definición de formatos de salida, definición de informes e, incluso, la asociación de archivos gráficos a los registros.

Con el citado kit de administración, PC Search deja entonces de ser un indexador y recuperador de documentos, para pasar a ser un completo sistema de gestión de bases de datos con el que se pueden desarrollar aplicaciones.

En particular, una aplicación PC Search puede contener una o más bases de datos; los diccionarios de datos correspondientes, para los cuales el programa permite definir hasta 12 tipos de datos (booleano, fecha, cadena, numérico, sonido, gráfico, etc.); formularios de entrada y de salida; diversas estrategias de indexación; diversos formatos de visualización; y posibilidad de modificar aspectos de la interfase de usuario, como menús y cajas de diálogo.

Conclusión
Dada su capacidad de análisis y la batería de procedimientos de ordenación que ofrece, PC Search se sitúa en la cúspide tecnológica en cuanto a indexación automática se refiere, hasta el punto de que debe ser uno de los programas que, sin utilizar indexación manual, mayores tasas de relevancia (recall) y precisión ofrece.

Para decirlo de otra manera, uno de los programas cuyas respuestas se ven menos afectadas por el silencio (falsos negativos) o el ruido (falsos positivos), los auténticos Escila y Caribdis entre los que se sitúa siempre la recuperación de información.

Fabricante: Intunix AG.

Distribuidor: Chemdata Ibérica Grupo Eurodoc.
Alcalá 101. 28009 Madrid.
Tel.: +34-1-435 22 02 / 63; fax: 431 45 56

Lluís Codina es profesor de Documentación en la Universitat Pompeu Fabra de Barcelona.

Esta información se publicó en la revista Information World en Español (IWE), n. 46, julio-agosto de 1996, pp. 14-15.