Índices para realizar búsquedas en Internet

Por José A. Senso

El imparable crecimiento que ha experimentado Internet en los últimos años, y más concretamente el World Wide Web, ha sido el causante de que cada vez cueste más trabajo poder manejar la gran cantidad de información que hay en la Red.

En 1991 apareció el sistema gopher. Con él se abría un campo de posibilidades impresionante. Tanto fue así que, tras su vertiginosa progresión, hubo que idear un mecanismo que facilitase la búsqueda de información dentro de lo que se denominó el gopherespacio, y así nació Veronica.

De forma simultánea se fue generalizando el uso de WWW, que le superó en prestaciones (v. IWE-29, pp. 25-27).
https://www.scimagoepi.com/world-wide-web-toda-la-internet-en-un-solo-documento

Su crecimiento fue aún mayor, y en poco tiempo el número de páginas WWW alcanzó una cifra enorme. Es precisamente esa ingente cantidad de información la que hacía que fuese casi imposible conocer qué había en la Red sobre un tema en concreto.

Fue entonces cuando comenzaron a aparecer programas que, empleando sistemas similares a los utilizados por la industria online, permitían realizar búsquedas sobre temas concretos a lo largo y ancho del WWW.

De ahí surgieron conceptos como «robots», «arañas» y «errantes» o «vagabundos» (robots, spiders and wanderers) términos que vienen a significar la misma cosa.

Cada sistema tiene su propia forma de trabajar. Lo más común es que los robots recojan páginas WWW y las almacenen en una base de datos, que es la que se consulta cuando el usuario realiza la búsqueda.

Si alguien está interesado en obtener más información sobre la forma de funcionar de los robots existe un foro de discusión en Internet sobre el tema. Para suscribirse hay que enviar un mensaje a:
robots‑request@webcrawler.com
que contenga la palabra subscribe en el cuerpo del mensaje.

Durante el último año estos sistemas han proliferado, ofreciendo cada uno opciones y posibilidades diferentes. Por eso creo que es interesante examinar algunos de ellos para esclarecer qué nos pueden ofrecer a los documentalistas. No se trata de un repaso exhaustivo. Por eso índices como CUI, Niss, Nikos, Inktomi o Mibi (la aportación española), no aparecen analizados con detalle. No obstante creo que la lista es lo suficientemente representativa.

WebCrawler

Aunque fue diseñado por Brian Pinkerton para la University of Washington, en la actualidad es America Online Inc. la propietaria y encargada de su actualización y mantenimiento, a través de los Web Studios de San Francisco.

El programa encargado de ejecutar las búsquedas funciona sobre ocho ordenadores, conectados entre sí, con una capacidad de almacenamiento individual de 1,5 GB y 128 MB de memoria RAM.

Esos mismos ordenadores son los encargados de almacenar una base de datos, utilizada para realizar las búsquedas solicitadas, que contiene más de dos millones de páginas WWW.

El sistema ofrece una única línea para introducir la búsqueda, que puede estar compuesta por varias palabras, que, por defecto, se unen por el operador AND (existe la opción de utilizar también OR).

No cabe la posibilidad de utilizar otros operadores, como los de proximidad. A pesar de que tampoco se contemple la posibilidad de realizar truncamientos, WebCrawler elimina automáticamente las terminaciones de las palabras, utilizando así sólo la raíz, y lo convierte todo en mayúsculas.

El resultado de nuestra búsqueda aparece como una lista de direcciones WWW (no proporciona resumen alguno) organizada según un índice de relevancia.

Para saber cuál es el resultado que más se acerca a nuestras necesidades, de entre todos aquellos documentos en los que aparece alguna vez la palabra o palabras que representan el contenido de la materia en la que estamos interesados, realiza una simple operación matemática: divide el número total de veces que aparece cada palabra por la que buscamos, entre el número total de palabras que tenga el documento.

Al documento que tenga el número mayor se le asigna el 100, y se establece una escala con los siguientes resultados. Estos números se colocan a la izquierda de cada dirección, de tal forma que la primera, que tendrá el número 100, será la que tiene más posibilidades de contener la información que buscamos.

Por las restricciones antes comentadas, WebCrawler puede resultar algo limitado. Sin embargo, es uno de los mejores instrumentos para realizar búsquedas que requieran el uso de operadores booleanos.

Savvy Search
Posiblemente la mayor ventaja que tenga el realizar búsquedas en Savvy es que permite elegir en cuál de sus numerosas bases de datos quieres que localice la información.

Estas bases de datos son de recursos WWW, informes técnicos, noticias, programas informáticos, entretenimiento, imágenes, etc.

Esta posibilidad, no obstante, puede ser el mayor inconveniente, especialmente si no tenemos demasiado claro en qué área temática se puede encuadrar lo que estamos buscando. A pesar de todo, realizar la búsqueda sobre la base de datos de los recursos WWW siempre aporta alguna información.

La estrategia de búsqueda puede estar formada por varias palabras que, por defecto, se unen con el operador AND. El no ofrecer la posibilidad de usar el operador OR supone una gran desventaja si lo comparamos con otros productos de la competencia.

Tampoco agrega ningún tipo de información adicional a las direcciones que responden a la búsqueda (resumen, índice de relevancia), lo que obliga a realizar búsquedas muy específicas, para evitar perder el tiempo conectándonos a direcciones que pueden resultarnos de poco interés.

The Open Text Index

Se trata de uno de los índices más potentes de cuantos existen. La empresa canadiense Uunet, encargada de su creación y mantenimiento, tiene previsto realizar diferentes versiones en francés, alemán, italiano y japonés.

Además se quieren añadir nuevas utilidades –como la posibilidad de almacenar la ecuación y los resultados de la búsqueda– para facilitar el refinamiento de la misma.

Ofrece tres tipos de búsquedas. La más sencilla es la que aparece por defecto.

Funciona de manera similar al resto de los índices.

La opción denominada power search mode permite el uso de operadores booleanos como AND (usado por defecto), OR, BUT NOT, y de proximidad: near y followed by.

La tercera variante es la denominada weighted search mode. En ella debemos indicar el peso que debe tener cada una de las palabras que buscamos. No existe un límite numérico, pero debemos ser coherentes y aplicar un valor proporcional a cada una de las palabras. Ese valor o peso debe ser positivo, y no se pueden poner decimales. El índice opera con cada uno de esos pesos de manera independiente, y luego los combina en el resultado final.

Si dentro de esta opción elegimos la modalidad de búsqueda por ocurrencia, a cada dirección se le asigna un índice de relevancia que se calcula por medio del producto del número de ocurrencias encontradas en cada página por su peso. Si, por el contrario, decidimos que utilice la modalidad denominada presencia o ausencia, a cada página que incluya la palabra por la que buscamos se le da una puntuación numérica con el mismo valor que su peso, independientemente del número de veces que dicha palabra aparezca en la página.

Se trata de un índice que contiene una gran variedad de opciones. Además, el robot de búsqueda actualiza constantemente la base de datos. Es uno de los más serios competidores de Lycos, WebCrawler, Infoseek y demás.

NlightN
A pesar de que este servicio ya ha sido comentado anteriormente (v. IWE-39, p. 1)
https://www.scimagoepi.com/nlightn-de-library-corporation

quiero volver a incidir sobre él ya que es uno de los índices más «espectaculares».

El sistema, denominado Universal Index, permite realizar las búsquedas, de forma simultánea, en 660 bases de datos, 14 agencias de noticias y más de 3 millones de páginas WWW. Si estos números son llamativos, no lo es menos la lista de las bases de datos (ABI/Inform, Medline y Disclosure entre ellas) o la lista de los productores de bases de datos que ya han firmado convenios con la empresa creadora del servicio, Library Corporation (UMI, Library of Congress, Knight-Ridder, The British Library y un largo etcétera).

De momento las opciones de búsqueda son algo limitadas ya que sólo se contempla la posibilidad de usar operadores booleanos y restringir la búsqueda a determinados campos. No se cobra nada por la suscripción o por el tiempo de conexión, sólo por la información recuperada.

Virtual Yellow Pages
Desde el exterior apenas existen diferencias entre este índice y los demás. Las búsquedas se hacen por defecto con el operador AND. También se permite el uso de OR. Los resultados se pueden ordenar alfabéticamente o por la calidad de las direcciones (otorgado por índices de relevancia), y poca cosa más.

La verdadera diferencia está en el sistema utilizado para realizar las búsquedas. Utiliza tecnología Readware, que se basa en alguno de los principios de la inteligencia artificial. A esta tecnología se le suma otro sistema de búsqueda, que participa de la filosofía del modelo de clustering, que agrupa términos por similitud (v. IWE-38, p. 19):
https://www.scimagoepi.com/teoria-de-la-recuperacion-de-informacion-fundamentos-y-gestion-documental

Todo esto, unido a una base de datos con un amplio vocabulario de varios idiomas, hace que nos encontremos ante la que será una de las más potentes herramientas de búsquedas en un futuro no muy lejano. De momento debe mejorar la calidad y la cantidad de la información que contiene la base de datos sobre la que trabaja.

Tribal Voice Search
Si Savvy sorprende por ser uno de los pocos que se basan en un modelo de recuperación de información concreto y la utilización de alguno de los principios teóricos de inteligencia artificial, Tribal no se queda atrás. Este sistema, por defecto, realiza las búsquedas usando la lógica difusa.

Nos ha sido imposible verificar que este índice utiliza realmente lógica difusa en sus búsquedas, ya que el proceso es largo y complejo. Por este motivo no se puede garantizar que no se trate de una forma de marketing.

Por defecto une las palabras de la búsqueda con AND, pero no se pueden introducir más de cuatro palabras por búsqueda. Además de permitir el uso del operador OR, tiene una opción que une todas las palabras con AND, pero combinadas en el orden especificado. Esta opción debe usarse con cuidado. El orden es vital para que no nos encontremos con un resultado tan selectivo que no obtengamos nada.

Tribal, de momento, es muy limitado, ya que trabaja sobre una base de datos bastante reducida y se encuentra todavía en construcción.

Yahoo

Poca cosa se puede decir de Yahoo que no hayamos experimentado todos, ya que se trata de uno de los índices más famosos de la Red. Al igual que otros, une los términos con AND por defecto, y permite considerar las palabras de la búsqueda como cadenas independientes o como combinación de palabras ordenadas.

Las búsquedas las podemos realizar en los títulos, comentarios de cada página, o por URL (Uniform Resource Locator). Y los resultados aparecen en una lista alfabética que es todo lo larga que queramos.

También ofrece una serie de grupos temáticos que pueden ser de gran utilidad, ya que contienen las direcciones de los servidores WWW más significativos dentro de cada campo. Además de la versión gráfica, tiene una versión con sólo texto.

Recientemente se ha producido la fusión entre Yahoo y Open Text, que no causará la desaparición de ninguna de las dos. Como consecuencia de esto, ambas empresas intercambiarán tecnología e información. Así Yahoo logrará más versatilidad y posibilidades en su sistema de búsqueda, y Open Text una base de datos más grande sobre la que consultar.

Al igual que WebCrawler, su principal inconveniente es su éxito, lo que provoca que la conexión se convierta en una larga y lenta espera.

PLWeb

La aportación de PLS (Personal Library Software) al «mundo» de los índices en Internet se denomina Master Index, que se gestiona por medio del sistema PLWeb.

La estrategia de búsqueda se puede refinar por medio de los operadores booleanos and, or y not. También pueden utilizarse otros operadores, como near y adj. La posibilidad de usar un gran número de comodines es, sin ningún género de dudas, una de las grandes ventajas de PLWeb. Entre ellos destacamos:
– el signo de interrogación (?) para sustituir una letra
– con el asterisco (*) se sustituyen las terminaciones (truncado)
– el signo suma (+) busca palabras relacionadas con el prefijo
– la admiración (!) genera una lista de palabras relacionadas temáticamente con la que precede al signo, y busca todos los documentos en los que aparezcan
– con la almohadilla (#) busca por la palabra exacta
– si usamos la arroba (@) antes del término de búsqueda permite buscar en el tesauro.

A todo esto se Ie suman varias modalidades de búsqueda, como la denominada relate advisor, que muestra una lista de palabras que están conceptualmente relacionadas con el tema, o la forma llamada fuzzy advisor, que minimiza los errores que se producen a la hora de escribir, con el objetivo de que no alteren el resultado de la búsqueda.

Los resultados se muestran por orden de relevancia, que se determina teniendo en cuenta la frecuencia de las palabras que coinciden con las de la búsqueda y su proximidad. Los documentos resultantes se presentan en varios formatos, como ascii, html y pdf.

A pesar de que actualmente Master Index esté en construcción, ya se pueden realizar pequeñas búsquedas que nos permiten intuir lo que será este índice cuando se encuentre en pleno funcionamiento.

McKinley
En su primera modalidad de búsqueda, McKinley ofrece la posibilidad de usar un gran número de operadores. Por defecto se unen todas las palabras por OR, pero permite introducir otros como AND y NOT.

Admite la utilización de operadores de proximidad, cuando empleamos varias palabras, bajo las cIaves ADJ y NEAR/n, siendo la «n» el número máximo de palabras que queremos que haya entre dos términos de búsqueda. Además existe la oportunidad de servirse de toda la gama de comodines que ofrece PLS, ya que McKinley usa su tecnología para realizar las búsquedas.

También ofrece otras opciones, como la posibilidad de elegir la extensión del resumen que explica el contenido de cada dirección, la base de datos donde deseamos que se realice la búsqueda, o el nivel de relevancia que deben tener las direcciones que nos muestra.

Esa relevancia se otorga teniendo en cuenta la proximidad entre las palabras de la búsqueda dentro del documento y la frecuencia con que aparecen. Al documento más relevante se Ie asignan cuatro asteriscos, y al que menos, uno.

Si elegimos realizar la búsqueda en la opción avanzada, después de introducir el término por el que queremos que investigue, el sistema nos ofrecerá una lista de vocablos relacionados temáticamente con nuestra búsqueda. De esta manera se nos permite acceder a otras direcciones que, a pesar de no tener explícitamente la palabra por la que buscamos, tratan del tema que nos interesa.

Es recomendable utilizar un número limitado de términos, o que estos sean muy específicos, ya que corremos el riesgo de encontrarnos ante una lista de resultados excesivamente extensa.

Commercial Sites Index
Siempre es positivo tener en cuenta otros índices que se alejan de la masificación que sufren los más conocidos y que son una buena opción si lo que buscamos es la rapidez. Este sería un buen ejemplo, siempre y cuando tengamos en cuenta sus limitaciones.

A pesar de permitir el uso de los operadores AND y OR, si elegimos esta opción debemos saber que no podremos introducir más de dos palabras por búsqueda. Se nos ofrece la oportunidad de escoger dónde queremos que realice la búsqueda: en el URL, en el título o por palabras clave.

Por ultimo decir que la palabra que se introduce como término de búsqueda se considera como un prefijo. No se encuentra éste entre los sistemas más potentes que ofrece la Red, pero nunca se sabe hasta donde nos puede llevar la desesperación de ver que no conseguimos conectar con Yahoo, Cusi…

ISO Search
Este no es un índice que realice búsquedas a lo largo de Internet, pero creo que es lo suficientemente importante en nuestra actividad como para destacar alguna de sus características. Permite indagar en la base de datos web de la ISO, facilitándonos la realización de consultas determinadas sobre cualquier norma. Establece dos tipos de búsquedas: por palabra clave o por el número ISO de la norma. Si escogemos la primera opción, habrá que tener en cuenta que usa el operador OR por defecto, permitiendo el uso del AND y del NOT. Otra característica es que permite el truncamiento por medio del asterisco. No obstante, si elegimos realizar la búsqueda a través del número ISO, no podremos usar ni operadores booleanos ni truncamientos. En ambas opciones, el resultado es una lista de normas, cada una de las cuales tendrá información sobre el título, título de la parte específica de la norma, edición, idioma, número de páginas, número de la clasificación internacional de normas, descriptores y, como no, el precio. Podemos realizar la petición directamente.

Lycos

Lycos presume porque, gracias al sistema creado por el Departamento de Informática de la Carnegie Mellon University, se realizan las búsquedas en, aproximadamente, el 91% de las páginas WWW.

Sea cierto o no, la eficacia de este índice varía mucho, ya que las posibilidades de encontrar lo que queremos se reducen considerablemente si realizamos búsquedas por varios conceptos, en vez de buscar uno a uno. Si elegimos esta ultima opción, el sistema, mientras no se Ie diga lo contrario, buscara por la raíz.

Permite el uso de operadores booleanos siendo AND el usado por defecto. Además establece un curioso método que emula a los operadores de proximidad, ya que dependiendo del uso que hagamos de las opciones loose, match, fair, good, close o strong, obtendremos unos resultados que se alejarán o acercarán más a nuestra petición.

Otra posibilidad que ofrece para restringir la búsqueda es el uso de un guion delante de las palabras que no queremos que aparezcan en los documentos que se recuperan.

Einet Galaxy
La característica principal de Einet es que no solo permite realizar las búsquedas en las páginas WWW, ya que existe la posibilidad de consultar, individualmente o en conjunto, servidores gopher y telnet.

Se pueden utilizar los operadores booleanos AND, OR y NOT. Además podemos truncar los términos de búsqueda añadiéndole un asterisco a la raíz. Los resultados, en forma de URL, aparecen ordenados por orden de relevancia.

Aliweb
Se puede elegir realizar la búsqueda en el título, descripción, palabras clave o URL de los documentos WWW. Al mismo tiempo, permite restringir el resultado al dominio de un país, lo que facilita y simplifica la búsqueda haciéndola más rápida.

El sistema ofrece la oportunidad de parar el proceso de búsqueda después de haber obtenido un número predefinido de resultados.

Infoseek
Realiza las búsquedas en WWW, foros Usenet, bases de datos con información de revistas especializadas, periódicos, agencias de noticias, informes…, lo que la convierte en una de las herramientas más potentes de la Red.

Tiene la particularidad de que, aunque todo el mundo puede realizar búsquedas, solo los que están suscritos tienen la posibilidad de ver más de los diez primeros resultados. Entre las opciones de búsqueda que permite, destacamos:
– el uso de la coma (,) entre nombres propios, no relacionados entre sí y con la primera letra en mayúscula;
– dobles comillas («) entre términos que deben aparecer juntos, sea cual sea el orden;
– un guion (-) entre las palabras que no queramos que se separen. No se pueden dejar espacios entre esas palabras porque entonces el sistema puede considerarlas de forma diferente
– los términos que deben aparecer relativamente cerca entre sí, en cualquier orden, se ponen entre corchetes ([ ])
– el signo de la suma (+) delante de los términos que deben aparecer en todos los documentos que se recuperen
– el signo de la resta (-) delante de las palabras que no deben aparecer en los documentos recuperados.

El sistema no ofrece la posibilidad de usar cualquier otro mecanismo de búsqueda, como operadores de proximidad, booleanos o truncamientos.

Alta Vista

A mediados del mes de diciembre de 1995 comenzó el funcionamiento, de forma gratuita, del índice Alta Vista de Digital. Según la información que contiene la home page están indexadas 16 millones de páginas WWW y 13.000 news.

El sistema presenta dos opciones. En su forma más simple las búsquedas se realizan utilizando por defecto el operador AND. La modalidad más avanzada presenta un amplio abanico de posibilidades. Se pueden usar los operadores AND, OR, NOT y NEAR, que se deben escribir en mayúsculas para diferenciarlos de los términos de búsqueda.

Al existir la posibilidad de combinar varios operadores dentro de la misma frase, tenemos que separar los diferentes conceptos con paréntesis o comillas. También se puede usar el truncamiento, tanto en prefijos como en sufijos, utilizando el asterisco (*).

La ultima opción dentro de esta modalidad permite establecer el período temporal dentro del cual deben estar los documentos recuperados.

Es prácticamente imposible verificar si este sistema indiza realmente 16 millones de paginas web. No obstante podemos asegurar que es uno de los que más documentos recupera sobre la misma estrategia de búsqueda.

Interfaces
Además de los índices citados, existen en la Red servicios que se encargan de aglutinar varios índices en uno. Cuando queremos realizar una búsqueda, por norma general, tenemos que acceder al índice deseado y después formular la estrategia. Esto supone tener que establecer las conexión dos veces, lo que implica una pérdida de tiempo y un gasto adicional. Sin embargo, usando los servicios que ofrecen los interfaces, al mismo tiempo que nos conectamos por primera vez se está ejecutando nuestra búsqueda. Obviamente estos servicios resultarán más productivos cuanto mayor sea el número de búsquedas realizadas.

Infomarket, servicio de IBM que, previa suscripción gratuita, permite realizar búsquedas en Yahoo, McKinley, Open Text y en algo más de 13.000 foros Usenet.
W3 Search Engines clasifica los servicios a los que ofrece conexión. Así nos encontramos con:
– meta-índices basados en listas: Infoseek, CUI, Global Network y Aliweb
– índices basados en arañas o robots: Webcrawler, RBSe’s URI Database, Nikos, Jumpstation II, WWW Worm
– otros catálogos: Lycos, Veronica, Einet Galaxy, Veronica por Einet Galaxy, Jughead, Wais, Thesaurus Search.
Por su parte, la conexión con Cusi permite el acceso a un número similar de índices, y a otros servicios como:
– People: Netfind Gopher, Internet Domains, UFN Search
– documentos, diccionarios especializados, tesauros…

Conclusiones
Estamos observando con qué rapidez un fenómeno que surgió como un proyecto experimental se esta convirtiendo en algo cotidiano. Constantemente aparecen nuevos sistemas de búsqueda en Internet, y cada vez usan métodos más complejos para realizar esas búsquedas.

Probablemente, más adelante, se emplearán con más frecuencia sistemas basados en inteligencia artificial, lógica difusa, modelos vectoriales o sistemas multimedia. Sin ir más lejos, desde hace algún tiempo se están realizando trabajos sobre la aplicación de sistemas neuronales a procedimientos de recuperación de información en Internet.

Otra cosa que dice no solo la lógica sino también la realidad es que el futuro de estas herramientas irá acompañado de la frase «la información cuesta», y su traducción más dura: «el que quiera consultar este índice tendrá que pagar.

Sitios para localizar información en la Red

Aliweb: http://web.nexor.co.uk/public/aliweb/search/doc/from.html
Alta Vista: http://www.altavista.digital.com
Commercial Sites Index: http://www.directory.net/dir/search.cgi
Cui W3 Catalog: http://cuiwww.unige.ch/w3catalog
Cusi: http://pubweb.nexor.co.uk/public/cusi/cusi.html
Einet Galaxy: http://galaxy.einet.net/search.htm
Excite Netsearch: http://www.excite.com
GNA Meta Library: http://uu-gna.mit.edu:8001/cgi-bin/meta
Harvest: http://rd.cs.colorado.edu/harvest/brokers/cih
InfoMarket: http://www.infomkt.ibm.com
Infoseek: http://www.infoseek.com
Inktomi: http://inktomi.berkley.edu/ query.html
ISO: http://www.iso.ch/cate/cate.html
Jumpstation II: http://js.stir.ac.uk/jsbinljsii
Lycos: http://two.sry.lycos.com
McKinley: http://www.mckinley.com
Mibi: http://www3.uniovi.es/vicest/mibi
Nikos: http://www.rns.com/cgi-bin/nikos
NlightN: http://www.nlightn.com
Planet Earth: http://www.nosc.mil/planet_earth/info.html
PLWeb: http://www.pls.com
Spry Internet Wizard: http://www.spry.com/wizard/index.html
Savvy Search: http://rampal.cs.colstate.edu
The Open Text Index: http://www.opentext.com
Tribal Voice Search: http://www.tribal.com
Virtual Yellow Pages: http://www.vyp.com
W3 Search Engines: http://cuiwww.unige.ch/meta-index.html
Wandex: http://www.nelgen.com/cgi/wandex
Webcrawler: http://www.webcrawler.com
WWWWorm: http://www.cs.colorado.edu/home/mcbryan/wwww.html
Yahoo: http://www.yahoo.com

—

Esta información se publicó en la revista Information World en Español (IWE), n. 40, diciembre de 1995-enero de 1996, pp. 18, 20-23.

Volver el índice de este número 40:
https://www.scimagoepi.com/information-world-en-espanol-iwe-numero-40-diciembre-de-1995-enero-de-1996

Volver a la página principal de Information World en Español (IWE):
https://www.scimagoepi.com/information-world-en-espanol-iwe

Índices para realizar búsquedas en Internet

ACERCA DE LA EDITORIAL