Herramientas de búsqueda de información en internet

Existen diferentes tipos de herramientas de búsqueda de información en Internet. Cada una de ellas funciona de una manera diferente y tiene su propio propósito y su alcance. Aquí nos referiremos a:

Buscadores

Metabuscadores

Directorios

Guías

Software especializado

Buscadores

Frecuencia de aparición en el documento de las palabras o frases solicitadas en la búsqueda.

Proximidad entre sí de las palabras o frases solicitadas.

Ubicación ,por campos, de las palabras o frases requeridas (Ejemplo: inicio del documento, título, texto)

Cantidad de veces que este documento figura en las referencias de otros documentos (es decir cantidad de enlaces a él )

Búsqueda simple

Búsqueda avanzada.

Ninguno de ellos realiza búsquedas en Google (al menos que pague por ello) o Northern Light (nunca). Google es la mejor base de datos de motores de búsqueda y Northern Light es muy importante desde el punto de vista académico.

Muchos de ellos pasan inadvertidamente las palabras clave de la búsqueda sin importar donde se haya colocado un + , un – ó comillas o NEAR, etc., . Es decir ofrecen muy pocas posibilidades de personalizar búsquedas.

Si la búsqueda no encuentra lo que se desea no hay posibilidades de refinarla. Todo lo que puede hacerse es agregar un término y esperar a ver donde el metabuscador lo está mandando, es decir los meta-buscadores no son buenas estrategias de búsquedas muy especializadas.

Ninguno de los metabuscadores consulta consistentemente todos los motores de búsqueda que se pretende consultar. Nunca se estará seguro de los motores de búsqueda consultados hasta que no se vean los resultados.

Son organizados en forma manual a partir del registro de sitios por parte de sus autores, y de un proceso posterior de selección y categorización jerarquizada por parte de los editores.

En este muro podéis encontrar un resumen de la información:
http://padlet.com/natachaceleste/yiipvhp6cme6

Se crearon con el fin de facilitar el manejo de la información que circula por la Web.
Un motor de búsqueda contiene una gran base de datos que es recopilada automáticamente por programas que exploran la red. También constan de un índice de las palabras que figuran en cada una de las páginas. Con dichos índices se realizan los apareamientos para dar los resultados de las búsquedas.

La recopilación automática de las páginas es realizada por "robots" (Web Crawlers) que exploran las red recorriendo los enlaces de las páginas. Por lo tanto, una página que no contuviera enlaces sería "invisible" al robot. Un Robot Web funciona del siguiente modo:
El Robot recibe una dirección URL, luego se conecta al Web correspondiente y realiza una solicitud de un determinado recurso (inicialmente es una pagina Web). En la pagina que devuelve el Servidor, el Robot chequea una etiquetas especiales que le indican si esa pagina puede ser indexada, es decir añadida a su base de datos y se le autoriza además a inspeccionar los enlaces que esa pagina contiene. Si consigue esa autorización, incorpora automáticamente a su base de datos todas las paginas HTML accesibles desde esta pagina. Realiza esta tarea recursivamente con todas las paginas a las que accede desde la inicial.

Hay diferentes modos de indexación que utilizan distintos robots y también varían según el motor de búsqueda. Algunos Robots indexan los títulos de las páginas HTML, otros indexan los primeros párrafos. Otro modo de indexación que últimamente se ha generalizado es la indexación de cierto grupo de palabras clave y una descripción de la página, pero que son indicados al Robot por el creador de la página. Esta indicación es una información oculta para el usuario. Incluso hay Robots que indexan la página HTML completa : son los llamados full-text.

Ya con los primeros Robots que fueron creados, se detectó que generaban sobrecarga en la Red, puesto que producían un tráfico importante de páginas Web solamente con el objeto de indexarlas. La solución a ello se plantea en dos ámbitos diferentes. Por un lado se otorga a los servidores Web la posibilidad de limitar el acceso a los Robots mediante "protocolos de exclusión de Robots" que básicamente impiden a éstos indexar ciertas partes del Web clasificando las páginas en visitables y no visitables, es decir aquellas a las que los Robots no tienen acceso. Esta clasificación se halla en una lista, bajo la forma de un archivo texto. El otro ámbito para el control de los Robots es la propia página HTML. En este sentido se otorga al propietario de dicha página un mecanismo para el control de acceso de los Robots a la misma. Este mecanismo se basa en la inclusión dentro de la página de etiquetas especiales: etiquetas Meta que indican al Robot si debe o no indexar la página y revisar los enlaces que contiene. A veces estas etiquetas también contienen una descripción textual de lo que debe mostrar el buscador cuando esta página aparezca en el resultado de la búsqueda.

Cuando se realiza una consulta a un buscador, mediante palabras-clave, la operación que este realiza es una búsqueda en su índice de sitios y contrasta la/s palabra/s clave con los términos indexados en su base de datos. La respuesta que estamos obteniendo, se refiere entonces no a la información que en ese momento está en la red sino a la porción de la red capturada por el buscador en un tiempo anterior. En cualquier caso, el resultado de la búsqueda es una lista ordenada de documentos. Ese orden está relacionado con un determinado puntaje (score) que el Robot asigna a los documentos encontrados . Los criterios para la puntuación o scoring también varían de un
buscador a otro. Algunos criterios son:

Hay dos tipos de búsqueda desde el punto de vista de las especificaciones que puede realizar el usuario:

Búsqueda simple: es la que se realiza con las palabras clave dadas al buscador.
Búsqueda avanzada: es aquella donde además de palabras o frases pueden usarse operadores lógicos como OR , AND, NOT AND.

Los resultados obtenidos por el buscador, son ordenados según algunos criterios, que se mencionan en el párrafo precedente.

Metabuscadores

En un metabuscador, se propone una palabra clave para búsqueda y esa búsqueda se transmite simultáneamente a varios motores de búsqueda individuales y a sus bases de datos de páginas Web. En unos pocos segundos se obtienen resultados de todos los motores de búsqueda consultados.
Los metabuscadores no tienen una base de datos propia. Ellos envían los términos de la búsqueda a las bases de datos mantenidas por otros motores de búsqueda.
Idealmente podría pensarse que los metabuscadores son una buena herramienta, que permiten ahorrar tiempo, pues el usuario busca sólo en un lugar y esa búsqueda se multiplica sin que sea necesario además aprender el funcionamiento de varios motores de búsqueda.
Sin embargo en la realidad los meta-buscadores ofrecen una rápida pero "sucia" aproximación a la búsqueda, pues no dan todas las respuestas obtenidas por los buscadores sino una selección de las mejores.
A continuación se señalan algunos aspectos negativos de los meta-buscadores:
Algunos metabuscadores ofrecen la posibilidad de elegir mediante un menú con cual buscador trabajar de entre una lista de ellos. Un criterio para determinar un buen metabuscador es en base a los buscadores que utiliza, es decir saber qué bases de datos accede. Además cómo ordena, selecciona y devuelve los resultados encontrados en los distintos motores de búsqueda.
Por lo tanto, su uso es recomendable para cuando queremos ampliar (en vez de restringir o especializar) la búsqueda. Sin embargo este aumento en la cantidad va en desmedro de la calidad.

Directorios

Los directorios, también denominados buscadores temáticos, organizan la información por medio de categorías y sub-categorías que registran las direcciones (URL) y una pequeña descripción de los diferentes sitios que han sido indexados.

Aunque no son muy populares entre el público de habla castellana son un gran recurso para obtener respuestas a preguntas complejas de todo tipo y perfectas para encontrar fuentes de información especializadas, aplicaciones y recursos.

En el mundo anglosajón están muy extendidas y funcionan muy bien.

Sin duda debes tenerlas entre tus herramientas de búsqueda de información en Internet.

Software especializado

Para mejorar las búsquedas en la Web puede utilizarse software especializado. Estos agentes auxiliares se instalan en nuestra PC y operan junto a los navegadores añadiéndoles ciertas funcionalidades, como el manejo de conceptos para la recuperación de la información. Un agente de búsqueda es un programa que, imitando el comportamiento de una persona y actuando de forma autónoma, recorre automáticamente internet aprovechando la estructura de enlaces de la web. Un agente de búsqueda puede recuperar un documento en particular, o utilizar algún algoritmo de búsqueda que permita recuperar distintos documentos de la web a los que se hace referencia en un documento fuente u origen, o conforme a unos criterios predefinidos anteriormente por sus usuarios.
Un agente de búsqueda puede realizar diversas funciones como:
- Realizar consultas con una velocidad y en un conjunto de fuentes mucho mayor que el posible para un usuario humano.
- Informar de las actualizaciones que se producen en los sitios web que son de interés.
- Agilizar las descargas que se realizan de internet.
- Eliminación de correo basura o spam
- Búsqueda de noticias conforme a las preferencias.

Ayudas y demás cosas

Buscar este blog