Rastreador web

Fiabilidad

¿Qué significa rastreador web?

Un rastreador web es un robot de internet que ayuda a indexar la web. Rastrean una página a la vez a través de un sitio web hasta que todas las páginas han sido indexadas.

Los rastreadores web ayudan a recopilar información sobre un sitio web y los enlaces relacionados con él, y también ayudan a validar el código HTML y los hipervínculos.

Un rastreador web también se conoce como araña web, indexador automático o simplemente rastreador.

Definición de rastreador web

Las arañas web recopilan información como la URL del sitio web, la información de la metaetiqueta, el contenido de la página web, los enlaces de la página web y los destinos que conducen desde esos enlaces, el título de la página web y cualquier otra información relevante.

Realizan un seguimiento de las URL que ya se han descargado para evitar volver a descargar la misma página. Una combinación de políticas como la política de re-visita, la política de selección, la política de paralelización y la política de cortesía determina el comportamiento del rastreador Web.

Los rastreadores web se enfrentan a muchos retos, como la World Wide Web, amplia y en continua evolución, los equilibrios en la selección de contenidos, las obligaciones sociales y el trato con los adversarios.

Los rastreadores web son los componentes clave de los motores de búsqueda web y de los sistemas que examinan las páginas web. Ayudan a indexar las entradas de la Web y permiten a los usuarios enviar consultas al índice y también proporcionan las páginas web que coinciden con las consultas.

Otro uso de los rastreadores web es el archivo web, que consiste en recopilar y archivar periódicamente grandes conjuntos de páginas web. Los rastreadores Web también se utilizan en la minería de datos, en la que se analizan las páginas en busca de diferentes propiedades, como estadísticas, y luego se realizan análisis de datos sobre ellas.

Temas relacionados

Margaret Rouse
Technology expert
Margaret Rouse
Experta en tecnología

Margaret Rouse es una galardonada escritora técnica y profesora conocida por su habilidad para explicar temas técnicos complejos a una audiencia de negocios no técnica. Durante los últimos veinte años, sus explicaciones han aparecido en sitios web de TechTarget y ha sido citada como autoridad en artículos del New York Times, Time Magazine, USA Today, ZDNet, PC Magazine y Discovery Magazine. La idea de diversión de Margaret es ayudar a profesionales de TI y negocios a aprender a hablar los idiomas altamente especializados de cada uno. Si tienes una sugerencia para una nueva definición o cómo mejorar una explicación técnica,…