¿Qué significa scraping de contenidos?
El scraping de contenidos es una forma ilegal de robar contenido original de un sitio web legítimo y publicar el contenido robado en otro sitio sin el conocimiento o permiso del propietario del contenido. Los “raspadores” de contenidos a menudo intentan hacer pasar el contenido robado como propio, y no proporcionan la atribución a los propietarios del contenido.
El scraping de contenidos puede realizarse mediante copia y pega manual, o puede utilizar técnicas más sofisticadas, como el uso de software especial, programación HTTP o analizadores HTML o DOM.
Gran parte del contenido que cae presa del scraping es material protegido por derechos de autor; volver a publicarlo sin el permiso del propietario de los derechos de autor es un delito punible. Sin embargo, los sitios de scraping están alojados en todo el mundo, y los scraper a los que se les pide que retiren contenido protegido por derechos de autor pueden simplemente cambiar de dominio o desaparecer.
Definición de scraping de contenidos
Los “scrapers” de contenidos pueden atraer tráfico a sus sitios web extrayendo contenidos de alta calidad y con muchas palabras clave de otros sitios. Los blogueros son especialmente susceptibles a esto, probablemente porque es poco probable que los blogueros individuales lancen un ataque legal contra los raspadores. Se anima a los “scrapers” a continuar con esta práctica porque los motores de búsqueda aún no han encontrado una forma eficaz de filtrar el contenido único del contenido “scrapeado”, lo que permite a los “scrapers” seguir beneficiándose.
Los administradores de sitios web pueden protegerse contra el scraping con medidas sencillas, como añadir enlaces a su propio sitio dentro del contenido. Esto les permitirá, al menos, obtener algo de tráfico del contenido raspado. Entre los métodos más sofisticados para hacer frente al scraping por bots se incluyen:
- Aplicaciones comerciales anti-bot
- Atrapar bots con un honeypot y bloquear sus direcciones IP
- Bloqueo de bots con código JavaScript