El scraping también es empleado para apoyar una variedad de ataques cibernéticos, incluyendo la extracción de datos confidenciales y distribución de malware. Casi la mitad del web scraping en 2021 se utilizó para reforzar las estrategias de comercio electrónico. Existen productos en el mercado que ayudan a detectar y mitigar los scrapers evasivos que roban contenido con fines maliciosos.
Akamai Technologies destaca la popularidad que está ganando la industria del web scraping y las consecuencias que conlleva. El también llamado raspado web, se ha convertido en una herramienta para recopilar datos y, a su vez, obtener una ventaja competitiva con la ayuda de la inteligencia empresarial. En 2021 casi la mitad del web scraping se utilizó para reforzar las estrategias de comercio electrónico. Sin embargo, el web scraping malintencionado extrae datos sin el permiso de los propietarios de los sitios web lo que resulta en un peligro. Es importante mencionar que la misma estrategia se mantuvo en los años siguientes.
El web scraping emplea bots para extraer los datos que se encuentran en las páginas web, a menudo sin permiso; suelen utilizar la inteligencia artificial para buscar datos específicos en una página, copiándolos para utilizarlos en software de análisis. Entre las herramientas comunes de web scraping se incluyen Bright Data, Scrape.do, Diffbot y Scrapy, un marco de trabajo de código abierto y de colaboración para el web scraping.
Helder Ferrão, Director Estratega de Industria para Latinoamérica de Akamai Technologies, afirmó que los robots scraper son una parte fundamental y, a menudo, productiva del ecosistema comercial. Estos robots buscan contenido nuevo, destacan productos en sitios de comparación y recopilan información actualizada sobre artículos para después compartir con los clientes. Los casos de uso de los scrapers web incluyen empresas de comercio electrónico que realizan un seguimiento de los precios de sus competidores, agencias gubernamentales que hacen investigaciones laborales o empresas que llevan a cabo investigaciones de mercado.
Desafortunadamente el scraping se puede utilizar para apoyar una variedad de ataques cibernéticos, incluyendo la extracción de datos confidenciales, distribución de malware haciendo uso de enlaces o archivos adjuntos, además de ataques de denegación de servicio que pueden provocar la interrupción de un sitio web o aplicación.
«El scraping de contenido causa graves daños a las empresas», opinó el directivo de Akamai, quien puntualizó que para obtener una ventaja, un proveedor puede usar un bot para raspar continuamente los sitios web de sus competidores y actualizar casi instantáneamente sus propios precios en consecuencia. Estas técnicas, combinadas con las de robo de audiencia, pueden causar graves problemas a las empresas de comercio electrónico, por ejemplo. Otra forma de web scraping malicioso es el over-scraping, donde se envían excesivas solicitudes en un corto período de tiempo. Esto puede sobrecargar los servidores del sitio web, afectando negativamente a su rendimiento y a la experiencia de los usuarios legítimos.
“Los scrapers también hacen ping (se utiliza para medir la latencia o tiempo que tardan en comunicarse dos puntos remotos) a los sitios las 24 horas del día, los 7 días de la semana, lo que puede degradar el rendimiento del sitio, frustrando a los consumidores y llevándolos a abandonar sus visitas. Además, los scrapers se han vuelto mucho más evasivos y sofisticados en los últimos años”, aseveró Helder Ferrão.
El proceso de compra del cliente tiene que ser placentero, como si lo estuviera efectuando en una tienda física. Un sitio web que no es responsivo, carga lento, tiene imágenes de mala calidad o la información que presenta es poco precisa, es una web que no concretará ventas como debería. Se estima que la tasa media de abandono del carrito de compras del comercio electrónico es del 70,19%.
Soluciones contra el scraping malicioso
Existen productos en el mercado que ayudan a detectar y mitigar los scrapers evasivos que roban contenido con fines maliciosos; están diseñados para empresas que necesitan proteger su propiedad intelectual, su reputación y su potencial de ingresos. Entre las principales características de estas soluciones se encuentran:
Evaluación a nivel de protocolo
La huella digital del protocolo evalúa cómo el cliente establece la conexión con el servidor en las diferentes capas del modelo de interconexión de sistemas abiertos (OSI), verificando que los parámetros negociados se alinean con los esperados de los navegadores web y dispositivos móviles más comunes.
Evaluación a nivel de aplicación
Evalúa si el cliente puede ejecutar alguna lógica empresarial escrita en JavaScript. Cuando el cliente ejecuta JavaScript, recopila las características del dispositivo y del navegador y las preferencias del usuario. Estos datos se comparan y cotejan con los datos a nivel de protocolo para verificar la coherencia.
Interacción del usuario
Analiza la interacción humana con el cliente a través de periféricos estándar como una pantalla táctil, teclado y mouse. La falta de interacción o la interacción anormal generalmente se asocia con el tráfico de bots.
Comportamiento del usuario
Monitoriza el recorrido del usuario a través del sitio web. Las botnets suelen perseguir contenido específico, lo que da como resultado un comportamiento significativamente diferente al del tráfico legítimo.
Clasificación de riesgo
Proporciona una clasificación del tráfico de riesgo bajo, medio o alto determinista y procesable, basada en las anomalías encontradas durante la evaluación.
Adicional a la implementación de una herramienta anti-scraping, el directivo de Akamai sugirió tomar una serie de medidas adicionales para prevenir el scraping ya sea a través de navegadores que ayuden a protegerse del raspado web, usar una red privada virtual (VPN) para ocultar la dirección IP, evitar compartir datos personales en línea, hacer clic en enlaces de fuentes desconocidas, no usar la misma contraseña para todos los sitios web, activar la autenticación de dos factores, entre otras acciones.