Las reglas del rastreador de IA de Cloudflare pueden bloquear el robot de Google

- Advertisement -spot_img

Cloudflare está actualizando su método para identificar y bloquear rastreadores de IA, lo que puede provocar que el robot de Google sea bloqueado en sitios que impiden el entrenamiento de IA. La compañía anunció la actualización como parte de su segundo Día de la Independencia del Contenido.

Los nuevos controles permiten a los sitios web gestionar el tráfico automatizado en función de tres comportamientos en lugar de un único interruptor de “bloquear robots de IA”. Ya están disponibles para todos los clientes, incluido el nivel gratuito. Un conjunto separado de cambios predeterminados entrará en vigor el 15 de septiembre.

Tres formas de clasificar los rastreadores de IA

Cloudflare ahora clasifica a los rastreadores según lo que hacen en un sitio en lugar de si cuentan como “IA”. La empresa divide los casos de uso de IA en tres categorías:

  • La búsqueda indexa un sitio para responder preguntas más adelante y Cloudflare vincula este comportamiento con el tráfico de referencia.
  • Agente, bots en tiempo real que actúan para una persona, como ChatGPT-User o agentes de navegador como Gemini o Claude que operan Chrome.
  • Entrenamiento, rastreo que extrae contenido para entrenar o ajustar un modelo.

Cloudflare dice que los operadores de bots deberían ejecutar rastreadores separados para cada comportamiento para que los sitios web puedan ver por qué está visitando un bot y decidir si permitirlo o bloquearlo.

Qué cambia el 15 de septiembre

Dos cambios predeterminados entrarán en vigor el 15 de septiembre. Para los nuevos clientes y los nuevos sitios para clientes existentes, los rastreadores de Capacitación y Agentes se bloquearán de manera predeterminada en las páginas que muestran anuncios, mientras que la Búsqueda permanecerá permitida. El comunicado de prensa de Cloudflare también dice que los clientes gratuitos existentes que no hayan cambiado su configuración antes del 15 de septiembre serán trasladados a estos valores predeterminados.

Leer  AI-SEO es un problema de gestión del cambio

El segundo cambio va aún más allá. Cloudflare comenzará a tratar a los rastreadores multipropósito en función de su comportamiento general, aplicando la regla más estricta aplicable. Por ejemplo, un rastreador que realiza búsqueda y capacitación será bloqueado si un sitio bloquea la capacitación. Cloudflare utiliza Googlebot, Applebot y Bingbot como ejemplos, ya que cada uno rastrea tanto para búsqueda como para entrenamiento de IA. Si un sitio ya ha habilitado la configuración anterior “Bloquear bots de IA”, estará cubierto por esta nueva regla.

Si desea conservar esos rastreadores, puede revisar o cambiar esta configuración en su panel de Cloudflare en cualquier momento antes del 15 de septiembre. Cloudflare dice que continuará notificando a los clientes antes de la fecha.

Nuevas señales sobre cómo los bots utilizan el contenido

Cloudflare también está probando una señal de uso de contenido que extiende las señales de contenido en robots.txt. Lleva tres valores, de mayor a menor restrictivo: inmediato, que no almacena nada; referencia, que indexa y vincula y es el nuevo valor predeterminado; y completo, que resume y reproduce. Cloudflare dice que estos indican una preferencia y no se bloquean por sí solos.

La empresa ha revisado la definición de “Verificado” para bots. Ahora bien, un bot verificado no se permite automáticamente en todas partes; en cambio, su acceso depende de su categoría. Además, los bots que replican el contenido en su totalidad no son elegibles para la verificación. Cloudflare introdujo un directorio de búsqueda, BotBase, para los usuarios de Enterprise Bot Management, que muestra la clasificación de cada bot rastreado y una identificación de detección copiable para las reglas de seguridad.

Leer  Google muestra cómo comprobar la indexación de pasajes

El informe detrás de los cambios

La actualización llegó con un informe de Cloudflare que marca el primer aniversario del primer Día de la Independencia del Contenido. Según el informe, el entrenamiento de IA representa ahora la mayoría de las solicitudes de rastreadores en su red, un aumento desde aproximadamente el 20% en la primavera de 2025. También señala que las solicitudes diarias de agentes de IA aumentaron en más de un 1,700% durante el año. Estas estadísticas se basan en el tráfico de red de Cloudflare y no representan toda la web.

Por qué esto importa

La regla del 15 de septiembre vincula los bloques de entrenamiento de IA con el rastreo de búsquedas en la red de Cloudflare. Si un sitio bloquea Training para proteger su contenido de los modelos de IA, también podría bloquear involuntariamente a Googlebot, ya que un bloque de Cloudflare opera a nivel de red, lo que hace que sea más difícil de eludir que una simple línea robots.txt que Google puede ignorar ya que un bloque de Cloudflare opera a nivel de red, ya que robots.txt es una instrucción de asesoramiento para los rastreadores. Perder el acceso del robot de Google significa que el sitio no se rastreará con tanta eficacia, lo que eventualmente podría afectar su visibilidad en los resultados de búsqueda.

He seguido a los editores que pasaron a configuraciones de denegación predeterminadas y bloquearon tanto la recuperación como la capacitación. robots terminados el año pasado. La exposición es la misma cada vez. Bloquear la capa de entrenamiento también puede bloquear la capa de búsqueda que mantiene un sitio localizable.

Leer  Sociable: Meta lanza reserva integrada para anuncios principales

Mirando hacia el futuro

Los sitios web que utilizan Cloudflare deben revisar su configuración de bloqueo de IA antes del 15 de septiembre y decidir si mantienen habilitados los rastreadores de búsqueda. La regla del rastreador combinado afecta principalmente a aquellos que activaron “Bloquear robots de IA” anteriormente y no han ajustado su configuración desde entonces. Los usuarios gratuitos que no cambien su configuración la actualizarán a los nuevos valores predeterminados en esa fecha.

Cloudflare quiere que los operadores de rastreadores de propósito mixto separe esos bots por comportamiento durante el próximo año. El hecho de que los principales operadores diferencien sus bots por su comportamiento determinará si esto se convierte en una elección real, en lugar de un compromiso entre bloquear el entrenamiento de IA y mantener la visibilidad de la búsqueda.


Imagen destacada: prensa de jack/Shutterstock

spot_img
spot_img

Artículos relacionados

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Artículos populares