Reuters y Time ahora bloquean de forma predeterminada los robots de IA, permitiendo que solo los rastreadores aprobados pasen por las listas permitidas, informa Digiday.
Ambas editoriales tomaron la decisión en mayo, uniéndose a People Inc. y The Atlantic, que adoptaron configuraciones similares el año pasado.
Reuters dice que el cambio no le ha costado tráfico, aunque ha reducido lo que gasta en servicio de bots. Los ejecutivos atribuyen la fricción adicional a ayudar a impulsar a las empresas de IA hacia conversaciones sobre licencias.
Por qué las listas de bloqueo no eran suficientes
Robots.txt sólo funciona cuando los rastreadores deciden respetarlo. Digiday citó un informe de Tollbit que encontró que el 30% del total de robots de IA no cumplían con los permisos explícitos de robots.txt.
El bloqueo en otros niveles todavía tiene fuerza, afirman los ejecutivos. Los raspadores que rodean los bloques pagan por las soluciones alternativas, y ese gasto es el punto.
Una lista de bloqueo solo detecta los bots que un editor puede nombrar. People Inc. se enteró de que cambiar a una lista de permitidos aumentó la cantidad de agentes de usuario que bloqueó de aproximadamente 2.100 a más de 30.000. Lindsay Van Kirk, vicepresidenta senior de innovación, compartió las cifras en un evento del IAB Tech Lab a finales de mayo.
Esa escala coincide con lo que los datos de robots.txt han mostrado durante meses. Un análisis de BuzzStream que cubrimos en enero encontró que el 79% de los principales editores de noticias bloquean al menos un robot de entrenamiento de IA. La documentación del rastreador de Anthropic ahora advierte a los editores sobre el costo de visibilidad de bloquear su robot de búsqueda. En el Reino Unido, un nuevo requisito de conducta exige que Google permita que los sitios web opten por no utilizar las funciones de búsqueda de IA.
Cómo deciden los editores qué bots permitir
El bloqueo de forma predeterminada, una configuración a veces llamada denegación predeterminada, cambia la decisión de qué bots bloquear a qué bots dejar entrar.
Reuters aprueba un bot cuando ofrece un “intercambio de valor justo”, dijo a Digiday el jefe de Reuters Professional, Josh London. Ese intercambio cubre cuatro tipos de valor. Un bot puede pagar por el contenido mediante licencias, devolver el tráfico, mantener el sitio en funcionamiento o respaldar la monetización.
El resultado es visible en el archivo robots.txt de Reuters en vivo. Enumera los rastreadores aprobados de Amazon, Google, Bing/Microsoft, Yahoo y OpenAI, luego no permite otros bots de la mayor parte del sitio.
Por qué esto importa
El acceso del rastreador ha funcionado de la misma manera desde que se creó robots.txt. Todos los robots entran a menos que un editor los nombre y los bloquee.
Ahora Reuters y Time están revirtiendo ese incumplimiento, y las cifras de People Inc. muestran por qué. No puedes bloquear un bot del que nunca has oído hablar.
Sin embargo, el bloqueo tiene costos. Si bloquea un rastreador, perderá todo lo que estaba devolviendo, como la visibilidad de la búsqueda de IA o el tráfico de referencia. Es por eso que ambos editores preguntan qué les da cada bot antes de dejarlo entrar. Es una pregunta que vale la pena plantearse sobre su propio archivo robots.txt.
Mirando hacia el futuro
Los editores apuestan a que la unión hace la fuerza. Un sitio que bloquea los robots de IA es fácil de ignorar. La Coalición SPUR está creando estándares compartidos para la concesión de licencias y el uso de contenidos. Creció a 36 organizaciones este mes después de agregar 30 miembros. Es más difícil descartar que treinta y seis editores bloqueen juntos que uno solo.
Lo que no está tan claro es para quién funciona. Reuters llegó a la mesa con un negocio de noticias y acuerdos de licencia ya firmados. Los editores más pequeños enfrentan la misma elección sin esa influencia. Pueden bloquear, pero bloquear cuesta visibilidad a la IA y no garantiza que alguien se presente para negociar.
En un análisis profundo que escribí hace unos meses, descubrí que los grupos de pagos siguen siendo pequeños en relación con los ingresos por búsquedas tradicionales. Si los acuerdos sólo llegan para los nombres más importantes, la denegación por defecto podría seguir siendo una herramienta para los grandes editores.
Imagen de portada: Grenar/Shutterstock

