El 97% de los archivos llms.txt no recibieron solicitudes, según muestran los datos de Ahrefs

- Advertisement -spot_img

Ahrefs analizó registros de 137.000 dominios y encontró que el 97% de los archivos llms.txt no recibieron ninguna solicitud. Ni robots ni humanos.

El análisis utilizó datos de Ahrefs para identificar los agentes de usuario que buscaban archivos. Alrededor del 28% de los 137.000 dominios publican un archivo llms.txt, pero como los clientes de Ahrefs son más técnicos, la adopción real en la web en general probablemente sea menor.

De aproximadamente 38.000 dominios con archivos válidos, sólo unos 1.100 recibieron tráfico.

De los archivos con solicitudes, el 96% provino de bots, en su mayoría sin IA. Los robots de recuperación de IA vinculados a ChatGPT y Perplexity representaron el 1%.

Quién recupera los archivos llms.txt

Las herramientas de auditoría SEO tuvieron un 21% de solicitudes, luego los bots no identificados (14%), los rastreadores web como Googlebot (13%) y las herramientas de creación de perfiles tecnológicos como BuildWith (11%).

Los robots de IA, en cuatro categorías, representaron el 19% de las solicitudes. La IA es el segmento más grande, pero el desglose difiere de las expectativas de la mayoría de los defensores de llms.txt.

Los agentes codificadores enviaron el 10% de las solicitudes, los rastreadores de capacitación el 5% y los asistentes el 2%. Claude-Code y GPTBot fueron los principales bots individuales.

Solo Slackbot obtuvo archivos llms.txt con más frecuencia que PerplexityBot.

La industria se estudia a sí misma

El informe encontró que el 12% de las solicitudes provienen de herramientas que auditan, escanean o estudian archivos llms.txt en lugar de utilizarlos.

Las herramientas de preparación GEO y OEA enviaron el 5% de las solicitudes; Los escáneres y validadores dedicados enviaron el 3%, más que los robots y asistentes de recuperación de IA combinados. Los robots de investigación enviaron el 2%, y el rastreador de investigación más grande se identificó como una encuesta de inyección rápida.

Leer  Declaraciones de misión y visión de una agencia de marketing digital inspiradora

Se ha desarrollado un ecosistema en torno a la puntuación y catalogación de un formato de archivo antes de que aparezca una audiencia significativa.

Ningún robot de IA busca archivos que no existen

Las solicitudes de rutas /llms.txt con errores 404 no generaron tráfico de IA. Los humanos que acceden a esos 404 parecen ser personas que escriben la URL en los navegadores, probablemente comprobando a los competidores.

La auditoría de Chrome Lighthouse llms.txt, que reavivó el debate sobre llms.txt en mayo, generó alrededor de 22 solicitudes en todo el conjunto de datos, aproximadamente 1 de cada 1.000.

Por qué esto importa

Los datos coinciden con lo que John Mueller de Google ha dicho sobre llms.txt durante más de un año. Lily Ray presionó a Mueller sobre la brecha entre el despido de la Búsqueda de Google y la auditoría Lighthouse de Chrome. Dijo que llms.txt “no está hecho para búsquedas” y lo llamó una “muleta temporal, tal vez para guardar algunos tokens” para las herramientas de codificación de IA.

Los datos muestran que la audiencia del archivo son agentes de codificación y rastreadores de entrenamiento, no robots de búsqueda y recuperación de IA que generarían citas.

En mayo informamos sobre la división entre la documentación de la Búsqueda de Google y Lighthouse. El análisis anterior de SE Ranking de 300.000 dominios no mostró ninguna conexión entre tener llms.txt y la frecuencia de citas de IA. Los datos de Ahrefs apuntan a una posible razón: los bots más directamente relacionados con la recuperación de IA en vivo apenas solicitaron estos archivos en mayo.

Leer  Los investigadores de Google mejoran el trapo con señal de "contexto suficiente"

Mirando hacia el futuro

Vale la pena observar el rápido hallazgo de la inyección. Ahrefs encontró un rastreador que estudiaba llms.txt como un riesgo de inyección rápida, ya que los agentes confían en el contenido ingerido. Los sitios que generan automáticamente estos archivos a través de CMS deben revisar su contenido.

Cada cifra contenida en este informe es un límite. Ahrefs midió las solicitudes, no si los bots actuaron en función de lo que obtuvieron.


Imagen destacada: decoración/Shutterstock

spot_img
spot_img

Artículos relacionados

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Artículos populares