Mueller de Google dice que llms.txt no puede ayudar a los LLM a diferenciar los sitios

- Advertisement -spot_img

John Mueller de Google argumentó que los sistemas LLM no pueden usar archivos como llms.txt para decidir qué sitios web mostrar para una consulta determinada.

Hizo los comentarios en un episodio reciente de Search Off the Record, el podcast del equipo de Relaciones de Búsqueda de Google.

Su comentario apunta a un problema de señal más amplio, no sólo al juego intencional. Incluso un archivo llms.txt bien escrito sigue siendo información proporcionada por el sitio que desea ser elegido.

Para descubrirlo, Mueller remitió a páginas HTML normales y enlaces internos.

Lo que dijo Mueller

La conversación comenzó con una pregunta sobre si los editores deberían convertir los sitios web a Markdown para LLM. Mueller y el coanfitrión Martin Splitt coincidieron en que HTML sigue siendo la base para el rastreo y el descubrimiento.

La discusión se volvió específica cuando Mueller recurrió a llms.txt. Describió el caso de uso del descubrimiento como un callejón sin salida:

“Básicamente, les estás diciendo a estos sistemas que tengo el mejor sitio web de todos los tiempos. Y aquí están todas las páginas a las que todos deben ir. Y debes comprar todos mis productos o lo que sea que pongas allí. Entonces, en el sistema LLM, básicamente, por diseño, no se puede confiar en lo que hay aquí como forma de diferenciar entre diferentes sitios web”.

Su argumento se reduce a diferenciar. Si los sitios utilizan llms.txt para promocionarse, los archivos pueden hacer afirmaciones similares. Un LLM que decida qué sitio responde mejor a una consulta aún necesita otra forma de diferenciarlos.

Lo que podría significar “por diseño”

“Por diseño” podría significar dos cosas diferentes, y Mueller no aclaró cuál.

Leer  'No se puede ser aburrido': marcas al usar Snapchat como 'The Magic Spark' para llegar a la Generación Z

Una lectura es arquitectónica. Los sistemas LLM evalúan el contenido web y no pueden utilizar archivos autoinformados al seleccionar fuentes.

La otra lectura lo trata como un problema de señal. Las señales autoinformadas pierden valor cuando todos las proporcionan. Las metapalabras dejaron de funcionar por el mismo motivo. Todos los sitios los llenaban y los motores de búsqueda no podían extraer una señal de clasificación útil.

Ambas lecturas llegan a la misma conclusión sobre el descubrimiento. Pero implican cosas diferentes sobre si la limitación podría cambiar con el tiempo.

Donde Mueller ve un papel

Mueller no rechazó todos los usos de llms.txt. Destacó un caso en el que podría ayudar:

“Si alguien ya está en su sitio web, tal vez algún tipo de sistema automatizado sea útil”.

Usó el ejemplo de un agente que intenta comprar una fotografía de un sitio específico. El LLM visitaría el sitio y buscaría instrucciones sobre cómo completar la compra.

El argumento divide el descubrimiento de la navegación. llms.txt no puede ayudar a un LLM a elegir qué sitio visitar. Pero podría ayudar una vez que el agente ya esté allí, como un directorio de tiendas para alguien que ya entró.

Más allá del argumento del juego

Mueller ha calificado la creación de páginas Markdown para bots como “una idea estúpida”. También comparó llms.txt con la metaetiqueta de palabras clave.

Roger Montti, de SEJ, escribió que llms.txt es “intrínsecamente poco confiable” porque nada impide que los propietarios de sitios agreguen contenido de autoservicio. El análisis de SE Ranking de 300.000 dominios no encontró ningún vínculo entre la adopción de llms.txt y la frecuencia de citas en las respuestas de LLM.

Leer  Los editores estadounidenses exigen que el rastreo común deje de eliminar su contenido

Esos argumentos se centraron en lo que sucede cuando la gente manipula los archivos. El comentario del podcast de Mueller añade el matiz de que no existe ningún mecanismo dentro de los archivos para ayudar a un LLM a elegir un sitio sobre otro.

Por qué esto importa

El argumento del juego contra llms.txt siempre ha tenido un contraargumento disponible. Las plataformas podrían aprender a penalizar la manipulación, la forma en que los motores de búsqueda manejan los datos estructurados spam.

El argumento de la diferenciación plantea un problema más complicado. Penalizar la manipulación puede abordar el abuso, pero no explica cómo los archivos autoinformados ayudan a un LLM a elegir un sitio sobre otro. Su archivo llms.txt más preciso aún no puede decirle a un LLM que elija su sitio sobre el de la competencia.

Mirando hacia el futuro

Los estándares sobre cómo los agentes navegan por los sitios aún no se han establecido, reconoció Mueller. Mencionó WebMCP junto con otros tipos de archivos en discusión.

Ninguno se ha convertido en un estándar. Según sus estimaciones, los sistemas agentes podrían tardar entre seis meses y un año, o más, en adoptar un formato. La capa de descubrimiento, donde HTML y los enlaces internos ya funcionan, no forma parte de esa discusión.

spot_img
spot_img

Artículos relacionados

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Artículos populares