Google expone el defecto fundamental de LLMs.txt

- Advertisement -spot_img

John Mueller y Martin Splitt de Google hablaron sobre LLMs.txt y Markdown, y Mueller ofreció un hecho sorprendente sobre el propósito original de LLMs.txt y también explicó por qué los estándares propuestos tienen graves deficiencias.

Qué es el descubrimiento y por qué es importante

En el contexto de la recuperación de información (búsqueda), el descubrimiento se trata de que un motor de búsqueda descubra que existe una página web específica. El descubrimiento es parte de la arquitectura general del motor de búsqueda.

Arquitectura del motor de búsqueda:

  1. Descubrimiento
    Descubrir la URL (agregarla al rastreo).
  2. Arrastrándose
    Descarga y análisis del contenido.
  3. Indexación
    El proceso de analizar los datos sin procesar y almacenarlos en una base de datos estructurada optimizada para su recuperación.
  4. Categoría
    La parte que interesa a todos.
  5. Servicio
    Este es el último paso que consiste en mostrar las páginas web clasificadas en los resultados de búsqueda.

Lo anterior es una descripción general simplificada de lo que es la búsqueda y el descubrimiento es la primera parte del proceso que finalmente termina con la clasificación y la publicación de enlaces a sitios web.

La conclusión aquí es que el descubrimiento es una parte fundamental para poner una página web en cola para su rastreo, indexación, clasificación y, finalmente, mostrada en los resultados de búsqueda. Sin Discovery una página web es invisible.

He aquí por qué esto es importante: Discovery no forma parte del estándar LLMs.txt propuesto. usar

Intención original de LLMs.txt

John Mueller dijo que conoció a una de las personas responsables de crear la propuesta LLMs.txt y dijo que el creador explicó que LLMs.txt nunca tuvo como objetivo hacer que un sitio fuera reconocible, nunca tuvo la intención de ser parte de ese proceso.

Este es un punto importante porque muchos propietarios de sitios dedican tiempo, dinero y esfuerzo a generar LLM.txt con el fin de ser descubiertos y clasificados en los LLM. Eso significa que la razón por la que la gente usa LLMs.txt está en conflicto con el propósito real de LLMs.txt, que no tiene nada que ver con Discovery.

Leer  Los hechos sobre las señales de clic, las clasificaciones y el SEO de Google

Mueller explicó:

“Creo que hablé con una de las personas que creó esa propuesta hace un tiempo. Y la idea realmente no era crear algo que facilitara a los motores de búsqueda o sistemas LLM descubrir todo su contenido, sino casi más que si un LLM ya conoce su sitio y quiere saber qué más hay aquí, entonces ese podría ser un enfoque.

Y creo que el aspecto de usar esto como una forma de optimizar el descubrimiento mediante sistemas de inteligencia artificial o el descubrimiento mediante sistemas de búsqueda no tiene ningún sentido en absoluto”.

Mueller explicó a continuación que muchas personas están utilizando LLMs.txt con la esperanza de ayudar en el proceso de Discovery a pesar de que ese no es el propósito de LLMs.txt.

Luego pasó al hecho de que los LLM.txt son inherentemente poco confiables porque es el propietario de un sitio quien dice de qué trata el contenido de su sitio, que puede coincidir o no con lo que hay en el HTML real.

Continuó:

“Porque básicamente le estás diciendo a estos sistemas: Tengo el mejor sitio web de todos los tiempos. Y aquí están todas las páginas a las que todos deben ir. Y deben comprar todos mis productos o lo que sea que pongan allí.

Entonces, en un sistema LLM,… básicamente, por diseño, no se puede confiar en lo que hay aquí como una forma de diferenciar entre diferentes sitios web”.

Instrucciones agentes

Mueller luego dice que algunas de estas propuestas de estándares podrían ser útiles para ayudar a un agente de IA, lo que parece que tal vez esté hablando del Protocolo de contexto de modelo web (WebMCP).

Leer  Google responde por qué la página de destino se clasifica para una consulta de comercio electrónico

Él explicó:

“Si alguien ya está en su sitio web, tal vez algún tipo de sistema automatizado sea útil. ¿Adónde va? Quiero ir a Martin’s Splitt y comprar una fotografía, luego el sistema LLM puede ir a su sitio web y puede mirar a su alrededor, por ejemplo, ¿cómo se compra una fotografía? Tal vez él tenga algunas pautas para mí como agente para la compra de fotografías. Eso tiene sentido.

Pero salir y decir, quiero comprar una fotografía, qué sitio web tiene una, el sistema no va a ir a tu sitio web y a otros cinco y decir, ¿quién tiene alguna información automatizada? Más bien, están intentando, intentarán encontrar el mejor sitio web…”

LLMs.txt no se trata de ser descubierto por la IA

Mueller volvió a mencionar cómo la gente está malinterpretando los LLM.txt como una forma de ser descubiertos por los sistemas de inteligencia artificial.

Razonó sobre este punto:

“Creo que desde ese punto de vista, optimizar como una forma de ser descubierto, no tiene sentido.

Pero, ¿qué sucede cuando un agente está en su sitio web? Creo que, en general, también parece ser un área abierta de discusión en este momento, ya que existe LLMs.txt como propuesta. Hay diferentes archivos JSON y tipos de archivos conocidos que están en discusión.

Está WebMCP, que creo que intenta hacer algo similar, donde dicen, bueno, ahora estás en esta página, pero tenemos una interfaz programática para esto, agregamos una URL específica o un mecanismo específico.

Creo que entonces son discusiones casi diferentes”.

El descubrimiento y la clasificación todavía están ligados al HTML

Mueller completó su pensamiento subrayando el hecho de que Discovery está en el nivel HTML.

Él explicó:

“Entonces, el ángulo genérico de SEO sobre cómo encontrar un sitio web que me venda una fotografía estará casi completamente vinculado a las páginas HTML y a las páginas web normales.

Y luego, si un usuario decide recurrir a un servicio específico, dentro de ese servicio hay un poco más de espacio para tal vez ayudar a un agente o un sistema LLM a encontrar el enfoque correcto.

Pero lo interesante, por supuesto, son muchas ideas. Y ninguno de estos se ha cristalizado básicamente como algo que todos usarán. Así que estoy seguro de que durante el próximo, no sé, medio año, año o tal vez más, tomará un poco. Y algunos de estos sistemas agentes se van a unificar en torno a algún tipo de archivo o mecanismo estándar o algo así”.

Mueller no estaba impulsando el estándar WebMCP, pero si los agentes de IA se convierten en una forma en que los usuarios interactúan con los sitios web, entonces será algo como WebMCP y no LLMs.txt lo que será útil para los sitios web, particularmente para los sitios de comercio electrónico.

Leer  Duckduckgo agrega la opción para filtrar imágenes generadas por AI

WebMCP es naturalmente la mejor opción para el comercio electrónico porque se enfoca en brindar a los agentes de IA capacidades procesables, como cómo filtrar productos, cómo buscar e identificar productos, ayuda a comparar diferentes productos y ayuda a la IA a agregar un producto a un carrito de compras.

Los agentes de IA pueden navegar utilizando el HTML del sitio web diseñado para humanos. WebMCP facilita que los agentes de IA interactúen con éxito con el sitio web, algo que LLMs.txt no hace.

Si bien ni LLMs.txt ni WebMCP ayudan a que la IA descubra un sitio web, ninguno de ellos fue creado para ese propósito. La parte de descubrimiento, la primera etapa para la clasificación, ocurre con HTML. Si ese es el caso, ¿cuál es tu próximo paso?

Escuche el episodio 111 de Search Off The Record de Google

Imagen destacada de Shutterstock/Master1305

spot_img
spot_img

Artículos relacionados

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Artículos populares