La ciencia de cómo la IA elige sus fuentes

- Advertisement -spot_img

Mejore sus habilidades con los conocimientos expertos semanales de Growth Memo. ¡Suscríbete gratis!

En “La ciencia de cómo presta atención la IA”, analicé 1,2 millones de respuestas de ChatGPT para comprender exactamente cómo la IA lee una página. Esta es la Parte 2.

Donde te lo dijo la Parte 1 dónde en una pagina que mira la IA, esta te lo dice cual páginas que la IA considera habitualmente.

Los datos aclaran:

  • Por qué ~30 dominios poseen el 67% de las citas en cualquier tema.
  • La estructura de página que obtiene citas en más de 50 consultas distintas frente a la que se cita una vez.
  • Si la rampa de esquí de la Parte 1 es realmente más empinada o más plana en su vertical.
Crédito de la imagen: Kevin Indig

1. ~30 dominios poseen el 67% de las citas de IA por tema

La búsqueda clásica es un juego en el que el ganador se lo lleva todo. El primer resultado recibe desproporcionadamente más clics que el segundo. ¿Eso también es cierto para las respuestas de ChatGPT? ¿La distribución de los dominios citados es democrática o totalitaria?

Acercarse:

  1. Calcule el porcentaje de citas por dominio y por vertical.
  2. Calcule la participación acumulada capturada por el 10% superior de los dominios.
  3. Conjunto de datos: 21.482 filas de citas de ChatGPT, 670 dominios únicos, 2.344 URL únicas, 127 mensajes únicos.

Resultados: Los 10 dominios principales obtienen el 46% de todas las citas de un tema. Los 30 primeros se llevan el 67%.

Crédito de la imagen: Kevin Indig

Las citas de IA están ligeramente menos concentradas que la búsqueda orgánica tradicional, pero siguen siendo extremas:

  • Efectivamente, hay ~30 asientos (dominios) en la tabla de citas para cualquier tema determinado. Todo lo demás es casi invisible.
  • Ejemplo: storylane.io aparece como fuente citada en 102 indicaciones distintas (preguntas únicas formuladas sobre ChatGPT), reprise.com en 98. Aunque reprise.com tiene más citas totales (1369 frente a las 968 de storylane.io), storylane.io aparece en las respuestas a una gama más amplia de preguntas diferentes.

Confirmamos estos hallazgos en verticales de comparación de productos (herramientas SaaS, asesores financieros). Sin embargo, verá a continuación que el patrón es más débil en temas de atención médica y web abierta, donde ningún dominio domina. En particular, el sector educativo recibe la mayor cantidad de citas de IA de cualquier vertical que estudiemos.

Lo que mostraron los patrones de la industria

Los hallazgos anteriores provienen de verticales de comparación de productos (SaaS, asesores financieros), pero el patrón es más débil en temas de atención médica y web abierta, donde ningún dominio domina, y más fuerte en el sector educativo.

Crédito de la imagen: Kevin Indig

En la educación, el ganador se lleva la mayor parte: el 10 % de los dominios principales captan el 59,5 % de todas las citas.

  • Si aún no se encuentra entre los 5 y 10 principales dominios de educación, lograr una amplia variedad de citas es excepcionalmente difícil.
  • Solo tefl.org responde a 102 preguntas únicas y contiene el 18,75% de todas las citas sobre educación.

Las criptomonedas son las segundas más concentradas con un 43,0% para el 10% superior.

  • Un pequeño conjunto de documentación técnica y sitios de comparación (alchemy.com, quicknode.com, chainstack.com) dominan las consultas de infraestructura y RPC de Solana.
  • La naturaleza técnica de las consultas de Solana significa que existen pocas fuentes creíbles; una vez que un dominio gana confianza en este nicho, capta una gran parte.

Las finanzas se sitúan en el 29,4% del 10% superior.

  • La concentración es específica del tipo de consulta: las páginas de localización de asesores financieros (forfiduciary.com con 139 mensajes únicos, smartasset.com con 168 mensajes únicos) dominan las consultas de asesores a nivel de ciudad.
  • Pero la larga cola de consultas sobre productos financieros mantiene moderada la concentración total.

La atención sanitaria es la menos concentrada, con un 13,0% para el 10% superior.

  • Ningún dominio domina. Los nuevos participantes tienen un camino realista hacia el alcance de las citas.
  • La superficie de citas se distribuye en cientos de dominios, cada uno de los cuales cubre una pequeña porción de consultas de telesalud, cumplimiento de HIPAA y aplicaciones de atención médica.
Leer  Deja de intentar que Geo suceda

CRM/SaaS y HR Tech son igualmente difusos (16,1% y 14,4% del 10% superior).

  • Se trata de categorías de software de múltiples productos en las que docenas de sitios de comparación, plataformas de reseñas y páginas de proveedores dividen las citas.
  • Monday.com lidera CRM con solo el 2,88% de todas las citas (37 mensajes únicos). Un campo competitivo realmente abierto

Principales conclusiones

1. La amplitud de la cobertura de temas importa más que la autoridad del dominio. Una sola página de comparación bien estructurada (learn.g2.com: 65 mensajes únicos, 495 citas) aún puede superar a toda la cartera de dominios de una marca conocida. El objetivo no es clasificar para una consulta, sino responder a un grupo.

2. La concentración refleja la madurez de la categoría. La fragmentación es una oportunidad. La educación y las criptomonedas tienen espacios de consulta estrechos y bien definidos donde unas pocas fuentes autorizadas han confiado. La atención médica y el CRM son categorías amplias y fragmentadas donde ningún dominio domina. Esa fragmentación es tu apertura.

3. El alcance de las citas (el número de preguntas distintas que responde un dominio) es una métrica estratégica más útil que el recuento bruto de citas. En sectores verticales de baja concentración como atención médica y CRM, una estrategia enfocada de 30 a 50 páginas puede competir de manera realista por un lugar en la mesa. En verticales de alta concentración como Educación y Cripto, el camino es más estrecho: conviértete en el recurso definitivo en un subtema específico o acepta que estás luchando por las sobras.

2. La ventaja de las citas comienza en 10.000 palabras

En la Búsqueda clásica, el recuento de palabras y la longitud de la página son un poco indicativo de rangos, siempre y cuando la calidad sea alta. Me pregunté, nuevamente, si eso también es cierto para aparecer en las respuestas de ChatGPT.

Acercarse

  1. Mida la longitud del texto sin formato de cada página citada.
  2. Longitud del grupo en siete cubos.
  3. Para cada grupo, calcule el promedio de citas por página.

Resultados: De hecho, más palabras se correlacionan con más citas, pero hay un límite.

Crédito de la imagen: Kevin Indig

El salto de 5.000 a 10.000 es el paso más grande: casi el doble. Las páginas de más de 20.000 caracteres tienen un promedio de 10,18 citas cada una frente a 2,39 para las páginas de menos de 500 caracteres.

El efecto de longitud es específico de cada vertical: Finanzas lo invierte por completo. Las páginas de finanzas más citadas tienen un promedio de 1783 palabras frente a 2084 de las páginas poco citadas: un aumento de 0,86 veces. Las fuentes compactas autorizadas, las tablas de tarifas y los resúmenes regulatorios superan a las guías completas allí. La regla de los 10.000 caracteres se aplica a SaaS y al contenido editorial.

Crédito de la imagen: Kevin Indig

Finanzas alcanza un máximo de 5.000 a 10.000 palabras (10,9 citas/página), luego cae bruscamente a 10.000-20.000 (4,92 citas/página).

  • Finanzas también muestra la ganancia absoluta más pronunciada: las páginas de menos de 500 palabras obtienen solo 3,84 citas/página, mientras que las de 5.000 a 10.000 páginas obtienen 10,9, lo que supone un multiplicador de 2,8 veces solo con la optimización de la longitud.
  • Las páginas de Finanzas muy largas pueden diluir el contenido que genera citas con detalles redundantes.

La educación muestra el patrón más claro de que la longitud lo gana todo.

  • Las citas por página aumentan constantemente de 1,85 (menos de 500 palabras) a 6,05 (más de 20.000 palabras) sin disminuir.

Crypto y Product Analytics se comportan de manera similar a Education.

  • La longitud siempre da sus frutos, estabilizándose alrededor del nivel 10.000-20.000 (5,34 y 4,01, respectivamente). Ambas son verticales técnicas donde la amplitud indica autoridad.

SaaS muestra el efecto de longitud más débil: las citas por página oscilan entre 1,06 (1.000-2.000 palabras) y 2,77 (más de 20.000 palabras).

  • Incluso las páginas de CRM más largas solo obtienen 2,77 citas por página en promedio.
  • En esta vertical, la longitud por sí sola no determina las citas. El formato, la estructura y la autoridad del dominio parecen más importantes.
Leer  La actualización de las fechas de mapa del sitio XML no ayuda a SEO

Healthcare muestra un efecto de longitud moderado (1,74 a 3,92 citas/página).

  • Pero con una anomalía: 5.000-10.000 palabras (2,80) tienen un rendimiento inferior frente a 2.000-5.000 palabras (3,36).
  • Las páginas muy largas sobre atención médica pueden incluir demasiados detalles clínicos que diluyen el contenido que genera citas.

Principales conclusiones

1. Hallazgo universal: las páginas muy cortas (menos de 1000 palabras) tienen un rendimiento inferior en todas las verticales. El bajo rendimiento del contenido ligero es constante, pero la recompensa por el contenido largo es específica de cada vertical.

2. Oriente su extensión según la industria, el tipo de contenido y la intención de la consulta, no según el recuento universal de palabras. Para sectores verticales de finanzas: intente tener entre 5000 y 10 000 palabras. Educación, criptografía y análisis de productos: avance el mayor tiempo posible. CRM/SaaS: priorice la estructura sobre el recuento de palabras.

3. El 58% de las URL citadas se citan una vez

Cuando miramos las citas dentro de un tema, a menudo vemos que se citan muchas páginas de un dominio. Entonces, ¿cuántas citas puede obtener una sola página?

Acercarse

1. Cuente la cantidad de mensajes únicos para cada página.

  • Clasifique el número de citas en: 1, 2-5, 6-10, 11+.
  • Inspeccione las URL principales por vertical en busca de patrones estructurales.

Resultados: En promedio, el 67% de las URL citadas aparecen en un solo mensaje.

Piense en ello como un juego de huellas. El recuento de citas sin procesar le indica qué tan popular es una página. La amplitud de las citas le indica su valor estratégico. Una página imperecedera en citas de IA no es una que se cita mucho; es uno que sigue apareciendo en diversas consultas.

Crédito de la imagen: Kevin Indig

El 4,8% superior de las URL (citadas más de 10) son comparaciones o guías a nivel de categorías que responden “qué es”, “quién lo usa”, “cómo elegir” y “precios” en una sola URL.

El grupo de citas no es una meritocracia de la mejor respuesta, pero el grado varía mucho.

  • CRM/SaaS tiene la tasa de un solo resultado más alta, con un 84,7 %.
  • Finance produce las páginas imperecederas de mayor alcance: forfiduciary.com cubre 119 mensajes únicos.
  • Crypto genera las páginas de hoja perenne más concentradas con un 55,4% en el nivel técnico: chainstack.com/best-solana-rpc-providers-in-2026 (63 mensajes), alchemy.com/overviews/solana-rpc (62 mensajes) y rpcfast.com/blog/rpc-node-providers (61 mensajes). Las tres son páginas comparativas que cubren el panorama de proveedores de Solana RPC desde ángulos ligeramente diferentes.
  • Las páginas permanentes de educación siguen una lógica diferente: tefl.org, internationalteflacademy.com y gooverseas.com son citadas ampliamente porque responden consultas adyacentes a TEFL (costo, ubicación, tipo de certificación) desde un único recurso. Una URL ofrece muchos ángulos de consulta.

1. Las páginas imperecederas comparten patrones estructurales consistentes: Formato de guía a nivel de categoría (mejor X para 2025/2026), amplia cobertura de temas en una sola página (qué es X, cómo elegir X, principales proveedores de X, precios) y anclaje explícito del año en la URL o el título. Las páginas que responden a una clase de preguntas obtienen amplitud de citas.

2. Las 5 páginas principales de cada vertical son: resúmenes comparativos, guías autorizadas o páginas de directorios/listados. Ninguna página delgada de un solo tema alcanza el nivel de mensajes 11+ en ninguna vertical.

3. Una sola página imperecedera que cubra más de 10 intenciones de consulta vale más en alcance de citas de IA que 10 páginas con una sola intención. El retorno de la inversión (ROI) del contenido integral se concentra en el inicio: una página bien construida aumenta el alcance de las citas a lo largo del tiempo. La cola larga existe, pero el 5% superior de las páginas captura una parte desproporcionada de la actividad de citas en curso.

4. La rampa de esquí es más empinada en algunas verticales

La ciencia de cómo presta atención la IA demostró que ChatGPT cita el 44,2% del 30% superior de cualquier página. ¿Esa tendencia se mantiene en diferentes verticales?

Leer  Ocho razones pasadas por alto por las que los sitios pierden clasificaciones en las actualizaciones principales

Acercarse: Vuelva a ejecutar el mismo análisis posicional en 7 verticales con 42,460 citas coincidentes.

Resultados: La tendencia es real pero varía según el tema. Un número se cumple en todas partes: el 10% inferior de cualquier página obtiene entre el 2,4% y el 4,4% de las citas, aproximadamente una cuarta parte de lo que gana la banda máxima. La sección de conclusiones es casi invisible para la IA, independientemente de la vertical.

Crédito de la imagen: Kevin Indig

Lo que mostraron los patrones de la industria

El verdadero decil máximo en todas las verticales no es la apertura misma. La banda del 10-20% es donde la IA lee con mayor dificultad en cada vertical. El primer 10% suele ser navegación, titulares e introducciones que la IA omite.

  • Las finanzas son el caso extremo. El 43,7% de las citas se encuentran en el primer 30% de la página. Las páginas de finanzas cargan datos de tasas, porcentajes y cifras clave. La IA los capta y rara vez lee más allá de la mitad del camino.
  • La atención sanitaria y la tecnología de recursos humanos tienen las rampas más planas. El contenido útil se distribuye de manera más uniforme en esas páginas.
  • La educación alcanza su punto máximo en el decil 30-40% en lugar del 10-20%, porque el contenido educativo tiende a enterrar la respuesta clave un poco más profundamente después de la introducción.

Principales conclusiones

1. Coloque sus afirmaciones y datos más citables en el primer 30% de la página. – no importa en qué industria se encuentre. Rara vez se citan resúmenes y conclusiones.

2. Para marcas financieras: Actualice su tesis y estadísticas tanto como sea posible.

Qué significa esto para la forma de generar visibilidad de LLM

Los dominios que comparten citas no llegaron allí escribiendo mejores oraciones. Crearon páginas que tienen una verdadera autoridad temática, abordan múltiples consultas en un solo lugar y luego repiten esa autoridad en suficientes subtemas para ocupar varios asientos en la mesa.

Ser citado en 30, 60 o 100 mensajes distintos requiere una arquitectura de contenido específica: páginas creadas en torno a grupos de consultas y que posean temas completos en lugar de palabras clave individuales. Los equipos que mantengan el modelo tradicional de “una palabra clave, una página” quedarán estructuralmente excluidos de las citas de IA, incluso si sus páginas individuales están bellamente escritas.

Pero, como muestran los datos, no existe un manual universal. Las tácticas que funcionan para una plataforma CRM amplia podrían dañar activamente una marca financiera.

Metodología

Analizamos ~98.000 filas de citas de ChatGPT extraídas de aproximadamente 1,2 millones de respuestas de ChatGPT de Gauge.

Debido a que la IA se comporta de manera diferente según el tema, aislamos los datos en 7 verticales distintas y verificadas para garantizar que los hallazgos no estuvieran sesgados por una industria específica.

Verticales analizados:

  • SaaS B2B
  • Finanzas
  • Cuidado de la salud
  • Educación
  • Cripto
  • tecnología de recursos humanos
  • Análisis de productos

Para realizar ingeniería inversa en la selección de citas, pasé los datos por varias capas de análisis:

  • Análisis estructural: Medí la longitud de los caracteres sin procesar de cada página citada y mapeé las jerarquías de encabezados (H1, H2, H3) para ver cómo la arquitectura de la información afecta la visibilidad.
  • Mapeo posicional: Utilicé la similitud de ventana deslizante de Jaccard para identificar exactamente en qué parte de la página la IA extrajo sus respuestas, hasta el decil específico.
  • Extracción de entidad y sentimiento: Ejecuté el texto de apertura de URL citadas únicas a través de la API de lenguaje natural de Google para clasificar entidades nombradas (fechas, precios, productos) y utilicé TextBlob para calificar la opinión, comparando el rendimiento del contenido corporativo con el contenido generado por el usuario (UGC).

Imagen de portada: Roman Samborskyi/Shutterstock; Paulo Bobita/Diario del motor de búsqueda

(etiquetasToTranslate)SEO

spot_img
spot_img

Artículos relacionados

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Artículos populares