¿Debo bloquear los rastreadores de IA o medir su valor primero?

La pregunta de hoy va más allá de los objetivos típicos de generar tráfico de la visibilidad de la IA, hacia el valor que esos grandes modelos de lenguaje brindan al propietario de un sitio web y pregunta:

“Los rastreadores de IA visitan mi sitio web cada vez más a menudo, pero no puedo decir si ofrecen algún valor. ¿Debo permitirlos, bloquearlos o tratar a los diferentes rastreadores de IA de manera diferente? ¿Cómo puedo medir si su actividad genera citas, tráfico de referencias o conversiones antes de tomar esa decisión?”

Muchos SEO no se dan cuenta del coste que supone que los robots visiten su sitio. Recientemente, con la proliferación de robots de inteligencia artificial, los costos de permitir que todos accedan a su contenido se están convirtiendo en un negocio costoso.

Tipos de rastreadores de IA

Primero, veamos los diferentes tipos de bots que visitan un sitio web.

Los bots comunes que visitarán un sitio web con regularidad incluyen aquellos a los que queremos que tengan acceso a nuestro sitio, por ejemplo, los bots de los motores de búsqueda. Estos no son los únicos bots, pero a menudo son algunos de los consumidores de ancho de banda más prolíficos. Además de los robots de búsqueda, habrá herramientas. Estos pueden incluir bots de monitores de tiempo de actividad, herramientas de búsqueda y análisis, y escáneres de seguridad y vulnerabilidad.

En general, los propietarios de sitios web tienen que decidir si se debe permitir que los robots que visitan su sitio continúen o si suponen más daño que bien. Ejemplos de bots que los administradores de sitios suelen bloquear son aquellos que intentan extraer información de productos para alimentar la base de datos de otro sitio web, o bots maliciosos que buscan vulnerabilidades de inicio de sesión. Bloquear o no estos bots es una decisión bastante fácil: suponen un riesgo para la propiedad intelectual de la marca o la seguridad del sitio web.

Los robots de IA en realidad podrían ubicarse en algún punto intermedio entre estos robots “buenos” y “malos”.

Bots de entrenamiento de IA

Estos robots, por ejemplo, GPTBot de OpenAI, están recorriendo la web en busca de información para alimentar los modelos de entrenamiento de IA. Están ayudando a crear la base de conocimientos de la que aprenden los LLM, incluidas las entidades y cómo se relacionan entre sí.

Para muchos propietarios de sitios web, estos son los rastreadores de IA más controvertidos. Su objetivo principal no es enviar tráfico de regreso a su sitio, sino “leer” y recopilar información que pueda usarse para entrenar y mejorar modelos. En algunos casos, ese contenido podrá utilizarse posteriormente para responder preguntas de los usuarios sin generar una visita a la fuente original. Esto hace que sea más difícil trazar una línea directa entre la actividad del rastreador y el valor comercial.

Bots de indexación de búsqueda

Estos bots, los de OpenAI OAI-SearchBot, por ejemplo, están revisando páginas y recopilando información para mostrar y vincular sitios web en los “resultados de búsqueda” de LLM, no para entrenar modelos básicos.

Suelen ser más fáciles de justificar porque su propósito es más cercano al de un motor de búsqueda tradicional. Si indexan su contenido para que pueda citarse en las respuestas generadas por IA, tienen una ruta más obvia para crear visibilidad, tráfico de referencias y conocimiento de la marca.

Recuperaciones activadas por el usuario

Estos bots, incluidos los de OpenAI Usuario de ChatGPT, recupere páginas a pedido cuando los usuarios pregunten sobre sitios web o documentos específicos, en lugar de depender únicamente de un índice prediseñado o una base de conocimientos.

Estas recuperaciones representan el interés genuino del usuario en su sitio. Buscan específicamente información adicional o contexto sobre su contenido, negocio o productos. Este es un indicador valioso de su lugar dentro del embudo de compra. Ya descubrieron su marca y ahora están profundizando en su contenido.

Cómo bloquear robots de IA

OpenAI actualizó su documentación para que ChatGPT-User, el buscador activado por el usuario, ya no se comprometa a respetar el archivo robots.txt de un sitio web. Perplexity se comporta de manera similar con Perplexity-User. Por lo tanto, el archivo robots.txt, que los SEO han estado utilizando de manera confiable durante años para controlar los principales robots, ahora solo bloquea los rastreadores de búsqueda y capacitación que cumplen con las normas. Para los bots activados por el usuario y que no cumplen con las normas, necesita un bloqueo a nivel de servidor o WAF.

Bloqueo a nivel WAF

Un WAF (firewall de aplicaciones web) se ubica frente al servidor de un sitio web y actúa como un punto de control de inspección. Un WAF se puede configurar para permitir solo ciertos bots o para permitir todos los bots excepto los excluidos. Esta es una forma muy sólida de evitar que bots no deseados visiten un sitio web.

Aunque esto normalmente queda fuera del ámbito de un SEO, es posible que esté familiarizado con algunas de las marcas que ofrecen bloqueo de nivel WAF, como Cloudflare y AWS. Si sabe en qué pila tecnológica se ejecuta su sitio web, es posible que pueda investigar el bloqueo de WAF antes de presentar la idea a su equipo de infraestructura. Sin embargo, la mayoría de las grandes empresas ya tendrán una variedad de bots que están bloqueando, por lo que los equipos empresariales probablemente tendrán un proceso implementado para agregar o eliminar bots de las listas WAF.

Reglas del servidor

Se pueden agregar reglas directamente a su servidor que examinan el tráfico que lo recibe y determinan si proviene de un bot inseguro. El servidor verificará elementos como si la solicitud proviene de una fuente que utiliza automatización o si carece de los encabezados adecuados. Si considera que el agente de usuario no es seguro según las reglas, no permitirá que el bot acceda al sitio.

El riesgo de bloquear todos los robots de IA

Aquí es donde radica el dilema. Algunos de los robots de IA están eliminando la propiedad intelectual de su sitio web. Sin embargo, si los bloquea, significa que es posible que no muestren su marca o sus productos en sus respuestas, lo que lo colocará en desventaja competitiva.

Leer La consola de búsqueda de Google no informa a la mitad de todas las consultas de búsqueda

El principal riesgo de bloquear robots de IA es que es posible que su sitio ya no se cite en las respuestas de LLM. Dado el bajo volumen de tráfico de referencias que pasan los LLM, puede parecer un riesgo que está dispuesto a asumir.

Sin embargo, lo que sí sabemos es que, aunque los LLM no generan el mismo volumen de tráfico que los motores de búsqueda tradicionales, son útiles para aumentar el conocimiento de la marca. Si su marca no es la que se cita, eso significa que sí lo es la de un competidor.

Con todo lo relacionado con la IA, debemos recordar que el campo está evolucionando rápidamente. Es posible que los LLM no tengan mucho tráfico en este momento, pero eso no significa que siempre será así.

Evitar que los robots de IA rastreen un sitio ahora podría hacer que el sitio sea funcionalmente invisible en el futuro si los LLM se convierten en el principal método de descubrimiento.

Además, bloquear todos los robots de IA elimina tu capacidad de probar y aprender. Si impide que todos los rastreadores de IA accedan a su sitio, perderá la oportunidad de comprender qué plataformas generan visibilidad, cuáles citan su contenido con precisión y cuáles tienen el potencial de convertirse en fuentes de tráfico significativas en el futuro.

El riesgo de permitir todos los robots de IA

Sin embargo, existe, por supuesto, una amenaza muy real a la que se enfrentan los sitios hoy en día por parte de los rastreadores de IA. Los dos mayores riesgos provienen de la ferocidad con la que los robots rastrean y consumen contenido.

Capacitación sobre propiedad intelectual

Muchos propietarios de sitios web se sienten incómodos con la idea de que contenido o activos propietarios puedan usarse para mejorar un modelo de IA sin ninguna compensación o atribución directa. Esta es una de las quejas más ruidosas que escuchamos de los SEO: estás visitando mi sitio, tomando mi contenido, pero yo no recibo tráfico a cambio.

La preocupación es particularmente alta para los editores y las empresas cuya ventaja competitiva proviene de información o activos únicos. Si ese contenido pasa a formar parte de los datos de entrenamiento de un modelo, los usuarios tendrán menos necesidad de visitar el sitio web original.

También existe el riesgo de que los robots puedan extraer datos o contenido que en realidad forma parte de un producto o servicio. Que un LLM vuelva a empaquetar esa información y la sirva como respuesta o generación puede ser devastador para las empresas. Por ejemplo, los artistas ven fotos de su trabajo ingeridas por LLM y utilizadas para generar imágenes “al estilo” de sus propias creaciones. Este uso de la propiedad intelectual podría tener un impacto directo en las ganancias de una empresa.

Costos de rastreo

Los rastreadores de IA pueden consumir importantes recursos del servidor. Los sitios grandes informan con frecuencia que los robots de IA solicitan páginas con una frecuencia mucho mayor que los rastreadores de los motores de búsqueda tradicionales.

Este costo no siempre es obvio porque a menudo se absorbe en las tarifas generales de alojamiento. Sin embargo, a escala, el rastreo excesivo puede aumentar el consumo de ancho de banda y afectar la experiencia de los usuarios reales si los recursos se ven limitados.

Para algunas organizaciones, el costo financiero directo de dar servicio a los rastreadores de IA es el factor principal detrás de las decisiones de restringirlos o bloquearlos.

Cómo identificar qué bots están visitando su sitio

El mayor obstáculo para comprender el riesgo y la recompensa que suponen los robots de IA para su marca es saber qué robots están rastreando su sitio.

Estos datos no siempre son fáciles de conseguir. Repasemos un par de formas en las que podemos identificar si un bot ha rastreado su sitio o lo está rastreando.

Archivos de registro

Los archivos de registro serán la fuente más completa de información sobre qué bots visitan su sitio web. Descargar una muestra de registros de los últimos 30 días podría darle una buena idea de qué porcentaje de sus bots están vinculados a la IA.

Es probable que los archivos de registro contengan todo tipo de bots, y puede que sea necesario investigar un poco para identificar cuáles de ellos son rastreadores de IA. Una vez que haya traducido la información del agente de usuario a algo más legible para los humanos, será un simple caso de sumar los accesos de cada bot y calcular qué porcentaje del total proviene de los rastreadores de IA.

Sin embargo, hay muchas herramientas disponibles que automatizarán esto. Hay un par de tipos que podrían ayudar con este ejercicio: analizadores de archivos de registro tradicionales y herramientas de seguimiento de visibilidad de IA.

Los analizadores de archivos de registro proporcionarán un desglose de qué bots provienen de motores de búsqueda tradicionales y cuáles de IA. Las herramientas de optimización de IA, que sirven principalmente para rastrear y analizar la visibilidad de su sitio en los LLM, a menudo también tienen una función de seguimiento de agentes de IA basada en sus archivos de registro.

También debes intentar comprender si bots específicos se concentran en secciones particulares del sitio. Un rastreador que accede repetidamente a páginas de productos puede indicar que esos activos son particularmente valiosos para la plataforma. Esto puede ayudar a informar si permite el acceso a todo el sitio o crea restricciones más específicas.

Ver también: La guía moderna de robots.txt: cómo usarlo evitando las trampas

Tráfico de referencia

Si no tiene acceso a sus archivos de registro, aún puede tener una idea de qué bots han visitado su sitio a partir del tráfico de referencia que envían.

Leer Google anuncia una nueva era para la búsqueda por voz

Al buscar fuentes de referencia en su software de análisis, es posible que reconozca una parte como LLM, como ChatGPT o Perplexity. Google Analytics ha implementado recientemente una nueva clasificación de canales llamada “Asistente de IA”. Este nuevo canal hace que sea más fácil ver qué visitantes han encontrado su sitio a través de un LLM, pero solo reconoce ChatGPT, Gemini y Claude a través del encabezado de referencia y no captura Perplexity. Es seguro asumir que si un LLM citó su sitio web y proporcionó un enlace para que los visitantes lo siguieran, es posible que su robot haya visitado su sitio en algún momento.

Este no es un método infalible para ver todos los robots de IA que han visitado su sitio, porque solo revelará las plataformas que han enviado tráfico de referencia dentro del período de tiempo que está viendo. Cualquier robot LLM que haya rastreado su sitio pero no haya enviado tráfico de referencia seguirá siendo desconocido para usted. También es posible que la cita que envió tráfico a su sitio provenga de datos de capacitación o de una versión almacenada en caché de su página. Sin embargo, si realmente no puede acceder a los datos del archivo de registro, esto puede brindarle una aproximación justa de los bots que han visitado su sitio web.

Qué datos adicionales necesita

Más allá de simplemente saber si un bot ha visitado tu sitio, es necesario conocer el impacto de su visita. Esto significa que debe averiguar en los archivos de registro o en las páginas de destino de su tráfico referido qué páginas han rastreado los robots de IA.

Esta información le dará una mejor idea de dónde extraen datos los bots y si son páginas que desea o no que visiten.

Potencialmente, el punto de datos más importante para este análisis es el costo de los robots de IA que ingresan a su sitio. Es probable que esta sea información que necesitará obtener de quien administre el servidor de su sitio web. Deberían poder decirle qué bots están rastreando el sitio con tanta frecuencia que ya están considerando bloquearlos. Esta persona también debería poder calcular cuánto dinero le está costando a su empresa permitir que los robots rastreen el sitio. Esta es información muy útil cuando se trata de la siguiente parte del análisis: determinar el valor de los robots de IA.

Cómo medir el valor

Este próximo paso es fundamental en el proceso de toma de decisiones. La cuestión de si permitir, bloquear o restringir un bot de IA en su sitio depende del valor que brindan esos bots.

La mayoría de los propietarios de sitios web saben que los LLM no envían tanto tráfico a los sitios web como lo hacen los motores de búsqueda tradicionales. Sin embargo, los datos de Cloudflare de junio de 2025 sugieren que por cada visita a un sitio web, Claude, de Anthropic, habrá realizado 70.900 solicitudes de páginas, mientras que para Google, la proporción es de 9,4:1. Esta proporción de “rastreo a referencia” es sorprendentemente alta para algunos LLM.

¿Qué valor tiene el tráfico que envían los LLM?

El primer paso es comprender si los visitantes que llegan de un LLM son realmente valiosos. Mirar únicamente los números de sesiones puede resultar engañoso. Actualmente, las plataformas de inteligencia artificial envían mucho menos tráfico que los motores de búsqueda tradicionales, pero los visitantes que envían pueden estar altamente calificados.

Básicamente, las medidas clave a considerar aquí son las métricas de participación. ¿Los usuarios de LLM interactúan positivamente con su sitio de una manera que indique que pueden convertirse en usuarios que realizan conversiones? Incluso si no compran nada en su primera visita, pueden regresar a través de otro canal en una fecha posterior. Utilizando su conocimiento sobre los recorridos de los usuarios en el sitio, compare el comportamiento de los visitantes recomendados por LLM con los visitantes convertidos de otros canales.

En última instancia, el argumento más persuasivo para permitir un rastreador de IA es la generación de ingresos que supera el costo de rastrear el sitio. Si los visitantes que llegan de un LLM específico compran productos o completan formularios de clientes potenciales, demuestran que tienen un impacto comercial positivo.

Citas y menciones

El tráfico es sólo una forma de valor. Una plataforma que cita constantemente su contenido puede aumentar el conocimiento de su marca incluso cuando los usuarios no hacen clic. Como SEO, sabemos que el tráfico no es el principio ni el fin del marketing. El hecho de que un visitante no haya hecho clic para visitar su sitio web no significa que no se subirá a su automóvil para visitar su tienda física que acaba de descubrir a través de un perfil comercial de Google.

Considere los LLM de manera similar.

Realice un seguimiento de la frecuencia con la que su sitio aparece en las respuestas generadas por IA sobre temas relevantes para su negocio. Cuanto más frecuentemente aparezca su contenido, mayor será la probabilidad de que su marca se asocie con esos temas en la mente de los usuarios.

Sentimiento

Ser mencionado no es suficiente; Comprender cómo se representa su marca es igualmente importante.

Revise las respuestas generadas por IA para determinar si se describe a su empresa de manera precisa y positiva. Si una plataforma hace referencia con frecuencia a su contenido pero tergiversa sus productos o experiencia, eso debería formar parte del proceso de toma de decisiones. Un LLM que continuamente se equivoca no solo le está costando a su empresa tarifas de servidor; podría estar costando la buena voluntad de su marca.

Cobertura de consultas/temas

Evalúe para qué temas, productos o servicios aparece su marca dentro de las plataformas de inteligencia artificial.

Leer Operai expresa interés en comprar el navegador Chrome

Si los competidores dominan temas comerciales importantes mientras que su marca rara vez aparece, permitir rastreadores relevantes puede resultar estratégicamente importante. Por el contrario, si ya tiene una gran visibilidad sobre temas clave, es posible que se sienta más cómodo restringiendo ciertos tipos de rastreadores.

Considere el valor futuro

Uno de los aspectos más difíciles de este análisis es que el valor de hoy puede no reflejar el valor de mañana.

Un rastreador que hoy genera poco tráfico puede pertenecer a una plataforma que se convertirá en un importante canal de descubrimiento en el futuro. Del mismo modo, un rastreador que hoy en día parece caro puede eventualmente justificar su costo gracias a una mejor visibilidad y tráfico de referencias.

Por este motivo, evite evaluar los rastreadores de IA únicamente en función del rendimiento a corto plazo. Considere su valor estratégico potencial durante los próximos años.

Construya una matriz de decisiones

La parte final del análisis es una matriz de decisión. Es una forma sencilla de organizar los rastreadores de IA en robots para “mantenerlos”, “restringirlos” o “bloquearlos”.

Utilizando la información que ya ha recopilado, haga la siguiente serie de preguntas a cada bot:

¿Este bot proporciona a mi sitio ingresos por conversión o visibilidad útil?

¿Este rastreador contribuye al tráfico, los clientes potenciales, los ingresos o el conocimiento de la marca? Si es así, es una razón de peso para conservarlo. Si no parece proporcionar tráfico o visibilidad dentro de los LLM, entonces es probable que sea un “no” o un “tal vez”.

¿Se trata de acceder a información confidencial o a información que queremos mantener como propiedad exclusiva?

Aquí es donde analizas si es seguro dejar que el bot deambule libremente, o si lo has pillado raspando contenido que forma parte de la IP de tu empresa. Si ese es el caso, probablemente querrás bloquearlo o restringirlo.

¿Qué tan confiable es este robot?

¿Es este un bot de una conocida empresa de inteligencia artificial? ¿Existe documentación disponible públicamente sobre cómo funcionan sus rastreadores, qué comandos respetan y sus políticas de retención de datos? Si lo hay, es una señal más fuerte de que se trata de un bot al que se le puede permitir rastrear su sitio. Si no lo hay, es probable que se bloquee.

¿Este bot nos está costando mucho dinero o está afectando el acceso de los usuarios a nuestro sitio?

Esta es una pregunta sobre el costo de permitir que el bot rastree su sitio libremente. Si llega al sitio con alta frecuencia, es posible que le esté costando mucho en tarifas de servidor. También podría estar empujando al servidor más allá de su capacidad, lo que puede impedir que otros robots útiles, o los usuarios reales de su sitio, puedan acceder al sitio.

¿Podemos permitirnos la desventaja competitiva de no permitir que este robot acceda a nuestro sitio?

Esto se centra en el riesgo de que los bots no puedan acceder a su sitio.

Si bloquear un rastreador probablemente eliminaría su marca de las respuestas de una importante plataforma de inteligencia artificial, entonces el costo estratégico puede superar los ahorros en infraestructura. Si hay poca evidencia de que la plataforma haga referencia a su contenido o a sus competidores, entonces la desventaja puede ser limitada.

La decisión final

Una vez que haya recopilado todos sus datos y haya sopesado los pros y los contras de cada bot, estará listo para tomar una decisión. La clave para esta toma de decisiones es recordar que esto puede cambiar con el tiempo. Es posible que no necesites bloquear un bot hoy, pero quizás quieras restringirlo por ahora, sabiendo que podrás bloquearlo por completo en el futuro.

Conservar: no cuesta mucho/aporta más valor del que cuesta

Se trata de bots que aportan un valor medible. Esto puede deberse a través del tráfico, las citas, la visibilidad de la marca o la importancia estratégica futura, pero lo más importante es que este valor supera la carga operativa.

Monitorear o restringir: no tiene mucho valor pero no cuesta mucho

Se trata de bots cuyo caso de negocio sigue sin estar claro. Puede optar por limitar las tasas de rastreo, restringir el acceso a áreas específicas del sitio o continuar recopilando datos antes de tomar una decisión final.

Bloque: valor bajo/riesgo alto

Estos son bots que generan costos significativos, acceden a contenido confidencial o brindan poca evidencia de su valor actual o futuro.

Ver también: WordPress Robots.txt: ¿Qué debería incluir?

Avanzando

Un punto clave a recordar es que no se trata de “configúralo y olvídalo”. Se crearán nuevos robots de IA. Los bots que haya bloqueado pueden aumentar su valor potencial en los próximos meses y años.

Como parte de su evaluación, debe realizar revisiones periódicas. Estos pueden ser activados por la persona responsable de los costos del servidor que le pregunta si realmente necesita ChatGPT para acceder al sitio. Sin embargo, lo ideal es que sea algo que esté considerando de manera proactiva y que pueda presentar a sus partes interesadas como un plan de protección de marca y de preparación para el futuro.

Considere revisar su lista de bloqueo una vez por trimestre. Esta es una cadencia que no ejerce demasiada presión sobre la persona que extrae los archivos de registro y también le da tiempo para realizar cambios estratégicos si es necesario.

La conclusión clave es que rara vez existe una buena razón para permitir a todos los rastreadores de IA o bloquearlos a todos. En su lugar, trate cada bot como un caso de negocio individual. Mida su costo, evalúe la visibilidad que brinda, comprenda el riesgo que crea y luego tome una decisión deliberada. Es mucho más probable que ese enfoque proteja tanto sus recursos actuales como su capacidad de descubrimiento futuro.

Más recursos:

Imagen de portada: Paul Poetry/Search Engine Journal

¿Debo bloquear los rastreadores de IA o medir su valor primero? – Pregúntale a un SEO