Lista completa de rastreadores para agentes de usuario de IA (diciembre de 2025)

- Advertisement -spot_img

La visibilidad de la IA juega un papel crucial para los SEO, y esto comienza con el control de los rastreadores de IA. Si los rastreadores de IA no pueden acceder a sus páginas, usted será invisible para los motores de descubrimiento de IA.

Por otro lado, los rastreadores de IA no monitoreados pueden saturar los servidores con solicitudes excesivas, provocando fallas y facturas de alojamiento inesperadas.

Las cadenas de agente de usuario son esenciales para controlar qué rastreadores de IA pueden acceder a su sitio web, pero la documentación oficial suele estar desactualizada, incompleta o falta por completo. Por lo tanto, seleccionamos una lista verificada de rastreadores de IA a partir de los registros de nuestro servidor real como referencia útil.

Cada agente de usuario se valida con listas de IP oficiales cuando están disponibles, lo que garantiza la precisión. Mantendremos y actualizaremos esta lista para detectar nuevos rastreadores y cambios en los existentes.

La lista completa de rastreadores de IA verificados (diciembre de 2025)

NombreObjetivoTasa de rastreo de SEJ (páginas/hora)Lista de IP verificadasRobots.txt no permitirAgente de usuario completo
GPTBotRecopilación de datos de entrenamiento de IA para modelos GPT (ChatGPT, GPT-4o)100Lista oficial de IPAgente de usuario: GPTBot
Permitir: /
No permitir: /carpeta-privada
Mozilla/5.0 AppleWebKit/537.36 (KHTML, como Gecko; compatible; GPTBot/1.3; +https://openai.com/gptbot)
Usuario de ChatGPTAgente de IA para navegación web en tiempo real cuando los usuarios interactúan con ChatGPT2400Lista oficial de IPAgente de usuario: Usuario de ChatGPT
Permitir: /
No permitir: /carpeta-privada
Mozilla/5.0 AppleWebKit/537.36 (KHTML, como Gecko); compatible; ChatGPT-Usuario/1.0; +https://openai.com/bot
OAI-SearchBotIndexación de búsqueda de IA para funciones de búsqueda de ChatGPT (no para capacitación)150Lista oficial de IPAgente de usuario: OAI-SearchBot
Permitir: /
No permitir: /carpeta-privada
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, como Gecko) Chrome/131.0.0.0 Safari/537.36; compatible; OAI-SearchBot/1.3; +https://openai.com/searchbot
claudebotRecopilación de datos de entrenamiento de IA para modelos Claude500Lista oficial de IPAgente de usuario: ClaudeBot
Permitir: /
No permitir: /carpeta-privada
Mozilla/5.0 AppleWebKit/537.36 (KHTML, como Gecko; compatible; ClaudeBot/1.0; +claudebot@anthropic.com)
Claude-UsuarioAgente de IA para acceso web en tiempo real cuando los usuarios de Claude naveganNo disponibleAgente de usuario: Claude-Usuario
No permitir: /carpeta-muestra
Mozilla/5.0 AppleWebKit/537.36 (KHTML, como Gecko; compatible; Claude-User/1.0; +Claude-User@anthropic.com)
Claude-SearchBotIndexación de búsqueda de IA para las capacidades de búsqueda de ClaudeNo disponibleAgente de usuario: Claude-SearchBot
Permitir: /
No permitir: /carpeta-privada
Mozilla/5.0 AppleWebKit/537.36 (KHTML, como Gecko; compatible; Claude-SearchBot/1.0; +https://www.anthropic.com)
Google-CloudVertexBotAgente de IA para Vertex AI Agent Builder (solo solicitud de los propietarios del sitio)Lista oficial de IPAgente de usuario: Google-CloudVertexBot
Permitir: /
No permitir: /carpeta-privada
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, como Gecko) Chrome/141.0.7390.122 Mobile Safari/537.36 (compatible; Google-CloudVertexBot; +https://cloud.google.com/enterprise-search)
Google extendidoToken que controla el uso del entrenamiento de IA del contenido rastreado por el robot de Google.Agente de usuario: Google extendido
Permitir: /
No permitir: /carpeta-privada
Géminis-investigación-profundaAgente de investigación de IA para la función de investigación profunda de Google GeminiLista oficial de IPAgente de usuario: Gemini-Deep-Research
Permitir: /
No permitir: /carpeta-privada
Mozilla/5.0 AppleWebKit/537.36 (KHTML, como Gecko; compatible; Gemini-Deep-Research; +https://gemini.google/overview/deep-research/) Chrome/135.0.0.0 Safari/537.36
Google El chat de Gemini cuando un usuario pide abrir una página webGoogle
BingbotImpulsa las respuestas de IA de Bing Search y Bing Chat (Copilot)1300Lista oficial de IPAgente de usuario: BingBot
Permitir: /
No permitir: /carpeta-privada
Mozilla/5.0 AppleWebKit/537.36 (KHTML, como Gecko; compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) Chrome/116.0.1938.76 Safari/537.36
Applebot-ExtendidoNo rastrea pero controla cómo Apple usa los datos de Applebot.Lista oficial de IPAgente de usuario: Applebot-Extended
Permitir: /
No permitir: /carpeta-privada
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, como Gecko) Versión/17.4 Safari/605.1.15 (Applebot/0.1; +http://www.apple.com/go/applebot)
PerplejidadBotIndexación de búsqueda por IA para el motor de respuestas de Perplexity150Lista oficial de IPAgente de usuario: PerplexityBot
Permitir: /
No permitir: /carpeta-privada
Mozilla/5.0 AppleWebKit/537.36 (KHTML, como Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)
Usuario perplejoAgente de IA para navegación en tiempo real cuando los usuarios de Perplexity solicitan informaciónLista oficial de IPUsuario-agente: Perplejidad-Usuario
Permitir: /
No permitir: /carpeta-privada
Mozilla/5.0 AppleWebKit/537.36 (KHTML, como Gecko; compatible; Perplexity-User/1.0; +https://perplexity.ai/perplexity-user)
Meta-Agente externoRecopilación de datos de entrenamiento de IA para LLM de Meta (Llama, etc.)1100No disponibleAgente de usuario: meta-agente externo
Permitir: /
No permitir: /carpeta-privada
meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
Meta-WebIndexerSolía ​​hacerlo mejorar la búsqueda de Meta AI.No disponibleAgente de usuario: Meta-WebIndexer
Permitir: /
No permitir: /carpeta-privada
meta-webindexer/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
araña de bytesDatos de entrenamiento de IA para LLM de ByteDance para productos como TikTokNo disponibleAgente de usuario: Bytespider
Permitir: /
No permitir: /carpeta-privada
Mozilla/5.0 (Linux; Android 5.0) AppleWebKit/537.36 (KHTML, como Gecko) Mobile Safari/537.36 (compatible; Bytespider; https://zhanzhang.toutiao.com/)
AmazonbotEntrenamiento de IA para Alexa y otros servicios de IA de Amazon1050No disponibleAgente de usuario: Amazonbot
Permitir: /
No permitir: /carpeta-privada
Mozilla/5.0 AppleWebKit/537.36 (KHTML, como Gecko; compatible; Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot) Chrome/119.0.6045.214 Safari/537.36
PatoAsistenteBotIndexación de búsqueda por IA para el motor de búsqueda DuckDuckGo20Lista oficial de IPAgente de usuario: DuckAssistBot
Permitir: /
No permitir: /carpeta-privada
DuckAssistBot/1.2; (+http://duckduckgo.com/duckassistbot.html)
Usuario de MistralAIEl buscador de citas en tiempo real de Mistral para el asistente “Le Chat”No disponibleAgente de usuario: MistralAI-Usuario
Permitir: /
No permitir: /carpeta-privada
Mozilla/5.0 AppleWebKit/537.36 (KHTML, como Gecko; compatible; MistralAI-User/1.0; +https://docs.mistral.ai/robots)
Webz.ioExtracción de datos y web scraping utilizados por otras empresas de formación en IA. Anteriormente conocido como Omgili.No disponibleAgente de usuario: webzio
Permitir: /
No permitir: /carpeta-privada
webzio (+https://webz.io/bot.html)
DiffbotExtracción de datos y web scraping utilizados por empresas de todo el mundo.No disponibleAgente de usuario: Diffbot
Permitir: /
No permitir: /carpeta-privada
Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.1.2) Gecko/20090729 Firefox/3.5.2 (.NET CLR 3.5.30729; Diffbot/0.1; +http://www.diffbot.com)
Rastreador ICCRecopilación de datos de IA y aprendizaje automáticoNo disponibleAgente de usuario: ICC-Crawler
Permitir: /
No permitir: /carpeta-privada
ICC-Crawler/3.0 (compatible con Mozilla; https://ucri.nict.go.jp/en/icccrawler.html)
CCBotArchivo web de código abierto utilizado como datos de entrenamiento por múltiples empresas de IALista oficial de IPAgente de usuario: CCBot
Permitir: /
No permitir: /carpeta-privada
CCBot/2.0 (https://commoncrawl.org/faq/)
Leer  Cómo la IA está redefiniendo la búsqueda y qué deben hacer los líderes ahora

Todas las cadenas de agente de usuario anteriores se han verificado con los registros del servidor de Search Engine Journal.

Rastreadores de agentes de IA populares con agente de usuario no identificable

Descubrimos que las siguientes personas no se identificaron:

  • usted.com.
  • Operador agente de ChatGPT.
  • Charla del copiloto de Bing.
  • Grok.
  • Búsqueda profunda.

No hay forma de rastrear el acceso de este rastreador a páginas web excepto identificando la IP explícita.

Configuramos una página trampa. (mi.gramo., /specific-page-for-you-com/) y utilizó el chat en la página para solicitarle a you.com que lo visite, lo que nos permite ubicar el registro de visita correspondiente y la dirección IP en los registros de nuestro servidor. A continuación se muestra la captura de pantalla:

Captura de pantalla del autor, diciembre de 2025

¿Qué pasa con los navegadores Agentic AI?

Desafortunadamente, los navegadores de IA como Comet o Atlas de ChatGPT no se diferencian en la cadena de agentes de usuario y no se pueden identificar en los registros del servidor ni combinarlos con las visitas normales de los usuarios.

El usuario del navegador Atlas de Chatgpt genera una cadena de registros del servidor
Cadena de agente de usuario del navegador Atlas de ChatGPT procedente de registros del servidor (captura de pantalla del autor, diciembre de 2025)

Esto es decepcionante para los SEO porque el seguimiento de las visitas de un navegador agente a un sitio web es importante para informar el punto de vista.

Cómo comprobar qué está rastreando su servidor

Algunas empresas de alojamiento ofrecen una interfaz de usuario (UI) que facilita el acceso y la visualización de los registros del servidor, según el servicio de alojamiento que esté utilizando.

Si su alojamiento no ofrece esto, puede obtener archivos de registro del servidor (generalmente ubicados /var/log/apache2/access.log en servidores basados ​​en Linux) vía FTP o solicítelo al soporte de su servidor para que se lo envíe.

Leer  AI Campañas de marketing: su libro de jugadas 2025 para estrategia y puntos de referencia de marca

Una vez que tenga el archivo de registro, puede verlo y analizarlo en Google Sheets (si el archivo está en formato CSV), en el analizador de registros de Screaming Frog o, si su archivo de registro tiene menos de 100 MB, puede intentar analizarlo con Gemini AI.

Cómo verificar la legitimidad vs. Bots falsos

Los rastreadores falsos pueden falsificar a agentes de usuarios legítimos para eludir las restricciones y extraer contenido de manera agresiva. Por ejemplo, cualquiera puede hacerse pasar por ClaudeBot desde su computadora portátil e iniciar una solicitud de rastreo desde la terminal. En el registro de su servidor, verá que Claudebot lo está rastreando:

curl -A 'Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; +claudebot@anthropic.com)' https://example.com

La verificación puede ayudar a ahorrar ancho de banda del servidor y evitar la recopilación ilegal de contenido. El método de verificación más confiable que puede aplicar es verificar la IP solicitada.

Verifique todas las IP y escanee para que coincidan si es una de las IP declaradas oficialmente enumeradas anteriormente. Si es así, puedes permitir la solicitud; en caso contrario, bloquear.

Varios tipos de firewalls pueden ayudarlo con esto a través de IP verificadas en la lista permitida (que permite el paso de solicitudes de bot legítimas), y todas las demás solicitudes que se hacen pasar por rastreadores de IA en sus cadenas de agentes de usuario están bloqueadas.

Por ejemplo, en WordPress, puede utilizar el complemento gratuito de Wordfence para incluir en la lista de direcciones IP legítimas las listas oficiales (como se muestra arriba) y agregar reglas personalizadas de bloqueo como se muestra a continuación:

La regla de la lista de permitidos es superior y permitirá que los rastreadores legítimos pasen y bloqueen cualquier solicitud de suplantación que provenga de diferentes IP.

Sin embargo, tenga en cuenta que es posible falsificar una dirección IP y, en ese caso, cuando el agente de usuario del bot y las IP sean falsificados, no podrá bloquearlo.

Conclusión: mantenga el control de los rastreadores de IA para obtener una visibilidad confiable de la IA

Los rastreadores de IA ahora son parte de nuestro ecosistema web, y los bots enumerados aquí representan las principales plataformas de IA que actualmente indexan la web, aunque es probable que esta lista crezca.

Verifique los registros de su servidor con regularidad para ver qué está afectando realmente a su sitio y asegúrese de no bloquear sin darse cuenta a los rastreadores de IA si la visibilidad en los motores de búsqueda de IA es importante para su negocio. Si no desea que los rastreadores de IA accedan a su contenido, bloquéelos mediante robots.txt utilizando el nombre del agente de usuario.

Mantendremos esta lista actualizada a medida que surjan nuevos rastreadores y actualicemos los existentes, por lo que le recomendamos marcar esta URL como favorita o volver a visitar este artículo periódicamente para mantener actualizada su lista de rastreadores de IA.

Más recursos:


Imagen de portada: BestForBest/Shutterstock

spot_img
spot_img

Artículos relacionados

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Artículos populares