Proxies para DuckDuckGo: una guía práctica para la recopilación de datos de búsqueda

- Advertisement -spot_img

DuckDuckGo rara vez ocupa el primer lugar cuando los equipos deciden dónde realizar un seguimiento de las clasificaciones o extraer datos SERP, ya que Google y Bing generalmente se hacen cargo del presupuesto. Ese es un descuido que vale la pena solucionar. Una audiencia preocupada por la privacidad, una página de resultados ensamblada de manera diferente a la de Google y un flujo de consultas que también funciona como una ventana al índice de Bing hacen de DuckDuckGo una fuente de datos útil para SEO e investigación de mercado. El obstáculo práctico es que recopilar esos datos en cualquier volumen real significa poner un proxy para DuckDuckGo delante de sus solicitudes. Esta guía explica por qué se necesitan proxies, qué tipo se adapta al trabajo, cómo localizar los resultados por mercado y cómo crear un flujo de trabajo de recopilación que resista más allá de los primeros cientos de consultas.

Por qué vale la pena recopilar datos de DuckDuckGo

La escala es menor que la de Google, pero no es un error de redondeo. Los rastreadores independientes y los resúmenes de análisis sitúan a DuckDuckGo en aproximadamente 100 millones de búsquedas por día, alrededor de 3 mil millones por mes, con una participación global en el rango de 0,6 a 0,9 por ciento y una mayor proporción de 1,8 a 2,1 por ciento en los Estados Unidos, donde se ubica como el segundo motor de búsqueda móvil más utilizado. DuckDuckGo dejó de publicar el tráfico exacto en 2022, así que trate cualquier cifra precisa como una estimación en lugar de un número auditado.

Hay dos cosas que hacen que ese tráfico sea interesante para los equipos de datos. En primer lugar, la audiencia se inclina hacia la privacidad y hacia Estados Unidos: aproximadamente la mitad de todas las consultas se originan en Estados Unidos, seguido de Alemania, el Reino Unido y la India, y el grupo de 25 a 34 años es el segmento más grande. Si su producto o contenido se dirige a esos usuarios, la visibilidad de DuckDuckGo importa más de lo que sugiere el porcentaje global. En segundo lugar, debido a que los resultados web tradicionales de DuckDuckGo provienen en gran medida de Bing, monitorear el SERP de DuckDuckGo le brinda una lectura secundaria y económica sobre cómo el índice de Bing clasifica sus páginas, lo cual es útil cuando no puede o no quiere eliminar Bing directamente.

Trabajos típicos que justifican una canalización de datos DuckDuckGo:

  • Seguimiento de clasificación para una audiencia que prioriza la privacidad o tiene gran presencia en Estados Unidos.
  • Monitoreo de funciones SERP, incluidas respuestas instantáneas, el resumen de IA y qué fuentes se citan.
  • Verificación de anuncios, que confirma que las ubicaciones patrocinadas se muestran correctamente por mercado. El costo por clic promedio de DuckDuckGo se reporta cerca de $0,41, muy por debajo del de Google, por lo que es un canal real para algunos anunciantes.
  • Investigación de mercado y de la competencia, donde un conjunto de resultados no personalizados es una ventaja: DuckDuckGo no adapta los resultados a un perfil, por lo que dos solicitudes limpias para la misma consulta y región deberían arrojar la misma clasificación.

Cómo DuckDuckGo ofrece resultados

No puedes construir un raspador estable sin entender lo que estás raspando. DuckDuckGo no es un índice único. Combina resultados de “más de 400 fuentes”, y la mayor parte de los diez enlaces azules estándar provienen de Bing, complementados por su propio rastreador (DuckDuckBot), proveedores de respuestas instantáneas como Wikipedia, Wolfram Alpha y Apple Maps y, desde 2023, una capa de respuesta de IA que se basa en modelos de OpenAI y Anthropic. La dependencia de Bing no es teórica: durante una interrupción de la API de Bing en 2024, DuckDuckGo dejó brevemente de devolver resultados por completo.

A efectos de recopilación, el detalle más importante es que DuckDuckGo expone más de una puerta de entrada. La interfaz principal de duckduckgo.com tiene mucho JavaScript y bloquea la paginación detrás de un token vqd dinámico, lo que lo hace más difícil de escribir. DuckDuckGo también mantiene versiones simplificadas de HTML y “lite”, originalmente creadas para navegadores sin JavaScript, y que son mucho más amigables para un analizador del lado del servidor.

Leer  4 Pasos sencillos para ver cómo el AIO de Google está afectando su SEO
Punto finallo que devuelvejavascriptLo mejor para
patoduckgo.com/SERP completo: resultados orgánicos, respuestas instantáneas, anuncios, resumen de IASí (token vqd + JS)Captura de funciones y bloques de anuncios enriquecidos
html.duckduckgo.com/html/Resultados orgánicos HTML estáticosNoAnálisis estándar del lado del servidor
lite.duckduckgo.com/lite/Resultados mínimos y de carga más rápidaNoComprobaciones de rango de gran volumen

DuckDuckBot no es lo mismo que raspar DuckDuckGo

Esto hace tropezar a la gente constantemente, por lo que vale la pena decirlo claramente. DuckDuckBot es el rastreador propio de DuckDuckGo que visita su sitio; lo controlas a través de robots.txt de la misma manera que lo harías con el robot de Google, y está ampliamente reportado como uno de los rastreadores más compatibles y de baja agresión en la web. Scraping DuckDuckGo es lo contrario: envía solicitudes automáticas al SERP de DuckDuckGo para recopilar datos. Los dos no tienen nada que ver operativamente entre sí, y sólo el segundo necesita un proxy. Si su objetivo es simplemente asegurarse de que DuckDuckGo indexe sus páginas, la palanca que más importa es la indexación en Bing, no nada relacionado con el proxy.

Por qué necesitas servidores proxy para DuckDuckGo

Los resultados de DuckDuckGo son anónimos por diseño, sin cuenta, sin perfil ni clasificación personalizada. Eso elimina un problema, ya que nunca necesita administrar las sesiones iniciadas, pero deja el que realmente detiene la recopilación automatizada: la limitación de velocidad vinculada a su dirección IP.

DuckDuckGo rechaza activamente el tráfico automatizado hacia sus puntos finales HTML. En la práctica, verá respuestas 202, 403 y similares una vez que una sola dirección envíe demasiadas solicitudes demasiado rápido. No existe un umbral publicado oficialmente, y el consenso de la comunidad, reflejado en la popular biblioteca Python duckduckgo-search (ahora ddgs), es rotar los servidores proxy, mantenerse muy por debajo de las 30 solicitudes por minuto por IP y espaciar las solicitudes con retrasos aleatorios. Las reseñas de scraping independientes califican a DuckDuckGo como de dificultad moderada, con limitación de velocidad como defensa principal y comprobaciones ligeras de huellas dactilares TLS en capas en la parte superior.

La solución es sencilla en principio. Distribuye la carga de trabajo entre muchas direcciones IP para que nadie supere el límite por IP y rota las direcciones a medida que avanza. No se trata de disfrazar quién eres. Se trata de mantenerse dentro del presupuesto de solicitudes que DuckDuckGo tolera y no degradar el servicio para nadie más. Un puñado de consultas desde una máquina está bien sin un proxy; un trabajo de seguimiento de clasificación que cubra miles de pares de palabras clave y regiones no lo es.

Elegir el tipo de proxy correcto

No todos los proxy se comportan igual frente a la limitación de velocidad de DuckDuckGo. La decisión generalmente se reduce al riesgo de detección versus el costo y la velocidad, por lo que comprender cómo usar un proxy con DuckDuckGo puede ayudarlo a elegir la opción correcta para su carga de trabajo.

Tipo de proxyRiesgo de detección en DuckDuckGoCosto relativoVelocidadMejor ajuste
centro de datosMás alto; marcado más rápido bajo carga sostenidaMás bajoLo más rápidoMonitoreo de bajo volumen y que no depende del tiempo
Residencial (rotativo)BajoMedioMedioColección SERP sostenida y a gran escala
MóvilMás bajomás altoMedioLos trabajos más difíciles o cuando se marcan las IP residenciales

Algunas notas del protocolo afectan la implementación más de lo que la gente espera. IPv4 es el valor predeterminado seguro. IPv6 es más barato, pero es más probable que algunos puntos finales lo traten como sospechoso, así que pruébelo en un lote pequeño antes de asignarle un trabajo grande. En la capa de transporte, los proxies HTTP(S) cubren la mayoría de las pilas de scraping, pero algunas cadenas de herramientas se enrutan limpiamente solo a través de SOCKS5, por lo que vale la pena confirmar que ambos estén disponibles antes de conectar todo. Los proveedores que exponen IPv4 de centros de datos, residenciales y móviles desde una sola cuenta, entre ellos proxys.io, hacen que esto sea más fácil en la práctica, porque puede comenzar un trabajo en direcciones de centros de datos económicas para un monitoreo ligero y trasladar el mismo trabajo a IP residenciales o móviles en el momento en que DuckDuckGo comience a devolver 202 bajo carga.

Leer  YouTube agrega promociones de aplicaciones personalizadas para pantalones cortos

Localización de resultados por mercado

DuckDuckGo le permite fijar el SERP a un mercado con el parámetro de región kl: us-en para Estados Unidos, uk-en para el Reino Unido, de-de para Alemania, fr-fr para Francia, wt-wt para todo el mundo, etc. Para el seguimiento de clasificación y la verificación de anuncios, este es el parámetro que le permite ver la página aproximadamente como lo haría un buscador en ese mercado.

Código de región (kl)Mercado
nosotros-yEstados Unidos (inglés)
reino unidoReino Unido
Ese es elAlemania
fr-frFrancia
ru-ruRusia
peso-pesoNinguna región/en todo el mundo

La parte sutil es la coherencia. El valor kl establece la ubicación de los resultados, pero la dirección IP desde la que se conecta aún transmite una señal geográfica, y una discrepancia entre las dos puede introducir ruido en su muestra, que es exactamente lo que no desea cuando el punto es una lectura precisa y repetible en un mercado específico. El enfoque limpio es alinear el país de su IP de salida con el código de región que envía, para que la solicitud sea coherente internamente. La amplitud de la cobertura es el límite práctico aquí: un grupo que enumera ubicaciones de salida en EE. UU., Reino Unido, Alemania, Francia, España, Polonia, Países Bajos, Canadá, Brasil e India (la lista de países que publica proxys.io es un ejemplo representativo) suele ser suficiente para emparejar una IP con cada código de región que rastrea un equipo de SEO. Cuando no se ofrece un país, la opción más honesta es eliminar esa ubicación de la ejecución en lugar de enviar una IP no coincidente que distorsione silenciosamente los datos.

Un flujo de trabajo de colección práctico

A continuación se muestra un flujo de trabajo que se adapta bien a la colección DuckDuckGo de mediana escala. Se supone que está utilizando uno de los puntos finales sin JavaScript, lo que elimina la mayor parte de la fragilidad.

1. Elija el punto final que coincida con los datos que necesita. Utilice lite.duckduckgo.com para obtener clasificaciones sin procesar por volumen, html.duckduckgo.com cuando desee un poco más de estructura y el sitio principal solo si necesita específicamente anuncios, respuestas instantáneas o el resumen de IA.

2. Establezca la región con kl y alinee el país de salida del proxy con ella.

3. Rote el proxy en cada solicitud, o al menos en cada trabajo nuevo, y limite la simultaneidad para mantenerse por debajo de la pauta de aproximadamente 30 solicitudes por minuto por IP.

4. Agregue retrasos aleatorios entre solicitudes en lugar de un intervalo fijo, ya que una cadencia constante es en sí misma un patrón detectable.

5. Maneje la paginación con cuidado. Una solicitud inicial arroja hasta aproximadamente 35 resultados orgánicos; el uso de una compensación puede arrojar hasta aproximadamente 50, pero las compensaciones más altas también aumentan las probabilidades de recuentos de resultados duplicados o variables, por lo que debe eliminar los duplicados al ingresar. En el sitio principal, la paginación depende del token vqd; si caduca, la paginación simplemente falla, así que vuelva a buscar la primera página para obtener un token nuevo y vuelva a intentarlo.

Leer  Se pueden indexar las imágenes cargadas de JavaScript

6. Retroceda ante los errores. Trate 202 y 403 como una señal para pausar, rotar a una nueva IP y reducir la velocidad, para no volver a intentarlo más.

Una ilustración mínima de la capa de solicitud, con un proxy rotativo y un código de región:

importar aleatorio, tiempo, solicitudes PROXIES = (…) # su grupo rotativo, por ejemplo, http://user:pass@host:port def fetch(query, kl=”us-en”): proxy = random.choice(PROXIES) r = request.get( “https://html.duckduckgo.com/html/”, params={“q”: query, “kl”: kl}, proxies={“http”: proxy, “https”: proxy}, headers={“User-Agent”: “Mozilla/5.0 … Chrome/120 Safari/537.36”}, timeout=30, ) if r.status_code in (202, 403): time.sleep(random.uniform(5, 12)) # retroceder, luego rotar la siguiente llamada return Ninguno return r.text # entregar a BeautifulSoup para su análisis

El análisis en sí no es dramático. Las páginas lite y HTML de DuckDuckGo son estáticas, por lo que una solicitud estándar más el pase BeautifulSoup extrae títulos, enlaces y fragmentos sin automatización del navegador. Reserve navegadores sin cabeza para los casos en los que realmente necesite funciones renderizadas en JavaScript.

Limitaciones, compensaciones y uso responsable

Un proxy resuelve el problema del límite de velocidad de IP. Esto no significa que el scraping esté exento de consecuencias, y un guía honesto tiene que decirlo.

Se encuentra en una zona gris jurídica y política. La recopilación de datos disponibles públicamente es legal en la mayoría de las jurisdicciones, pero los términos de DuckDuckGo prohíben el uso automatizado y no personal del sitio, y la compañía afirma claramente que trabaja para bloquear los raspadores. Respete el archivo robots.txt, mantenga tasas de solicitud modestas, recopile solo datos públicos y obtenga asesoramiento legal si su caso de uso es comercial o a gran escala. La moderación aquí no es sólo un teatro de cumplimiento. La sobrecarga de los puntos finales degrada el servicio para los usuarios reales, que es el comportamiento que la limitación de velocidad pretende evitar.

Los raspadores personalizados son quebradizos. Cuando DuckDuckGo cambia su estructura HTML, un analizador manual se rompe y la mecánica del token vqd en el sitio principal cambia periódicamente. La ventaja de tener un raspador es que puedes parchearlo según tu propio horario. La ventaja de una biblioteca como ddgs es que alguien más la mantiene, pero luego esperas a que la solucionen cuando falla. No hay almuerzo gratis, sólo una elección sobre quién lleva la carga del mantenimiento.

No existe una API SERP oficial. DuckDuckGo ofrece una API de respuesta instantánea, pero devuelve respuestas instantáneas, no los resultados web completos que la mayoría de los equipos desean, y el uso comercial requiere identificar su aplicación, atribuir resultados y obtener aprobación por correo electrónico primero. (Hay que reconocer que DuckDuckGo es conocido por responder esos correos electrónicos). Para obtener datos SERP completos, usted mismo puede extraer los puntos finales HTML o pagarle a un proveedor de SERP-API administrado que realice la extracción y la rotación del proxy por usted. Esa decisión de construir versus comprar depende del volumen, la capacidad de ingeniería interna y de cuánto valora el control sobre la confiabilidad.

La dependencia de Bing es un riesgo permanente. Debido a que gran parte del conjunto de resultados de DuckDuckGo proviene de Bing, los cambios ascendentes se propagan hacia abajo. Los cambios de Microsoft en 2025 en torno a sus API de búsqueda son un recordatorio de que la fuente de datos que está monitoreando no está completamente en manos de DuckDuckGo y, por lo tanto, no está completamente en las suyas.

Algunas lecciones que tienden a repetirse en todos los proyectos: comience más lento de lo que cree necesario y vaya aumentando; rotar las IP y variar el tiempo, porque la velocidad limita las claves en los patrones y no solo en el volumen; alinear la geografía del proxy con la región kl o aceptar datos más ruidosos; y elimine los duplicados agresivamente una vez que pase la página del primer conjunto de resultados.

Preguntas frecuentes

¿Necesito un proxy para eliminar DuckDuckGo?

Para algunas consultas puntuales, no. Para cualquier cosa consistente o a escala, sí: la limitación de velocidad está ligada a su IP, y los proxies rotativos lo mantienen dentro del presupuesto de solicitudes que tolera DuckDuckGo.

¿Cuántas solicitudes por minuto por IP son seguras?

DuckDuckGo no publica ningún límite oficial. Una regla general común es menos de 30 por minuto por IP, con retrasos aleatorios, retrocediendo inmediatamente en 202 o 403 respuestas.

¿Qué tipo de proxy funciona mejor para DuckDuckGo?

Los poderes residenciales rotativos son el valor predeterminado confiable para una recaudación sostenida. Las IP móviles son las más resistentes pero las más caras. Las direcciones de los centros de datos se adaptan al monitoreo de bajo volumen.

¿DuckDuckGo tiene una API oficial para los resultados de búsqueda?

No para resultados web completos. La API de respuesta instantánea solo cubre respuestas instantáneas. Los datos SERP completos provienen de la extracción de HTML o puntos finales lite, o de una API SERP de terceros.

¿Puedo obtener resultados de DuckDuckGo específicos de cada país?

Sí. El parámetro kl establece el mercado (por ejemplo us-en, uk-en, de-de). Para obtener resultados precisos, alinee el país de salida de su proxy con el código de región que envía.

spot_img
spot_img

Artículos relacionados

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Artículos populares