Los editores estadounidenses exigen que el rastreo común deje de eliminar su contenido

June 10, 2026

- Advertisement -

Digital Content Next, un organismo comercial que representa a los editores digitales de EE. UU., envió una carta de cese y desistimiento a la Common Crawl Foundation.

La carta exige que Common Crawl deje de recopilar contenido del editor y elimine el material que ya está en sus conjuntos de datos.

Jason Kint, director ejecutivo de DCN, anunció el aviso legal en una publicación de blog y Press Gazette informó detalles adicionales de la carta esta semana.

Common Crawl ha rastreado varios miles de millones de páginas nuevas cada mes desde 2007 para crear un archivo público gratuito. Ese archivo se ha utilizado para entrenar muchos de los modelos de IA que se utilizan en la actualidad. El artículo GPT-3 de OpenAI enumera el rastreo común filtrado como el 60% de la combinación de entrenamiento del modelo.

La disputa es importante para cualquier sitio que bloquee los rastreadores de IA. Al bloquear el rastreador de Common Crawl, CCBot, se detiene la recopilación futura, pero no se toca el contenido que ya está en el archivo, que cualquiera aún puede descargar.

Lo que exige DCN

La carta pide a Common Crawl que deje de “extraer, retener o compartir contenido protegido por derechos de autor, de pago, exclusivo para suscriptores o protegido de otro modo de las empresas miembros de DCN en sus conjuntos de datos” y que elimine el contenido de los miembros que ya ha recopilado.

DCN afirma que Common Crawl ha “infringido flagrantemente” contenido protegido por derechos de autor al crear sus conjuntos de datos y compartirlos con empresas de inteligencia artificial.

Leer Google revisa el 15% estadística de consultas invisibles en el contexto de la búsqueda de IA

La carta sostiene que “la ley de derechos de autor no es un régimen de exclusión voluntaria”. En otras palabras, la posición de DCN es que los editores no deberían tener que pedir ser excluidos. Common Crawl debería necesitar permiso para incluirlos.

Kint escribió que el aviso:

“Desafía la creciente suposición de que el contenido creado mediante una inversión sustancial puede recopilarse, almacenarse, reutilizarse y monetizarse simplemente porque es técnicamente accesible”.

Por qué DCN duda del proceso de eliminación

La carta de DCN cuestiona si Common Crawl sigue las instrucciones de exclusión voluntaria y si elimina contenido cuando se le solicita. Según Press Gazette, los abogados de DCN están examinando si las declaraciones de Common Crawl a los editores “pueden haber sido inexactas o engañosas”.

Common Crawl publica un registro público de sitios web que han solicitado no ser eliminados. Incluye entradas para Associated Press, la BBC y una gran presentación de News/Media Alliance que cubre cientos de dominios. Press Gazette informa que la lista también incluye a otras editoriales importantes.

Esta no es la primera vez que se cuestiona el proceso de eliminación. The Atlantic informó en noviembre que el contenido del New York Times y de los editores daneses todavía estaba disponible después de que Common Crawl acordara eliminarlo.

Respuesta del rastreo común

El director ejecutivo de Common Crawl, Rich Skrenta, se negó a comentar sobre la carta cuando Press Gazette lo contactó.

Ya ha rechazado afirmaciones similares antes. En una publicación de blog de noviembre en respuesta a The Atlantic, Skrenta negó que la organización mintiera a los editores o eliminara material de pago.

Leer Lo que los SEO deberían leer antes del Día del Trabajo, 5 libros para un verano transformador

Dijo que el formato del archivo no se puede editar después de la publicación sin romper su integridad. En cambio, Common Crawl dice que elimina o filtra las URL afectadas de rastreos posteriores y las hace inaccesibles a través de sus herramientas e índices públicos:

“Cuando un editor nos pide que eliminemos material previamente rastreado, respondemos con prontitud e iniciamos un proceso de eliminación que refleja el diseño técnico de nuestro conjunto de datos”.

Añadió:

“Nadie en Common Crawl ha afirmado nunca que este trabajo fue instantáneo o completo; más bien, hemos sido abiertos sobre su complejidad y su naturaleza continua”.

En una publicación en el foro esta semana, Skrenta dijo que Common Crawl está contribuyendo al trabajo de estándares abiertos sobre cómo los sitios web expresan las preferencias de raspado de IA.

Por qué esto importa

La carta de DCN se centra en el archivo almacenado, no sólo en el rastreo futuro, y sostiene que la carga de optar por no participar no debería recaer en los editores en primer lugar.

La mayoría de los editores de la muestra de BuzzStream ya tomaron la decisión de bloquear: el 79% de los 100 sitios de noticias que revisó bloquearon al menos un robot de capacitación. Los datos del resumen del año de Cloudflare que cubrimos en enero encontraron a CCBot entre los bots con la mayor cantidad de directivas de prohibición completas en los principales dominios. La pregunta que plantea DCN es qué logran esos bloques si de todos modos quedan años de contenido disponibles para capacitación.

Mirando hacia el futuro

Que DCN se intensifique depende de cómo responda Common Crawl, y Common Crawl no ha dicho cómo lo hará. Las dos partes quieren reglas diferentes sobre quién actúa primero.

Leer Google explica por qué los archivos de rechazo de enlaces no se procesan de inmediato

Skrenta respalda el trabajo de estándares que permitiría a los sitios indicar sus preferencias de scraping, lo que sigue optando por no participar como modelo. La CMA del Reino Unido tomó un camino similar cuando exigió a Google que permitiera a los editores optar por no utilizar las funciones de búsqueda de IA.

DCN sostiene que los raspadores deberían necesitar permiso primero. Si más grupos comerciales adoptan ese argumento, la presión pasará de los archivos robots.txt individuales a los archivos mismos.

Imagen destacada: André Boukreev/Shutterstock

Los editores estadounidenses exigen que el rastreo común deje de eliminar su contenido

Lo que exige DCN

Por qué DCN duda del proceso de eliminación

Respuesta del rastreo común

Por qué esto importa

Mirando hacia el futuro

Artículos relacionados

La prueba de SEO de Google muestra lo que sucede en una ventana de renderizado de 5 segundos

Tres actualizaciones que debes realizar antes de publicar

Cómo los editores pueden monetizar la visibilidad de la IA

LEAVE A REPLY Cancel reply

Artículos populares

Martin Splitt de Google revela 3 errores y soluciones de SEO...

7 mejores agencias de marketing de IA para transformar su estrategia...

Guía de precios de la agencia de IA 2025: Modelos, costos...

Las 9 mejores plantillas de calendario de contenido para 2024

25 mejores ejemplos de páginas de preguntas frecuentes efectivas

10 cosas que deben saber sobre la configuración de la campaña...

Chipotle conecta SMS, Social para celebrar los ‘extras’ del Super Bowl

OPCIONES EDITORIALES

Apple implementa categorías de calificación de nueva edad para aplicaciones

La plataforma que su equipo se saltó durante 20 años

El nuevo papel de la búsqueda local en la experiencia del...

Tendencias

Martin Splitt de Google revela 3 errores y soluciones de SEO...

7 mejores agencias de marketing de IA para transformar su estrategia...

Guía de precios de la agencia de IA 2025: Modelos, costos...

TABLAS POPULARES

Etiquetas populares

Sobre nosotras

Síganos