Los editores estadounidenses exigen que el rastreo común deje de eliminar su contenido

- Advertisement -spot_img

Digital Content Next, un organismo comercial que representa a los editores digitales de EE. UU., envió una carta de cese y desistimiento a la Common Crawl Foundation.

La carta exige que Common Crawl deje de recopilar contenido del editor y elimine el material que ya está en sus conjuntos de datos.

Jason Kint, director ejecutivo de DCN, anunció el aviso legal en una publicación de blog y Press Gazette informó detalles adicionales de la carta esta semana.

Common Crawl ha rastreado varios miles de millones de páginas nuevas cada mes desde 2007 para crear un archivo público gratuito. Ese archivo se ha utilizado para entrenar muchos de los modelos de IA que se utilizan en la actualidad. El artículo GPT-3 de OpenAI enumera el rastreo común filtrado como el 60% de la combinación de entrenamiento del modelo.

La disputa es importante para cualquier sitio que bloquee los rastreadores de IA. Al bloquear el rastreador de Common Crawl, CCBot, se detiene la recopilación futura, pero no se toca el contenido que ya está en el archivo, que cualquiera aún puede descargar.

Lo que exige DCN

La carta pide a Common Crawl que deje de “extraer, retener o compartir contenido protegido por derechos de autor, de pago, exclusivo para suscriptores o protegido de otro modo de las empresas miembros de DCN en sus conjuntos de datos” y que elimine el contenido de los miembros que ya ha recopilado.

DCN afirma que Common Crawl ha “infringido flagrantemente” contenido protegido por derechos de autor al crear sus conjuntos de datos y compartirlos con empresas de inteligencia artificial.

Leer  Google aclara las reglas de datos estructuradas para los programas de devoluciones y fidelización

La carta sostiene que “la ley de derechos de autor no es un régimen de exclusión voluntaria”. En otras palabras, la posición de DCN es que los editores no deberían tener que pedir ser excluidos. Common Crawl debería necesitar permiso para incluirlos.

Kint escribió que el aviso:

“Desafía la creciente suposición de que el contenido creado mediante una inversión sustancial puede recopilarse, almacenarse, reutilizarse y monetizarse simplemente porque es técnicamente accesible”.

Por qué DCN duda del proceso de eliminación

La carta de DCN cuestiona si Common Crawl sigue las instrucciones de exclusión voluntaria y si elimina contenido cuando se le solicita. Según Press Gazette, los abogados de DCN están examinando si las declaraciones de Common Crawl a los editores “pueden haber sido inexactas o engañosas”.

Common Crawl publica un registro público de sitios web que han solicitado no ser eliminados. Incluye entradas para Associated Press, la BBC y una gran presentación de News/Media Alliance que cubre cientos de dominios. Press Gazette informa que la lista también incluye a otras editoriales importantes.

Esta no es la primera vez que se cuestiona el proceso de eliminación. The Atlantic informó en noviembre que el contenido del New York Times y de los editores daneses todavía estaba disponible después de que Common Crawl acordara eliminarlo.

Respuesta del rastreo común

El director ejecutivo de Common Crawl, Rich Skrenta, se negó a comentar sobre la carta cuando Press Gazette lo contactó.

Ya ha rechazado afirmaciones similares antes. En una publicación de blog de noviembre en respuesta a The Atlantic, Skrenta negó que la organización mintiera a los editores o eliminara material de pago.

Leer  Una guía visual para el gerente de anuncios de Tiktok (infografía)

Dijo que el formato del archivo no se puede editar después de la publicación sin romper su integridad. En cambio, Common Crawl dice que elimina o filtra las URL afectadas de rastreos posteriores y las hace inaccesibles a través de sus herramientas e índices públicos:

“Cuando un editor nos pide que eliminemos material previamente rastreado, respondemos con prontitud e iniciamos un proceso de eliminación que refleja el diseño técnico de nuestro conjunto de datos”.

Añadió:

“Nadie en Common Crawl ha afirmado nunca que este trabajo fue instantáneo o completo; más bien, hemos sido abiertos sobre su complejidad y su naturaleza continua”.

En una publicación en el foro esta semana, Skrenta dijo que Common Crawl está contribuyendo al trabajo de estándares abiertos sobre cómo los sitios web expresan las preferencias de raspado de IA.

Por qué esto importa

La carta de DCN se centra en el archivo almacenado, no sólo en el rastreo futuro, y sostiene que la carga de optar por no participar no debería recaer en los editores en primer lugar.

La mayoría de los editores de la muestra de BuzzStream ya tomaron la decisión de bloquear: el 79% de los 100 sitios de noticias que revisó bloquearon al menos un robot de capacitación. Los datos del resumen del año de Cloudflare que cubrimos en enero encontraron a CCBot entre los bots con la mayor cantidad de directivas de prohibición completas en los principales dominios. La pregunta que plantea DCN es qué logran esos bloques si de todos modos quedan años de contenido disponibles para capacitación.

Mirando hacia el futuro

Que DCN se intensifique depende de cómo responda Common Crawl, y Common Crawl no ha dicho cómo lo hará. Las dos partes quieren reglas diferentes sobre quién actúa primero.

Leer  La ciencia de cómo presta atención la IA

Skrenta respalda el trabajo de estándares que permitiría a los sitios indicar sus preferencias de scraping, lo que sigue optando por no participar como modelo. La CMA del Reino Unido tomó un camino similar cuando exigió a Google que permitiera a los editores optar por no utilizar las funciones de búsqueda de IA.

DCN sostiene que los raspadores deberían necesitar permiso primero. Si más grupos comerciales adoptan ese argumento, la presión pasará de los archivos robots.txt individuales a los archivos mismos.


Imagen destacada: André Boukreev/Shutterstock

spot_img
spot_img

Artículos relacionados

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Artículos populares