Para una empresa que tiene m谩s de 3 mil millones de usuarios activos, y el flujo interminable de datos que proviene de eso, es una maravilla por qu茅 Meta necesita confiar en tocos tales de datos externos para alimentar sus herramientas de IA.
En cualquier caso, con la compa帽铆a enfrentando un desaf铆o legal significativo en los Estados Unidos por el uso no autorizado del material protegido por derechos de autor para capacitar a su modelo de LLAMA, Meta tambi茅n ha sido golpeado con otro desaf铆o de derechos de autor, esta vez en Francia, donde los editores franceses tambi茅n han lanzado acciones legales por infracci贸n de derechos de autor.
Seg煤n lo informado por Bloomberg:
“Los editores y autores franceses est谩n demandando a Meta por infracci贸n de derechos de autor, acusando al gigante tecnol贸gico de usar sus libros para capacitar a su modelo generativo de inteligencia artificial sin autorizaci贸n. SNE, la asociaci贸n comercial que representa a los principales editores franceses, incluido Hachette y Publicadojunto con SGDL de la Asociaci贸n de Autores y la Uni贸n de Escritores de SNAC, presentaron una queja esta semana en un tribunal de Par铆s dedicado a la propiedad intelectual, dijo el grupo en una conferencia de prensa el mi茅rcoles “.
Parece que, al igual que el colectivo estadounidense que busca retener a Meta para tener en cuenta ilegalmente sus obras, los editores franceses tambi茅n han encontrado lo mismo, que los modelos de IA de Meta pueden producir r茅plicas altamente precisas del trabajo de sus autores, se帽alando probablemente el raspado y el robo de su propiedad intelectual.
Que probablemente se deriva del mismo impulso de desarrollo de IA en la empresa.
Seg煤n los informes, despu茅s del surgimiento de OpenAi en 2022, el CEO de Meta, Mark Zuckerberg, estaba desesperado por ponerse al d铆a y construir un modelo de IA rival que asegurar铆a que Meta siguiera siendo el l铆der en la carrera de IA.
Seg煤n los informes, Zuckerberg aprob贸 el uso de lo que Meta sab铆a que era material protegido por derechos de autor para construir su modelo de idioma.
Seg煤n lo informado por el New York Times:
“Meta no pudo igualar el chatgpt a menos que obtenga m谩s datos. Algunos debatieron pagar $ 10 por libro por los derechos completos de licencias a los nuevos t铆tulos. Discutieron la compra de Simon & Schuster, que publica autores como Stephen King, seg煤n las grabaciones. Tambi茅n hablaron sobre c贸mo hab铆an resumido libros, ensayos y otros trabajos de Internet sin permiso y discutieron la absorci贸n m谩s, incluso si eso significaba enfrentar demandas. Un abogado advirti贸 sobre las preocupaciones “茅ticas” en torno a tomar propiedad intelectual de los artistas, pero se encontr贸 con el silencio, seg煤n las grabaciones “.
Seg煤n los informes, meta, se integr贸 el material de origen ilegal y protegido por derechos de autor, desde las plataformas de raspado que sab铆a que operaban en violaci贸n de la ley.
El problema, seg煤n NYT, era que a pesar de que Meta tiene tantos usuarios de sus aplicaciones, la mayor parte del contenido que producen no es demasiado 煤til para construir su modelo de IA, porque las personas eliminan publicaciones m谩s antiguas, las personas generalmente no publican contenido m谩s largo en la aplicaci贸n, el estilo de escritura no se alinea con la naturaleza conversacional de los chatbots, etc.
Como tal, para que Meta compita, necesitaba nuevas fuentes de datos, y lo encontr贸 en libros pirateados. Que los editores han detectado a trav茅s de sus propios medios.
Lo que podr铆a ver a Meta enfrentar un desfile de demandas en todo el mundo, especialmente si estos casos iniciales conducen a acuerdos de compensaci贸n para los autores impactados.
De hecho, si se puede establecer un precedente legal, puede apostar a que cada editorial del mundo oler谩 el efectivo y estar谩 rastreando cualquier informaci贸n que puedan encontrar para oler rastros de sus propios trabajos.
Lo que podr铆a conducir a sanciones importantes para el meta avance.
Pero espera, 驴c贸mo podr铆a OpenAi, una nueva empresa mucho m谩s peque帽a, sin acceso a miles de millones de informaci贸n de los usuarios, desarrollar su propia base de datos de la misma manera sin los mismos problemas de derechos de autor?
Bueno, tambi茅n enfrenta varios desaf铆os legales para lo mismo.
De hecho, en todos estos casos, puede esperar ver que OpenAi tambi茅n est谩 siendo investigada por la misma violaci贸n, ya que los autores y editores buscan un recurso para el uso no autorizado.
Los datos son la fuente de energ铆a arterial de los modelos de idiomas grandes, y la compa帽铆a con las mejores fuentes de datos eventualmente ganar谩, porque su sistema producir谩 resultados mejores, m谩s precisos y m谩s utilizables, seg煤n el conjunto de referencias. Sin esa fuente de datos inicial, los sistemas no tienen nada que continuar, lo cual es aparentemente por qu茅 Meta y OpenAi, y otros, estaban dispuestos a asumir tales riesgos para construir sus LLM.
Al mismo tiempo, una vez que se construyen, existen, y luego puede entrenarlos con datos complementarios desde all铆. Por lo tanto, Meta puede haber visto esto como un riesgo necesario en la configuraci贸n, lo que ahora le permitir谩 hacer m谩s uso de su propio tesoro de datos para refinar sus modelos.
Eso es similar a c贸mo Xai se est谩 acercando a su LLM, construyendo la base, luego utilizando X publicaciones para refinar y revisar el modelo para proporcionar actualizaciones informativas en tiempo real.
Como tal, si bien esto puede terminar cost谩ndoles, podr铆a valer la pena, compensada por los beneficios que obtendr谩n al vender sus modelos.
De cualquier manera, los tribunales pueden tardar a帽os en litigar cada caso, y para entonces, puede haber un nuevo enfoque legal para la capacitaci贸n de LLM y el uso de tales obras.
Puedes apostar que Meta est谩 explorando todos los 谩ngulos en este frente.