OpenAI Fundado en secreto Benchmarking DataSet vinculado al modelo O3

- Advertisement -spot_img

Las revelaciones que OpenAi financiaron en secreto y tuvieron acceso al conjunto de datos de evaluación comparativa Frontiermath están generando preocupaciones sobre si se utilizó para entrenar su modelo de razonamiento de razonamiento AI y la validez de los altos puntajes del modelo.

Además de acceder al conjunto de datos de evaluación comparativa, Openai financió su creación, un hecho que fue retenido de los matemáticos que contribuyeron al desarrollo del Frontiermath. Epoch Ai reveló tardíamente los fondos de OpenAi solo en el artículo final publicado en arxiv.org, que anunció el punto de referencia. Las versiones anteriores del documento omitieron cualquier mención de la participación de Openai.

Captura de pantalla de papel frontiermath

Primer plano de reconocimiento

Versión anterior del documento que carecía de reconocimiento

El modelo Operai 03 obtuvo un puntaje altamente en Frontiermath Benchmark

La noticia de la participación secreta de Operai es plantear preguntas sobre los altos puntajes logrados por el modelo de AI de razonamiento O3 y causar decepción con el proyecto Frontiermath. Epoch AI respondió con transparencia sobre lo que sucedió y lo que están haciendo para verificar si el modelo O3 fue entrenado con el conjunto de datos Frontiermath.

Dar acceso de OpenAI al conjunto de datos fue inesperado porque el objetivo es probar los modelos AI, pero eso no se puede hacer si los modelos conocen las preguntas y respuestas de antemano.

Una publicación en el subreddit de R/Singularity expresó esta decepción y citó un documento que afirmó que los matemáticos no sabían sobre la participación de OpenAI:

“Frontier Math, el reciente punto de referencia de matemáticas de vanguardia, está financiado por Operai. Operai supuestamente tiene acceso a los problemas y soluciones. Esto es decepcionante porque el punto de referencia se vendió al público como un medio para evaluar los modelos fronterizos, con el apoyo de los reconocidos matemáticos. En realidad, Epoch AI está construyendo conjuntos de datos para OpenAi. Nunca antes revelaron lazos con OpenAi “.

La discusión de Reddit citó una publicación que reveló la participación más profunda de Openai:

“Los matemáticos que crean los problemas para Frontiermath no fueron (activamente) (2) comunicados sobre la financiación de OpenAI.

… Ahora la época AI o Openai no dicen públicamente que OpenAi tiene acceso a los ejercicios, respuestas o soluciones. He escuchado de segunda mano que OpenAi tiene acceso a ejercicios y respuestas y que los usan para validación “.

Tamay Besiroglu (perfil de LinkedIn), director asociado de Epoch AI, reconoció que OpenAi tenía acceso a los conjuntos de datos, pero también afirmó que había un conjunto de datos “Holdout” al que OpenAi no tenía acceso.

Leer  La mayoría de los estadounidenses quieren etiquetas de IA, pocas detección de confianza

Escribió en el documento citado:

“Tamay de Epoch Ai aquí.

Cometimos un error al no ser más transparentes sobre la participación de OpenAi. Nos restringió revelar la asociación hasta que se lanzó alrededor del momento en que se lanzó O3, y en retrospectiva deberíamos haber negociado más duro para la capacidad de ser transparentes a los contribuyentes de referencia lo antes posible. Nuestro contrato nos impidió específicamente divulgar información sobre la fuente de financiación y el hecho de que OpenAI tiene acceso de datos a mucho, pero no a todo el conjunto de datos. Somos dueños de este error y estamos comprometidos a hacerlo mejor en el futuro.

Con respecto al uso de la capacitación: reconocemos que OpenAI tiene acceso a una gran fracción de problemas y soluciones de Frontiermath, con la excepción de un conjunto de retención invisible por Openai que nos permite verificar de forma independiente las capacidades del modelo. Sin embargo, tenemos un acuerdo verbal de que estos materiales no se utilizarán en la capacitación modelo.

Operai también ha apoyado por completo nuestra decisión de mantener un conjunto de retención no visto por separado, una salvaguardia adicional para evitar el sobreajuste y garantizar una medición precisa del progreso. Desde el primer día, Frontiermath fue concebido y presentado como una herramienta de evaluación, y creemos que estos arreglos reflejan ese propósito. “

Más datos sobre OpenAi y Frontiermath revelados

Elliot Glazer (perfil de LinkedIn/perfil de Reddit), el matemático principal de Epoch AI confirmó que OpenAi tiene el conjunto de datos y que se les permitió usarlo para evaluar el modelo de lenguaje grande de Openi, que es su próxima IA de última generación a la que se refiere Como modelo de AI de razonamiento. Ofreció su opinión de que los puntajes altos obtenidos por el modelo O3 son “legítimos” y que la época AI está llevando a cabo una evaluación independiente para determinar si O3 tenía o no acceso al conjunto de datos Frontiermath para el entrenamiento, lo que podría lanzar los puntajes altos del modelo en un luz diferente.

Leer  Google muestra por qué las clasificaciones colapsaron después de la migración del dominio

Él escribió:

“El matemático principal de Epoch aquí. Sí, Oai financió esto y tiene el conjunto de datos, lo que les permitió evaluar O3 interno. Todavía no hemos verificado de forma independiente su reclamo del 25%. Para hacerlo, actualmente estamos desarrollando un conjunto de datos de retención y podremos probar su modelo sin que tengan ninguna exposición previa a estos problemas.

Mi opinión personal es que la puntuación de OAI es legítima (es decir, no entrenaron en el conjunto de datos), y que no tienen ningún incentivo para mentir sobre las actuaciones de evaluación comparativa interna. Sin embargo, no podemos garantizarlos hasta que nuestra evaluación independiente esté completa ”.

Glazer también había compartido que Epoch AI iba a probar O3 usando un conjunto de datos “Holdout” al que OpenAi no tenía acceso, diciendo:

“Vamos a evaluar el O3 con OAI con cero exposición previa a los problemas de retención. Esto será hermético “.

Otra publicación en Reddit de Glazer describió cómo se creó el “conjunto de Holdout”:

“Describiremos el proceso más claramente cuando el set de Holdout Eval se realice realmente, pero estamos eligiendo los problemas de retención al azar de un conjunto más grande que se agregará a Frontiermath. El proceso de producción es idéntico a cómo siempre ha sido “.

Esperando respuestas

Ahí es donde se mantiene el drama hasta que se complete la evaluación de la época AI, lo que indicará si OpenAi había entrenado o no su modelo de razonamiento de IA con el conjunto de datos o solo lo usó para evaluarlo.

Imagen destacada de Shutterstock/Antonello Marangi

(Tagstotranslate) Noticias

Leer  Reddit publica guías de marketing navideñas
spot_img
spot_img

Artículos relacionados

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Artículos populares