OpenAI Fundado en secreto Benchmarking DataSet vinculado al modelo O3

February 2, 2025

- Advertisement -

Las revelaciones que OpenAi financiaron en secreto y tuvieron acceso al conjunto de datos de evaluación comparativa Frontiermath están generando preocupaciones sobre si se utilizó para entrenar su modelo de razonamiento de razonamiento AI y la validez de los altos puntajes del modelo.

Además de acceder al conjunto de datos de evaluación comparativa, Openai financió su creación, un hecho que fue retenido de los matemáticos que contribuyeron al desarrollo del Frontiermath. Epoch Ai reveló tardíamente los fondos de OpenAi solo en el artículo final publicado en arxiv.org, que anunció el punto de referencia. Las versiones anteriores del documento omitieron cualquier mención de la participación de Openai.

Captura de pantalla de papel frontiermath

Primer plano de reconocimiento

Versión anterior del documento que carecía de reconocimiento

El modelo Operai 03 obtuvo un puntaje altamente en Frontiermath Benchmark

La noticia de la participación secreta de Operai es plantear preguntas sobre los altos puntajes logrados por el modelo de AI de razonamiento O3 y causar decepción con el proyecto Frontiermath. Epoch AI respondió con transparencia sobre lo que sucedió y lo que están haciendo para verificar si el modelo O3 fue entrenado con el conjunto de datos Frontiermath.

Dar acceso de OpenAI al conjunto de datos fue inesperado porque el objetivo es probar los modelos AI, pero eso no se puede hacer si los modelos conocen las preguntas y respuestas de antemano.

Una publicación en el subreddit de R/Singularity expresó esta decepción y citó un documento que afirmó que los matemáticos no sabían sobre la participación de OpenAI:

“Frontier Math, el reciente punto de referencia de matemáticas de vanguardia, está financiado por Operai. Operai supuestamente tiene acceso a los problemas y soluciones. Esto es decepcionante porque el punto de referencia se vendió al público como un medio para evaluar los modelos fronterizos, con el apoyo de los reconocidos matemáticos. En realidad, Epoch AI está construyendo conjuntos de datos para OpenAi. Nunca antes revelaron lazos con OpenAi “.

La discusión de Reddit citó una publicación que reveló la participación más profunda de Openai:

“Los matemáticos que crean los problemas para Frontiermath no fueron (activamente) (2) comunicados sobre la financiación de OpenAI.
… Ahora la época AI o Openai no dicen públicamente que OpenAi tiene acceso a los ejercicios, respuestas o soluciones. He escuchado de segunda mano que OpenAi tiene acceso a ejercicios y respuestas y que los usan para validación “.

Tamay Besiroglu (perfil de LinkedIn), director asociado de Epoch AI, reconoció que OpenAi tenía acceso a los conjuntos de datos, pero también afirmó que había un conjunto de datos “Holdout” al que OpenAi no tenía acceso.

Leer Cómo superar el estancamiento de un sitio afiliado

Escribió en el documento citado:

“Tamay de Epoch Ai aquí.
Cometimos un error al no ser más transparentes sobre la participación de OpenAi. Nos restringió revelar la asociación hasta que se lanzó alrededor del momento en que se lanzó O3, y en retrospectiva deberíamos haber negociado más duro para la capacidad de ser transparentes a los contribuyentes de referencia lo antes posible. Nuestro contrato nos impidió específicamente divulgar información sobre la fuente de financiación y el hecho de que OpenAI tiene acceso de datos a mucho, pero no a todo el conjunto de datos. Somos dueños de este error y estamos comprometidos a hacerlo mejor en el futuro.
Con respecto al uso de la capacitación: reconocemos que OpenAI tiene acceso a una gran fracción de problemas y soluciones de Frontiermath, con la excepción de un conjunto de retención invisible por Openai que nos permite verificar de forma independiente las capacidades del modelo. Sin embargo, tenemos un acuerdo verbal de que estos materiales no se utilizarán en la capacitación modelo.
Operai también ha apoyado por completo nuestra decisión de mantener un conjunto de retención no visto por separado, una salvaguardia adicional para evitar el sobreajuste y garantizar una medición precisa del progreso. Desde el primer día, Frontiermath fue concebido y presentado como una herramienta de evaluación, y creemos que estos arreglos reflejan ese propósito. “

Más datos sobre OpenAi y Frontiermath revelados

Elliot Glazer (perfil de LinkedIn/perfil de Reddit), el matemático principal de Epoch AI confirmó que OpenAi tiene el conjunto de datos y que se les permitió usarlo para evaluar el modelo de lenguaje grande de Openi, que es su próxima IA de última generación a la que se refiere Como modelo de AI de razonamiento. Ofreció su opinión de que los puntajes altos obtenidos por el modelo O3 son “legítimos” y que la época AI está llevando a cabo una evaluación independiente para determinar si O3 tenía o no acceso al conjunto de datos Frontiermath para el entrenamiento, lo que podría lanzar los puntajes altos del modelo en un luz diferente.

Leer Instagram agrega nuevas formas de crear contenido

Él escribió:

“El matemático principal de Epoch aquí. Sí, Oai financió esto y tiene el conjunto de datos, lo que les permitió evaluar O3 interno. Todavía no hemos verificado de forma independiente su reclamo del 25%. Para hacerlo, actualmente estamos desarrollando un conjunto de datos de retención y podremos probar su modelo sin que tengan ninguna exposición previa a estos problemas.
Mi opinión personal es que la puntuación de OAI es legítima (es decir, no entrenaron en el conjunto de datos), y que no tienen ningún incentivo para mentir sobre las actuaciones de evaluación comparativa interna. Sin embargo, no podemos garantizarlos hasta que nuestra evaluación independiente esté completa ”.

Glazer también había compartido que Epoch AI iba a probar O3 usando un conjunto de datos “Holdout” al que OpenAi no tenía acceso, diciendo:

“Vamos a evaluar el O3 con OAI con cero exposición previa a los problemas de retención. Esto será hermético “.

Otra publicación en Reddit de Glazer describió cómo se creó el “conjunto de Holdout”:

“Describiremos el proceso más claramente cuando el set de Holdout Eval se realice realmente, pero estamos eligiendo los problemas de retención al azar de un conjunto más grande que se agregará a Frontiermath. El proceso de producción es idéntico a cómo siempre ha sido “.

Esperando respuestas

Ahí es donde se mantiene el drama hasta que se complete la evaluación de la época AI, lo que indicará si OpenAi había entrenado o no su modelo de razonamiento de IA con el conjunto de datos o solo lo usó para evaluarlo.

Imagen destacada de Shutterstock/Antonello Marangi

(Tagstotranslate) Noticias

Leer 5 mejores prácticas para crear informes de marketing de canales cruzados para clientes

OpenAI Fundado en secreto Benchmarking DataSet vinculado al modelo O3

Captura de pantalla de papel frontiermath

Primer plano de reconocimiento

Versión anterior del documento que carecía de reconocimiento

El modelo Operai 03 obtuvo un puntaje altamente en Frontiermath Benchmark

Más datos sobre OpenAi y Frontiermath revelados

Esperando respuestas

Artículos relacionados

Sergey Brin de Google ve un camino hacia la AGI, pero no más allá

Por qué los usuarios huyen a la búsqueda sin IA y qué significa para el SEO

Google debe permitir que los sitios web opten por no utilizar las funciones de búsqueda de IA en el Reino Unido

LEAVE A REPLY Cancel reply

Artículos populares

Martin Splitt de Google revela 3 errores y soluciones de SEO...

7 mejores agencias de marketing de IA para transformar su estrategia...

Guía de precios de la agencia de IA 2025: Modelos, costos...

Las 9 mejores plantillas de calendario de contenido para 2024

10 cosas que deben saber sobre la configuración de la campaña...

25 mejores ejemplos de páginas de preguntas frecuentes efectivas

Chipotle conecta SMS, Social para celebrar los ‘extras’ del Super Bowl

OPCIONES EDITORIALES

Si inviertes £150 por semana en una ISA durante 35 años,...

9 firma que es hora de actualizar su sitio web

Google lanza una actualización principal en medio de la revisión de...

Tendencias

Martin Splitt de Google revela 3 errores y soluciones de SEO...

7 mejores agencias de marketing de IA para transformar su estrategia...

Guía de precios de la agencia de IA 2025: Modelos, costos...

TABLAS POPULARES

Etiquetas populares

Sobre nosotras

Síganos