Google Research publicó un artículo que estudia cómo hacer que los sistemas generativos de IA produzcan respuestas que hagan más que parecer plausibles. Los investigadores dicen que su marco ALDRIFT “abre caminos interesantes” para ir más allá de respuestas que simplemente tienen una alta probabilidad.
El documento, titulado “Optimización eficiente de muestras sobre antecedentes generativos mediante capacidad de aprendizaje aproximado“, examina un problema en el que las respuestas generadas deben seguir siendo probables bajo un modelo y al mismo tiempo avanzar hacia un objetivo separado. La investigación apunta hacia nuevas vías para abordar la trampa de la plausibilidad de la IA.
Google SIEMPRE
La evidencia en el artículo se centra en un marco llamado ALDRIFT (Ajuste iterado de objetivos impulsado por algoritmos). El método refina repetidamente un modelo generativo hacia respuestas de menor costo y utiliza un paso de corrección para reducir el error acumulado durante el proceso.
El artículo también presenta la “capacidad de aprendizaje burda”. El término significa que no es necesario que el modelo aprendido coincida perfectamente con el objetivo ideal. Debe mantener suficiente cobertura sobre partes importantes del espacio de respuestas para que no se pierdan posibilidades útiles demasiado pronto. Bajo ese supuesto, los autores demuestran que ALDRIFT puede aproximarse a la distribución objetivo con un número polinómico de muestras.
ALDRIFT opera en una configuración de dos partes
ALDRIFT opera en una configuración de dos partes:
- El modelo generativo representa qué tipos de respuestas siguen siendo probables según el modelo.
- El proceso de puntuación externo mide si la respuesta de un candidato funciona bien con respecto al objetivo objetivo.
Los autores describen esa puntuación como un “costo”. La palabra “costo” se refiere a la penalización medida asignada a la respuesta de un candidato. Un costo menor significa que al candidato le fue mejor de acuerdo con el requisito que se está verificando. ALDRIFT no busca simplemente una respuesta de bajo coste. Busca respuestas que obtengan una buena puntuación y que al mismo tiempo sigan siendo probables según el modelo generativo.
Algunas respuestas de IA deben funcionar en su conjunto
Los investigadores se centran en respuestas de IA a problemas en los que la respuesta tiene que funcionar en el mundo real, como sus ejemplos de planificación de rutas y planificación de conferencias.
- Planificación de rutas: el documento explica que un LLM puede evaluar si los segmentos de ruta individuales son pintorescos, pero puede tener dificultades para garantizar que esos segmentos se conecten en una ruta válida.
- Planificación de conferencias: un LLM puede agrupar sesiones por tema, mientras que puede ser necesario un algoritmo clásico para programar esas sesiones en un horario sin conflictos.
Estos ejemplos muestran por qué el artículo trata las respuestas plausibles como sólo una parte del problema. La cuestión más difícil es producir respuestas que sigan siendo coherentes cuando partes separadas tienen que trabajar juntas como una solución completa.
El supuesto de capacidad de aprendizaje aproximado
El artículo trata esto como un problema de guiar un modelo generativo hacia respuestas que se mantengan unidas en todas sus partes. Los autores conectan el problema con la alineación del tiempo de inferencia, donde un modelo se ajusta durante el uso en función de si una respuesta específica funciona como una solución completa. Esa conexión da relevancia práctica a la investigación, aunque la contribución del artículo sigue siendo teórica y depende del supuesto aproximado de capacidad de aprendizaje.
La frase “supuesto aproximado de capacidad de aprendizaje” significa que la teoría del artículo depende del supuesto de que el modelo puede mantener suficientes posibilidades útiles disponibles mientras se lo impulsa hacia mejores respuestas.
Esto no significa que el modelo deba conocer el objetivo a la perfección. Significa que el modelo debe preservar suficiente cobertura del espacio de respuestas para que el proceso no se estanque demasiado pronto o pierda posibles mejores respuestas.
Los métodos de optimización existentes dejan lagunas limitadas en las muestras
El documento identifica varias lagunas en cómo se entienden los métodos de optimización existentes:
- Limitación de los métodos existentes: Los métodos clásicos de optimización basados en modelos se basan en “argumentos de convergencia asintótica”. Esto significa que se entienden teóricamente después de grandes cantidades de muestreo, pero no necesariamente en entornos prácticos con muestras limitadas.
- Fracaso con modelos expresivos: El artículo dice que estos supuestos clásicos “se rompen” cuando se utilizan modelos generativos expresivos como las redes neuronales.
- Brecha de comprensión: Los autores dicen que el “comportamiento de muestra finita” de la optimización en este entorno “teóricamente no está caracterizado”. Eso significa que la teoría no explica completamente cómo se comportan estos métodos cuando sólo hay muestras limitadas disponibles.
La solución del artículo es introducir una “capacidad de aprendizaje burda” para explicar cómo se puede impulsar un modelo generativo hacia mejores respuestas manteniendo al mismo tiempo suficientes posibilidades útiles disponibles a lo largo del camino.
La evidencia del LLM es limitada
La prueba principal del artículo se aplica a los modelos generativos analíticos, que son más fáciles de analizar matemáticamente que los LLM modernos. La evidencia de los LLM es más limitada: los autores utilizan GPT-2 en problemas simples de programación y relacionados con gráficos, mostrando un comportamiento que respalda la idea sin demostrar que los mismos supuestos se aplican a los LLM modernos.
La investigación apunta a una base para investigaciones futuras
El artículo ofrece una base teórica para estudiar cómo los modelos generativos podrían combinarse con procesos de verificación externos.
La investigación muestra que los investigadores de Google están explorando un marco para abordar el problema de la “respuesta plausible”, y los autores escriben que “el marco abre vías interesantes para futuras investigaciones”. Concluyen que esta investigación apunta “hacia una base de principios para los modelos generativos adaptativos”.
Comidas para llevar
- El requisito de “cobertura”:
La capacidad de aprendizaje aproximada significa que el modelo no tiene que aprender el objetivo a la perfección. Debe evitar perder áreas útiles del espacio de respuestas donde podrían existir mejores soluciones. - El paso de corrección importa:
ALDRIFT utiliza un paso de corrección para mantener la búsqueda más cerca del objetivo previsto a medida que el modelo avanza hacia mejores respuestas. - Enfoque de dos partes:
El marco utiliza una división del trabajo. El modelo generativo maneja preferencias cualitativas o semánticas, mientras que un proceso separado verifica si la respuesta funciona como una solución completa. - Evidencia limitada de LLM:
Las pruebas con GPT-2 mostraron un comportamiento que respalda la idea en ejemplos simples relacionados con programación y gráficos, pero no prueba de que los mismos supuestos sean válidos para los LLM modernos. - El uso en el mundo real es el objetivo más amplio:
La investigación es importante para los SEO y las empresas porque cada vez se espera que las respuestas de la IA hagan más que resumir información. Necesitan respaldar decisiones, planes y acciones que se mantengan unidas fuera de la interfaz del chat. Si bien es probable que el marco no se utilice en producción, sí muestra que Google está avanzando en brindar respuestas que son más que plausibles.
Lea el trabajo de investigación aquí:
Optimización eficiente de muestras sobre antecedentes generativos mediante capacidad de aprendizaje aproximado (PDF)
Imagen destacada de Shutterstock/Faizal Ramli

