Claude Sonnet 5 de Anthropic es “inteligencia cercana al Opus” para todos los planes

- Advertisement -spot_img

Anthropic lanzó Claude Sonnet 5, el último modelo de clase Sonnet. Aunque no es un avance en el modelo de frontera, Sonnet 5 mejora significativamente el rendimiento con respecto a los modelos anteriores para ofrecer capacidades de codificación más sólidas, mejor rendimiento agente y un uso de tokens más eficiente.

El anuncio de Anthropic enfatizó el desempeño de la agencia, específicamente la capacidad del modelo para llevar a cabo un trabajo de varios pasos con una guía humana menos directa. Anthropic dice que Sonnet 5 puede hacer planes, utilizar herramientas como navegadores y terminales, y operar de forma autónoma a un nivel que recientemente requería modelos más grandes y caros.

Sonnet 5 es más económico con tokens

Anthropic muestra que Sonnet 5 mejora con respecto al 4.6 con opciones de menor precio y mayor calidad. Opus 4.8 aún supera a Sonnet 5 en precisión, pero Anthropic dice que el nivel de esfuerzo se puede ajustar para encontrar el mejor equilibrio entre costo y rendimiento. También hay un precio de lanzamiento para Sonnet 5 de $2/MTok de entrada y $10/MTok de salida hasta el 31 de agosto.

Puntos de referencia de rendimiento de Sonnet 5

Sonnet 5 supera a Sonnet 4.6, GPT-5.5 y Gemini 3.5 Flash en varios puntos de referencia.

BrowseComp prueba qué tan bien un agente de IA puede localizar información difícil de encontrar en la web.

Puntuaciones de BrowseComp:

  • Claude Soneto 5: 84,7 (agente único)
  • Claude Soneto 4.6: 76.2
  • GPT-5.5: 84.4

Terminal-Bench 2.1 es una prueba de la capacidad de un modelo de IA con tareas de codificación en terminal y CLI.

Puntajes de Terminal-Bench 2.1:

  • Claudio Soneto 5: 80,4
  • Claude Soneto 4.6: 67.0
  • GPT-5.5: 83.4 (CLI del Códice)
  • Géminis 3.5: Destello 76.2
Leer  Gap Inc. recluta microinfluencers para un nuevo programa de afiliados

SWE-bench Pro es un punto de referencia de ingeniería de software en el que Sonnet 5 superó a otros LLM similares.

Puntuaciones de SWE-bench Pro:

  • Claudio Soneto 5: 63,2
  • Claudio Soneto 4.6: 58.1
  • GPT-5.5: 58.6
  • Géminis 3.5 Flash: 55.1

FrontierCode es un punto de referencia para la codificación agente en 150 tareas, un punto de referencia en el que Sonnet 5 superó significativamente a GPT-5.5.

La tarjeta del sistema Claude Sonnet 5 explica:

“Cada tarea le da al agente un repositorio verificado y una única descripción del problema; luego, el agente trabaja de forma autónoma en un entorno en contenedores para producir un parche final, sin intervención humana ni información de tiempo de espera.

Los parches se clasifican según criterios funcionales de bloqueo (principalmente pruebas unitarias retenidas) más criterios de rúbrica ponderados, incluidas comprobaciones calificadas por modelo para la cobertura de pruebas requerida y patrones de implementación prohibidos. Las tareas fueron creadas por los mantenedores de los repositorios subyacentes y revisadas individualmente por investigadores de Cognition, con un subconjunto aleatorio resuelto manualmente para verificar la equidad”.

Las puntuaciones de FrontierCode:

  • Claudio Soneto 5: 38,8
  • Soneto de Claudio 4.6: 15.1
  • GPT-5.5: 25.5

El Soneto 5 es una “inteligencia cercana al Opus”

Anthropic no afirma que Sonnet 5 sea un modelo revolucionario, aunque sí dice que es su modelo clase Sonnet más capaz. La tarjeta del sistema explica que es menos capaz que los modelos Opus y Mythos más capaces de Anthropic. Sin embargo, Anthropic afirma que es “Inteligencia casi Opus al precio de Sonnet para codificación, agentes y trabajo profesional diario.

Leer  Las descripciones generales de la IA muestran menos cuando los usuarios no interactúan

Lea el anuncio completo en Anthropic.

Imagen destacada de Shutterstock/jackpress

spot_img
spot_img

Artículos relacionados

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Artículos populares