Qué puede hacer
La demostración presentada por Anthropic mostró al modelo renovando la matrícula de un vehículo en el equivalente americano a la DGT. La empresa señala que Sonnet 4.6 puede resolver tareas que antes requerían su versión más potente —Opus 4.5 y 4.6— y que sus resultados en OSWorld, el estándar de referencia para medir el uso de computadoras por IA, crecieron de forma sostenida durante dieciséis meses consecutivos. Estas capacidades agénticas se ofrecen también en el plan gratuito.
La estrategia detrás del lanzamiento
El movimiento se enmarca en una ofensiva más amplia de Anthropic: la empresa acaba de cerrar una ronda de financiación de 30.000 millones de dólares y apareció por primera vez con publicidad en la Super Bowl, con un mensaje que apuntaba indirectamente a OpenAI. El objetivo es captar al usuario cotidiano y modificar su relación con la IA, pasando del chatbot como herramienta a la IA como ejecutora de tareas concretas.
Los desafíos pendientes
El principal riesgo técnico son los ataques de prompt injection: instrucciones maliciosas embebidas en páginas web que pueden manipular al agente y hacer que realice acciones no deseadas. Anthropic mejoró la resistencia del modelo ante este tipo de amenazas, pero el problema no está resuelto. A eso se suma el desafío práctico de lidiar con webs gubernamentales complejas, cuya experiencia de usuario supone un obstáculo incluso para las personas. La brecha entre lo que el modelo puede demostrar en condiciones controladas y lo que logra en la burocracia digital real sigue siendo la prueba de fuego del agente.
