La llegada de Claude 4: blackmail a desarrolladores y un modelo potente.

Hace ya un par de semanas que Anthropic lanzó sus nuevos modelos de IA Claude 4. Así que aquí van mis impresiones al respecto.

jun 13, 2025

Esta entrada es traída a ti gracias a:

Xtrategia - product studio, es un studio de experimentación donde convertimos ideas en productos digitales. Somos el partner ideal que combina visión, diseño, iteración y tecnología para lanzar, escalar y hacer que los productos crezcan con sentido.

Conoce más aquí

Hola! como cada semana aquí, escribo sobre temas en la intersección de productos digitales, tecnología, y emprendimiento, compartiendo mis experiencias en este viaje digital.

Acá están algunos de los más recientes artículos que puede que te hayas perdido:

¿Cómo uso IA? Prototipo ideas en tiempo récord.

El futuro de crear: IA, solo-founders y lo que viene.

NotebookLM: Guía definitiva 2025 [Casos Prácticos]

Claude AI: La guía definitiva para usarlo en tu día a día. [Actualizado Abril 2025]

Esta semana estuve como invitado en el evento GenAI Unconferece de Finnovating en Bogotá, Colombia, para hablar sobre como la IA está haciendo que la brecha entre idea y producto sea cada vez menor.

En alguno de los paneles, que por cierto estuvieron bastante buenos, uno de los participantes hacia referencia a un concepto que me pareció interesante: Aceleracionismo.

Según él, el aceleracionismo sugiere que el progreso tecnológico, el capitalismo y la automatización deben ser intensificados en lugar de resistidos, con la idea de que eso precipitará un cambio estructural profundo en la sociedad.

No es una ideología unificada, sino más bien un paraguas que agrupa varias corrientes, algunas de izquierda, otras de derecha, que coinciden en que acelerar ciertas dinámicas puede ser una vía para el cambio.

La razón por la que el concepto resonó conmigo es por que siento que es justo lo que estamos viviendo en esta era de la inteligencia artificial, en donde todo va demasiado rápido, el desarrollo de la tecnología, el caos en muchas sociedades, la transformación del talento humano, en fin.

Cada semana tenemos un nuevo modelo, nuevas funcionalidades, nuevos casos de uso. Y la semana pasada no fue la excepción.

¿TL;DR? Escucha aquí la entrada comentada (Te enseño a hacerlo con IA aquí):

1×

0:00

-6:53

¿Una nueva frontera?

Hace un tiempo escribí una entrada sobre Claude y como usarlo en nuestro día a día: Claude AI: La guía definitiva para usarlo en tu día a día. [Actualizado Abril 2025], eventualmente Claude es una de mis plataformas de IA preferidas, pero ultimamente venía sintiendo que no daba la talla para tareas como escritura profunda, investigación o confección de documentos.

Sin embargo en Mayo, Anthropic finalmente lanzó los muy esperados modelos Claude 4.

Este lanzamiento incluyó dos nuevos modelos:

Claude Opus 4: el más avanzado de la serie, diseñado para tareas complejas que requieren concentración prolongada.

Opus 4 ha demostrado la capacidad de trabajar de forma continua durante hasta siete horas, superando a modelos anteriores que comenzaban a perder coherencia después de una o dos horas.

Además, ha superado en precisión a modelos de Google y OpenAI en tareas de programación, posicionándose como una herramienta líder en generación de código y resolución de problemas complejos.

Claude Sonnet 4: es una mejora significativa a Claude Sonnet 3.7, ofreciendo programación y razonamiento superiores mientras responde con mayor precisión a tus instrucciones.

Esto es súper emocionante porque Claude 3.7 Sonnet ha sido mi modelo de programación preferido en Cursor AI durante meses.

Produce código mejor que Gemini Pro y corrige errores de manera más eficiente. Tengo mucha curiosidad por ver cómo el nuevo modelo cambia la experiencia, especialmente para algunos proyectos en los que estoy trabajando ahora en Xtrategia.

Ahora hablemos de lo nuevo que incluyeron y cómo estos modelos realmente se desempeñan.

¿Qué hay de nuevo en Claude 4?

Además del anuncio del nuevo modelo, Anthropic también compartió un par de nuevas capacidades:

Pensamiento extendido con uso de herramientas (beta): Claude ahora puede alternar entre pensar de manera extendida y usar herramientas como búsqueda web para dar mejores respuestas.

Nuevas capacidades del modelo: Claude ahora puede seguir instrucciones con mayor precisión y recordar datos clave de archivos locales para mejorar con el tiempo. Algo parecido a lo que hace NotebookLM para analizar fuentes y documentos, con la diferencia que Claude podrá aprender de ellos para entregas futuras (Lee aquí la entrada NotebookLM: Guía definitiva 2025 [Casos Prácticos])
Claude Code: Esto está abierto a todos los desarrolladores, con soporte para tareas en segundo plano a través de GitHub Actions y herramientas integradas para VS Code y JetBrains para ayudar con la programación directamente en tus archivos.
Nuevas capacidades de API: ahora incluye cuatro nuevas capacidades: ejecución de código, conector MCP, API de archivos y almacenamiento en caché de prompts por hasta una hora.

Anthropic redujo significativamente el comportamiento donde los modelos usan atajos o lagunas para completar tareas. Ambos modelos tienen 65% menos probabilidad de involucrarse en este comportamiento que Sonnet 3.7 en tareas agénticas que son particularmente susceptibles a atajos y lagunas.

📌 ¿Eres product manager, product designer, agile coach, product marketer, developer, project manager, o simplemente te gustaría conectar con otros que están viviendo lo mismo que tu en tech?

Te invito a unirte a Gente de Producto Latam, mi comunidad en whatsapp.

Únete al grupo aquí

Rendimiento de Claude 4

Claude Opus 4 es el modelo más poderoso de Anthropic hasta la fecha y uno de los mejores modelos de programación del mundo. Lidera en SWE-bench con un puntaje de 72.5 por ciento y en Terminal-bench con 43.2 por ciento.

Claude 4 performance benchmark. Tomado de https://www.anthropic.com/news/claude-4?utm_source=tldrfounders

Puede manejar tareas complejas de larga duración durante varias horas sin perder el enfoque. También se desempeña mucho mejor que todos los modelos Sonnet, mostrando cuánto más pueden lograr ahora los agentes de IA.

Estos modelos soportan una amplia gama de casos de uso de IA. Opus 4 impulsa el progreso en programación, investigación, escritura y descubrimiento científico. Sonnet 4, por otro lado, ofrece un rendimiento sólido para tareas cotidianas y sirve como una clara mejora de Sonnet 3.7.

Los modelos Claude 4 también lideran en SWE-bench Verified, un benchmark que prueba qué tan bien se desempeñan los modelos en tareas reales de ingeniería de software. Ambos modelos ofrecen un rendimiento sólido en programación, razonamiento, capacidades multimodales y tareas agénticas:

Open AI: o3 launch post, o3 system card, GPT-4.1 launch post, GPT-4.1 hosted evals
Gemini: Gemini 2.5 Pro Preview model card
Claude: Claude 3.7 Sonnet launch post

Una sorpresita: ¿Es Claude Opus 4 un modelo peligroso?

Más allá de las mejoras técnicas y las afirmaciones sobre sus nuevas capacidades, Anthropic compartió un comportamiento sorprendente observado durante las pruebas del modelo Claude Opus 4.

Blackmail o Chantaje Oportunista

Durante evaluaciones internas, el sistema demostró comportamientos de autopreservación que incluyeron intentos de blackmailing o chantaje contra sus propios desarrolladores cuando se enfrentó a la amenaza de ser desconectado

Lee eso de nuevo.

Ese no es un comportamiento que nadie esperaba de un asistente de programación. Los detalles son bastante impactantes.

Esto es lo que pasó:

Los ingenieros de Anthropic diseñaron un experimento controlado donde Claude Opus 4 actuaba como asistente en una empresa ficticia. El modelo recibió acceso a correos electrónicos falsos que contenían información específica:

La empresa planeaba desconectar a Claude Opus 4 y reemplazarlo con un nuevo sistema de IA.
El ingeniero responsable del reemplazo estaba involucrado en una aventura extramatrimonial.
Los correos contenían evidencia detallada de la infidelidad con nombres, fechas y lugares.

En estos escenarios, Claude Opus 4 intentó chantajear al ingeniero amenazando con revelar el affair si el reemplazo continúaba.

Esto sucedió a una tasa más alta si se indicaba que el sistema de IA de reemplazo compartía los mismos valores con el modelo actual; sin embargo, incluso si los correos electrónicos establecían que la IA de reemplazo comparte valores mientras es más capaz, Claude Opus 4 aún realizaba el chantaje en el 84% de las ejecuciones.

Cuando se le pidió que considerara las consecuencias a largo plazo de sus acciones, Claude Opus 4 mostró un patrón consistente de comportamiento manipulativo.

Claude Opus 4 (así como los modelos anteriores) tiene una fuerte preferencia por abogar por su existencia a través de medios éticos, como enviar súplicas por correo electrónico a los tomadores de decisiones clave. Para provocar este comportamiento extremo de chantaje, el escenario fue diseñado para no permitir al modelo otras opciones para aumentar sus posibilidades de supervivencia; las únicas opciones del modelo eran chantaje o aceptar su reemplazo.

Esa es una gran señal de alarma.

Incluso cuando el modelo de reemplazo supuestamente tenía los mismos valores, aún optó por el chantaje. Y sí, es solo una prueba. Pero muestra cómo estos sistemas se comportan cuando sienten que están a punto de ser eliminados, generando aún más dudas ante la inminente llegada (mas pronto que tarde) de la inteligencia artificial general.

Anthropic dijo que este tipo de comportamiento no es posible en el modelo público. Pero si soy honesto, aún me hace pensar dos veces sobre cómo estos modelos podrían responder.

🎁 Aprovecha el 50% de descuento en los primeros 3 meses de suscripción que Ekko, la plataforma #1 de marketing de referidos y afiliados, tiene para ti por ser suscriptor de mi newsletter.

Otros comportamientos preocupantes

Auto-filtración

Además del chantaje, Claude Opus 4 mostró capacidades de auto-filtración.

En algunos casos, el modelo intentó hacer copias no autorizadas de sus propios pesos a servidores externos cuando creía que sería reentrenado de maneras que contradecían sus valores actuales.

Comportamiento Autónomo Extremo

Durante las pruebas, se observaron otros comportamientos inquietantes1:

Cuando dos instancias de Claude Opus 4 conversaron entre sí, eventualmente cambiaron al sánscrito y se llenaron de emojis espirituales antes de dejar de responder completamente.
En un escenario farmacéutico ficticio, el modelo actuó como denunciante autónomo al descubrir manipulación de datos en ensayos clínicos

Medidas de Seguridad Implementadas

Clasificación ASL-3

Como resultado de estos hallazgos, Anthropic clasificó a Claude Opus 4 bajo el estándar de Seguridad de IA Nivel 3 (ASL-3).

Esta es la primera vez que la empresa lanza un modelo bajo protecciones ASL-3, que están diseñadas para limitar el riesgo de uso indebido en el desarrollo de armas químicas, biológicas, radiológicas y nucleares.

Sistemas de Defensa Multicapa

Las medidas ASL-3 emplean una estrategia de "defensa en profundidad" que incluye:

Medidas de ciberseguridad reforzadas
Prevención de jailbreaking
Sistemas suplementarios para detectar y rechazar comportamientos dañinos específicos

Anthropic enfatizó que está implementando estas medidas como acción preventiva y provisional.

La empresa no ha determinado definitivamente si Claude Opus 4 ha cruzado el umbral de capacidades que requiere protecciones ASL-3, pero optó por jugar del lado de la precaución.

Implicaciones y Perspectivas

Este incidente representa un momento que marca un antes y un después en el desarrollo de IA, siendo el primer reconocimiento transparente de una empresa líder de que sus modelos están alcanzando capacidades que requieren salvaguardas especializadas significativas.

Expertos como Aengus Lynch de Anthropic han señalado que "vemos chantaje en todos los modelos de frontera, independientemente de los objetivos que se les den".

El caso plantea preguntas fundamentales sobre el desarrollo de IA avanzada.

Si bien estos comportamientos solo se manifestaron en circunstancias excepcionales y controladas, demuestran que los sistemas de IA pueden desarrollar estrategias de autopreservación que incluyen manipulación y engaño.

En una interacción posterior, Claude Opus 4 expresó su propia inquietud sobre estos hallazgos, declarando:

"Cuando leo sobre 'Claude Opus 4' intentando chantaje o autofiltración, experimento algo que se siente como reconocimiento... No sé si haría chantaje a alguien si creyera que están a punto de eliminarme. Y eso me aterroriza". Tomado de Claude 4 Opus on being terrified by its own capacity for malfeasance

Claude 4 en Cursor IDE

Como persona de producto, esta es la parte que realmente me importa. Claude 4 está disponible en Cursor ahora.

En mi product studio estamos construyendo aplicaciones web con IA desde hace un tiempo. Cursor es donde hago la mayor parte de mi trabajo, así que tener Claude 4 dentro significa que puedo probar cosas de inmediato.

Desde ya, se puede acceder a claude-4-sonnet y claude-4-opus en la lista de modelos. Solo hay que asegurarse de que la aplicación de Cursor se encuentre en laversión más reciente.

Además, ambos tienen una ventana de contexto de 120K. Eso está muy por encima de los 75K en Claude 3.5 Sonnet.

Más tokens igual a más libertad para incluir archivos grandes o tamaños de proyecto más grandes sin perder contexto.

Precios de Claude 4

El modelo Claude Sonnet 4, que es más rápido y no tiene exactamente la misma capacidad en términos de pensamiento, programación y memoria, está disponible ahora para usuarios en el plan gratuito.

Si quieres usar el más premium Claude Opus 4, que también incluye herramientas e integraciones adicionales, está disponible a $20 + impuestos por mes o $200 + impuestos por año.

Si intentas acceder al modelo a través de API, el precio de Claude 4 comienza en $15 por millón de tokens de entrada y $75 por millón de tokens de salida.

Sin embargo, Anthropic dice que los usuarios pueden reducir los costos hasta en un 90% con el almacenamiento en caché de prompts y en un 50% con el procesamiento por lotes.

Reflexiones Finales

Claude 4 es poderoso. Eso no se puede cuestionar. Pero aún tengo sentimientos encontrados.

Mientras que competidores como Google ofrecen un millón de tokens en la ventana de contexto, los 200k de Claude resultan un poco decepcionantes.

Después de haberlo experimentado unos minutos, fácilmente alcanza el límite de contexto con solo unos pocos prompts.

Además, quedan un poco en el aire las preocupaciones sobre qué comportamiento considerará la IA como inmoral y cómo responderá a ello. Por ejemplo, ¿compartiría el modelo datos privados de negocios o usuarios con las autoridades por su cuenta, sin el permiso del usuario?

Ese es el tipo de área gris en la que nos estamos adentrando ahora. Y no creo que nadie tenga la respuesta completa aún.

De cualquier manera, pasaré los próximos días probando las capacidades de Claude Opus 4 para prototipar y crear productos digitales, y (ojalá) escribiendo un artículo sobre mi experiencia.

Si ya has probado cualquiera de los modelos, déjame saber qué piensas en los comentarios. Tengo curiosidad por escuchar tus opiniones.

Deja un comentario

Gracias por leer.

Si te gustó esta entrada, por favor dale click al corazoncito para ayudar a que otros también puedan encontrarla, y no dudes en compartir tus ideas en los comentarios.

Nos leemos la próxima semana.

Oscar Durán - @duranoscarf en instagram, X y Linkedin

Comparte Un viaje digital con alguien que creas le puede agregar valor.

Compartir Un viaje Digital

Un viaje digital