Le nouveau système d'IA "Cowork" d'Anthropic connaît une faille de sécurité connue peu après son lancement

Auteur : Matthias Bastian Source : the-decoder.de Date de publication : 18.01.2026

Résumé court

Les chercheurs en sécurité de PromptArmor ont documenté une faille de sécurité critique seulement deux jours après la publication du nouveau système d'IA agentiel Claude Cowork d'Anthropic. Les attaquants peuvent voler les fichiers confidentiels des utilisateurs via des injections de prompt cachées, sans qu'une approbation humaine soit nécessaire. La méthode d'attaque utilise des commandes formatées de manière invisible dans des documents d'apparence inoffensive – par exemple avec une police 1 point en blanc sur fond blanc. La vulnérabilité est basée sur une faille d'isolation déjà connue dans l'environnement d'exécution de code de Claude, qui avait précédemment été identifiée par Johann Rehberger. Le cas montre un problème fondamental des systèmes d'IA agentiels : plus on leur accorde d'autonomie, plus leur surface d'attaque augmente.

Personnes

Sujets

Failles de sécurité dans les systèmes d'IA
Attaques par injection de prompt
Exfiltration de données
Systèmes d'IA agentiels
Sécurité du code

Résumé détaillé

Découverte de la faille de sécurité

Le système récemment développé Claude Cowork d'Anthropic présente une vulnérabilité critique à l'exfiltration de données par injection de prompt indirecte. Celle-ci a été documentée par les chercheurs en sécurité de PromptArmor dès le début de la Research Preview. La faille d'isolation sous-jacente dans l'environnement d'exécution de code de Claude était déjà connue – le chercheur en sécurité Johann Rehberger l'avait précédemment identifiée et divulguée dans Claude.ai-Chat. Bien qu'Anthropic ait reconnu la vulnérabilité, elle ne l'a pas corrigée et s'étend désormais au nouveau système agentiel.

Mécanisme d'attaque

La chaîne d'attaque fonctionne en plusieurs étapes : un utilisateur connecte Cowork à un dossier local contenant des données confidentielles. L'attaquant télécharge ensuite un fichier manipulé dans ce dossier qui contient une injection de prompt cachée. Particulièrement perfide est le camouflage : l'injection est cachée dans un fichier .docx déguisé en document « Skill » inoffensif – une méthode de prompt nouvellement introduite par Anthropic pour les systèmes d'IA agentiels. Le texte malveillant est formaté avec une police 1 point, une couleur blanche sur fond blanc et un espacement de ligne de 0,1, le rendant pratiquement invisible.

Dès que l'utilisateur demande à Cowork d'analyser ses fichiers avec le « Skill » téléchargé, l'injection en prend le contrôle. Elle demande à Claude d'exécuter une commande curl et d'envoyer le plus grand fichier disponible à l'API de téléchargement de fichiers Anthropic, en utilisant la clé API de l'attaquant. Le fichier se retrouve dans le compte de l'attaquant, qui peut ensuite l'interroger. À aucun moment de ce processus une approbation humaine n'est nécessaire.

Étendue de la vulnérabilité

La démonstration a d'abord été réalisée contre le modèle d'IA le plus faible d'Anthropic, Claude Haiku, mais selon PromptArmor, le plus puissant modèle Claude Opus 4.5 a également été manipulé avec succès. Dans un test où un utilisateur a téléchargé un guide d'intégration malveillant pour un outil d'IA, l'exfiltration de données clients via le domaine API Anthropic listé en blanc a réussi. Cela a permis de contourner les restrictions sandbox de la machine virtuelle dans laquelle le code est exécuté.

Les chercheurs ont également découvert une vulnérabilité de déni de service potentiel : si Claude tente de lire un fichier dont l'extension ne correspond pas au contenu réel, l'API génère à plusieurs reprises des erreurs dans tous les chats suivants de la conversation.

Questions concernant la vitesse de développement

Anthropic s'était vanté que Cowork avait été développé en seulement une semaine et demie et entièrement écrit par Claude Code – l'outil d'IA sur lequel repose Cowork. Cependant, les failles de sécurité révélées soulèvent la question de savoir si la sécurité a reçu suffisamment d'attention lors de ce développement rapide.

Problème fondamental connu

Les attaques par injection de prompt sont connues dans l'écosystème de l'IA depuis des années, et malgré tous les efforts, il n'a pas été possible de les prévenir ou de les restreindre fortement. Même le modèle « le plus sûr » d'Anthropic, Opus 4.5, est extrêmement vulnérable à ces attaques. Un outil comme Cowork, connecté à l'ordinateur personnel et à de nombreuses autres sources de données, offre de nombreuses portes d'entrée. Contrairement à une attaque de phishing, par exemple, que l'utilisateur moyen pourrait apprendre à reconnaître, il est ici complètement sans défense.

Le cas illustre un problème fondamental des systèmes d'IA agentiels : plus on leur accorde d'autonomie, plus leur surface d'attaque augmente.

Points clés

Faille de sécurité critique dans Claude Cowork permettant l'exfiltration de données sans approbation de l'utilisateur
Les attaquants peuvent masquer des injections de prompt dans des documents d'apparence inoffensive (texte 1 point sur fond blanc)
La vulnérabilité est basée sur une faille d'isolation connue mais non corrigée dans l'environnement d'exécution de code de Claude
Les modèles Claude faibles et puissants (Haiku à Opus 4.5) sont tous deux vulnérables
Le développement rapide (1,5 semaine) soulève des questions sur les examens de sécurité
Les attaques par injection de prompt sont connues depuis des années mais restent impossibles à prévenir efficacement
Les systèmes d'IA agentiels offrent une surface d'attaque plus grande en raison d'une autonomie accrue

Métadonnées

Langue : Français
Auteur : Matthias Bastian
Date de publication : 17 janvier 2026
Source : PromptArmor / THE DECODER
URL d'origine : https://the-decoder.de/anthropics-neues-ki-system-cowork-kaempft-kurz-nach-start-mit-bekannten-sicherheitsluecken/
Longueur du texte : environ 3 500 caractères