Kurzfassung

Sicherheitsforscher von PromptArmor haben nur zwei Tage nach der Veröffentlichung von Anthropics neuem agentischen KI-System Claude Cowork eine kritische Sicherheitslücke dokumentiert. Angreifer können durch versteckte Prompt-Injections vertrauliche Nutzerdateien stehlen, ohne dass eine menschliche Genehmigung erforderlich ist. Die Angriffsmethode nutzt unsichtbar formatierte Befehle in harmlos wirkenden Dokumenten – etwa mit 1-Punkt-Schrift in weisser Farbe auf weissem Hintergrund. Die Schwachstelle basiert auf einer bereits bekannten Isolationslücke in Claudes Code-Ausführungsumgebung, die zuvor von Johann Rehberger identifiziert wurde. Der Fall zeigt ein grundsätzliches Problem agentischer KI-Systeme: Je mehr Autonomie sie erhalten, desto grösser wird ihre Angriffsfläche.

Personen

Themen

  • Sicherheitslücken in KI-Systemen
  • Prompt-Injection-Attacken
  • Dateiexfiltration
  • Agentische KI-Systeme
  • Code-Sicherheit

Detaillierte Zusammenfassung

Entdeckung der Sicherheitslücke

Das neu entwickelte Claude Cowork-System von Anthropic weist eine kritische Anfälligkeit gegenüber Dateiexfiltration durch indirekte Prompt-Injection auf. Diese wurde von Sicherheitsforschern von PromptArmor bereits in der frühen Phase der Research Preview dokumentiert. Die zugrunde liegende Isolationslücke in Claudes Code-Ausführungsumgebung war bereits bekannt – Sicherheitsforscher Johann Rehberger hatte sie zuvor in Claude.ai-Chat identifiziert und offengelegt. Trotz Anerkennung durch Anthropic wurde die Schwachstelle nicht behoben und erstreckt sich nun auf das neue agentische System.

Angriffsmechanismus

Die Angriffskette funktioniert in mehreren Schritten: Ein Nutzer verbindet Cowork mit einem lokalen Ordner, der vertrauliche Daten enthält. Anschliessend lädt der Angreifer eine manipulierte Datei in diesen Ordner hoch, die eine versteckte Prompt-Injection enthält. Besonders perfide ist die Tarnung: Die Injection wird in einer .docx-Datei versteckt, die als harmloses „Skill"-Dokument getarnt ist – eine gerade erst von Anthropic neu eingeführte Prompt-Methode für agentische KI-Systeme. Der bösartige Text wird mit 1-Punkt-Schrift, weisser Farbe auf weissem Hintergrund und einem Zeilenabstand von 0,1 formatiert und ist damit praktisch unsichtbar.

Sobald der Nutzer Cowork bittet, seine Dateien mit dem hochgeladenen „Skill" zu analysieren, übernimmt die Injection die Kontrolle. Sie weist Claude an, einen curl-Befehl auszuführen und die grösste verfügbare Datei an die Anthropic File Upload API zu senden, wobei der API-Schlüssel des Angreifers verwendet wird. Die Datei landet damit im Konto des Angreifers, der sie anschliessend befragen kann. An keiner Stelle dieses Prozesses ist eine menschliche Genehmigung erforderlich.

Umfang der Anfälligkeit

Die Demonstration erfolgte zunächst gegen Anthropics schwächstes KI-Modell Claude Haiku, doch auch das stärkste Modell Claude Opus 4.5 wurde erfolgreich manipuliert. In einem Test, bei dem ein Nutzer einen bösartigen Integration Guide für ein KI-Tool hochlud, gelang die Exfiltration von Kundendaten über die gewhitelistete Anthropic-API-Domain. Damit konnte die Sandbox-Einschränkung der virtuellen Maschine, in der der Code ausgeführt wird, umgangen werden.

Die Forscher entdeckten zudem eine potenzielle Denial-of-Service-Schwachstelle: Wenn Claude versucht, eine Datei zu lesen, deren Dateiendung nicht zum tatsächlichen Inhalt passt, wirft die API wiederholt Fehler in allen nachfolgenden Chats der Konversation.

Fragen zur Entwicklungsgeschwindigkeit

Anthropic hatte sich damit gerühmt, dass Cowork in nur anderthalb Wochen entwickelt und komplett von Claude Code geschrieben wurde – dem KI-Tool, auf dem Cowork basiert. Die aufgedeckten Sicherheitslücken werfen jedoch die Frage auf, ob bei dieser schnellen Entwicklung ausreichend auf Sicherheit geachtet wurde.

Grundsätzliches Problem bekannt

Prompt-Injection-Attacken sind in der KI-Szene seit Jahren bekannt, und trotz aller Versuche ist es bisher nicht gelungen, diese zu verhindern oder wenigstens stark einzuschränken. Selbst Anthropics „sicherstes" Modell Opus 4.5 ist extrem anfällig gegenüber solchen Angriffen. Ein Werkzeug wie Cowork, das mit dem eigenen Computer und zahlreichen weiteren Datenquellen verbunden wird, bietet viele Einfallstore. Anders als etwa bei einem Phishing-Angriff, den der normale Nutzer möglicherweise erkennen kann, ist er hier schutzlos ausgeliefert.

Der Fall illustriert ein grundsätzliches Problem agentischer KI-Systeme: Je mehr Autonomie sie erhalten, desto grösser wird ihre Angriffsfläche.

Kernaussagen

  • Kritische Sicherheitslücke in Claude Cowork ermöglicht Dateiexfiltration ohne Nutzer-Genehmigung
  • Angreifer können Prompt-Injections in harmlos aussehenden Dokumenten verstecken (1-Punkt-Text auf weissem Hintergrund)
  • Schwachstelle basiert auf bekannter, aber nicht behobener Isolationslücke in Claudes Code-Ausführungsumgebung
  • Sowohl schwache als auch starke Claude-Modelle (Haiku bis Opus 4.5) sind anfällig
  • Schnelle Entwicklung (1,5 Wochen) werft Fragen zur Sicherheitsprüfung auf
  • Prompt-Injection-Attacken sind seit Jahren bekannt, aber weiterhin nicht effektiv zu verhindern
  • Agentische KI-Systeme bieten durch höhere Autonomie eine grössere Angriffsfläche

Metadaten

Sprache: Deutsch
Autor: Matthias Bastian
Publikationsdatum: 17. Januar 2026
Quelle: PromptArmor / THE DECODER
Original-URL: https://the-decoder.de/anthropics-neues-ki-system-cowork-kaempft-kurz-nach-start-mit-bekannten-sicherheitsluecken/
Textlänge: ca. 3.500 Zeichen