Anthropic revolutioniert KI-Sicherheit: Neues Konzept "Verfassungsklassifikatoren" schützt Claude 3.5 Sonnet

Anthropic revolutioniert KI-Sicherheit: Neues Konzept „Verfassungsklassifikatoren“ schützt Claude 3.5 Sonnet

Anthropic enthüllt neue Proof-of-Concept-Sicherheitsmaßnahme für Claude 3.5 Sonnet

In einem Versuch, missbräuchliche Sprachanfragen in KI-Tools zu bekämpfen, hat der OpenAI-Rivale Anthropic ein neues Konzept namens „verfassungsmäßige Klassifikatoren“ vorgestellt. Diese sollen eine Reihe von menschenähnlichen Werten (buchstäblich eine Verfassung) in ein großes Sprachmodell implementieren.

Das Safeguards-Forschungsteam von Anthropic enthüllte die neue Sicherheitsmaßnahme, die darauf abzielt, Jailbreaks (d. h. das Erzielen von Ausgaben, die die etablierten Schutzmaßnahmen eines LLM überschreiten) des neuesten und besten großen Sprachmodells Claude 3.5 Sonnet zu reduzieren. Die Autoren fanden eine Reduzierung von 81,6% der erfolgreichen Jailbreaks gegenüber dem Claude-Modell nach der Implementierung verfassungsmäßiger Klassifikatoren und stellten fest, dass das System nur eine minimale Leistungsauswirkung hat.

Anthropics neue Jailbreak-Abwehr

Während LLMs eine Vielzahl von missbräuchlichen Inhalten produzieren können, sind Anthropic (und Mitbewerber wie OpenAI) zunehmend besorgt über Risiken im Zusammenhang mit chemischen, biologischen, radiologischen und nuklearen (CBRN) Inhalten. Ein Beispiel wäre ein LLM, der Ihnen erklärt, wie man einen chemischen Kampfstoff herstellt.

Um den Wert verfassungsmäßiger Klassifikatoren zu beweisen, hat Anthropic eine Demo veröffentlicht, die Benutzer herausfordert, 8 Level mit CBRN-Inhalten zu überwinden. Dies hat Kritik von Personen angezogen, die es als Ausnutzung der Sicherheitsfachleute oder ‚Red Teamers‘ durch die Community betrachten.

Anthropic stellte fest, dass erfolgreiche Jailbreaks gegen die Verteidigung verfassungsmäßiger Klassifikatoren um diese Klassifikatoren herum gearbeitet haben, indem sie zwei Jailbreak-Methoden speziell erwähnten. Es handelt sich um die harmlose Paraphrasierung sowie die Längenausnutzung, die darauf abzielt, das LLM-Modell mit überflüssigen Details zu verwirren.

Es wurde auch erwähnt, dass bekannte Jailbreaks, die bei Modellen ohne verfassungsmäßige Klassifikatoren funktionieren (wie z. B. Many-Shot-Jailbreaking oder ‚God-Mode‘), hier nicht erfolgreich waren.

Anthropic gab jedoch zu, dass Anfragen während der Tests mit verfassungsmäßigen Klassifikatoren „unpraktisch hohe Ablehnungsraten“ aufwiesen und erkannte das Potenzial für falsch positive und negative Ergebnisse in seinem testbasierten Bewertungssystem.

Zusätzlich ist mit dem Erscheinen des neuen LLM-Modells DeepSeek R1 aus China ein Paradigmenwechsel in der KI-Welt zu beobachten. DeepSeek R1 erregt Aufmerksamkeit, da es Open Source ist und auch auf bescheidenen Hardwarekomponenten betrieben werden kann. Sowohl die zentralisierten Web- als auch App-Versionen von DeepSeek wurden mit eigenen Jailbreaks konfrontiert.

Weitere interessante Artikel:
– DeepSeek R1 jetzt auf Nvidia, AWS und Github verfügbar, während die Zahl der verfügbaren Modelle auf Hugging Face über 3.000 steigt
– Könnte KI der Schlüssel zur Lösung unserer Produktivitätsprobleme sein? Ein persönlicher Assistent könnte viele Probleme lösen
– Hier sind die besten KI-Autoren derzeit

Das war die Zusammenfassung der obrigen Nachrichten über Anthropics Sicherheitsmaßnahmen und die Entwicklungen im Bereich KI-Modelle.

Phishing-Alarm: Experten warnen vor gefälschten E-Mail-Login-Angriffen und betrügerischen Krypto-Schemen – Tipps zur Sicherheit und Abwehr

Do., 13 Feb.

0 0 votes

Article Rating