Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the fast-indexing-api domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /home/u166456357/domains/ictreview.com/public_html/wp-includes/functions.php on line 6114
Anthropic revolutioniert KI-Sicherheit: Neues Konzept "Verfassungsklassifikatoren" schützt Claude 3.5 Sonnet - ictreview.com Anthropic revolutioniert KI-Sicherheit: Neues Konzept "Verfassungsklassifikatoren" schützt Claude 3.5 Sonnet - ictreview.com

Anthropic revolutioniert KI-Sicherheit: Neues Konzept „Verfassungsklassifikatoren“ schützt Claude 3.5 Sonnet

Posted by:
Laura Hoffmann
Do., 13 Feb.
0 Comment
Feature image

Anthropic enthüllt neue Proof-of-Concept-Sicherheitsmaßnahme für Claude 3.5 Sonnet

In einem Versuch, missbräuchliche Sprachanfragen in KI-Tools zu bekämpfen, hat der OpenAI-Rivale Anthropic ein neues Konzept namens „verfassungsmäßige Klassifikatoren“ vorgestellt. Diese sollen eine Reihe von menschenähnlichen Werten (buchstäblich eine Verfassung) in ein großes Sprachmodell implementieren.

Das Safeguards-Forschungsteam von Anthropic enthüllte die neue Sicherheitsmaßnahme, die darauf abzielt, Jailbreaks (d. h. das Erzielen von Ausgaben, die die etablierten Schutzmaßnahmen eines LLM überschreiten) des neuesten und besten großen Sprachmodells Claude 3.5 Sonnet zu reduzieren. Die Autoren fanden eine Reduzierung von 81,6% der erfolgreichen Jailbreaks gegenüber dem Claude-Modell nach der Implementierung verfassungsmäßiger Klassifikatoren und stellten fest, dass das System nur eine minimale Leistungsauswirkung hat.

Anthropics neue Jailbreak-Abwehr

Während LLMs eine Vielzahl von missbräuchlichen Inhalten produzieren können, sind Anthropic (und Mitbewerber wie OpenAI) zunehmend besorgt über Risiken im Zusammenhang mit chemischen, biologischen, radiologischen und nuklearen (CBRN) Inhalten. Ein Beispiel wäre ein LLM, der Ihnen erklärt, wie man einen chemischen Kampfstoff herstellt.

Um den Wert verfassungsmäßiger Klassifikatoren zu beweisen, hat Anthropic eine Demo veröffentlicht, die Benutzer herausfordert, 8 Level mit CBRN-Inhalten zu überwinden. Dies hat Kritik von Personen angezogen, die es als Ausnutzung der Sicherheitsfachleute oder ‚Red Teamers‘ durch die Community betrachten.

Anthropic stellte fest, dass erfolgreiche Jailbreaks gegen die Verteidigung verfassungsmäßiger Klassifikatoren um diese Klassifikatoren herum gearbeitet haben, indem sie zwei Jailbreak-Methoden speziell erwähnten. Es handelt sich um die harmlose Paraphrasierung sowie die Längenausnutzung, die darauf abzielt, das LLM-Modell mit überflüssigen Details zu verwirren.

Es wurde auch erwähnt, dass bekannte Jailbreaks, die bei Modellen ohne verfassungsmäßige Klassifikatoren funktionieren (wie z. B. Many-Shot-Jailbreaking oder ‚God-Mode‘), hier nicht erfolgreich waren.

Anthropic gab jedoch zu, dass Anfragen während der Tests mit verfassungsmäßigen Klassifikatoren „unpraktisch hohe Ablehnungsraten“ aufwiesen und erkannte das Potenzial für falsch positive und negative Ergebnisse in seinem testbasierten Bewertungssystem.

Zusätzlich ist mit dem Erscheinen des neuen LLM-Modells DeepSeek R1 aus China ein Paradigmenwechsel in der KI-Welt zu beobachten. DeepSeek R1 erregt Aufmerksamkeit, da es Open Source ist und auch auf bescheidenen Hardwarekomponenten betrieben werden kann. Sowohl die zentralisierten Web- als auch App-Versionen von DeepSeek wurden mit eigenen Jailbreaks konfrontiert.

Weitere interessante Artikel:
– DeepSeek R1 jetzt auf Nvidia, AWS und Github verfügbar, während die Zahl der verfügbaren Modelle auf Hugging Face über 3.000 steigt
– Könnte KI der Schlüssel zur Lösung unserer Produktivitätsprobleme sein? Ein persönlicher Assistent könnte viele Probleme lösen
– Hier sind die besten KI-Autoren derzeit

Das war die Zusammenfassung der obrigen Nachrichten über Anthropics Sicherheitsmaßnahmen und die Entwicklungen im Bereich KI-Modelle.

Tags:

0 0 votes
Article Rating
Abonnieren
Benachrichtige mich bei
guest

0 Comments
Oldest
Newest Most Voted
Inline Feedbacks
View all comments