Anthropic: Devrim Yaratan Anayasal Sınıflandırıcılar – AI Güvenliği için Yenilikçi Bir Adım

Posted by:
Selin Yıldız
Per, 13 Şub
0 Comment
Feature image

Anthropic, AI dünyasında devrim yaratacak bir güvenlik önlemi olan “Anayasal Sınıflandırıcılar”ı tanıttı. Bu yeni konsept, insan benzeri değerleri büyük dil modellerine aşılamayı amaçlıyor. Anthropic’in güvenlik ekibi, Claude 3.5 Sonnet modelinde kullanılan bu güvenlik önlemini, başarılı hücre dışı çıkışlarını engellemek için tasarladı. Yapılan testler, Anayasal Sınıflandırıcılar’ın uygulanmasının Claude modelinde başarılı hücre dışı çıkışları %81,6 oranında azalttığını gösterdi. Bu yeni koruma önlemi, modelin performansına minimal bir etki yaratırken, saldırılara karşı etkili bir savunma mekanizması sağlıyor. Bu gelişme, AI dünyasında büyük yankı uyandırırken, güvenlik açıklarını tespit etme ve kapatma konusundaki çabalarını sürdüren Anthropic, sektördeki lider konumunu pekiştirmeye devam ediyor.

Tags:

0 0 votes
Article Rating
Subscribe
Bildir
guest

0 Comments
Eskiler
En Yeniler Beğenilenler
Inline Feedbacks
View all comments