Anthropic: Devrim Yaratan Anayasal Sınıflandırıcılar - AI Güvenliği için Yenilikçi Bir Adım

Anthropic: Devrim Yaratan Anayasal Sınıflandırıcılar – AI Güvenliği için Yenilikçi Bir Adım

Anthropic, AI dünyasında devrim yaratacak bir güvenlik önlemi olan “Anayasal Sınıflandırıcılar”ı tanıttı. Bu yeni konsept, insan benzeri değerleri büyük dil modellerine aşılamayı amaçlıyor. Anthropic’in güvenlik ekibi, Claude 3.5 Sonnet modelinde kullanılan bu güvenlik önlemini, başarılı hücre dışı çıkışlarını engellemek için tasarladı. Yapılan testler, Anayasal Sınıflandırıcılar’ın uygulanmasının Claude modelinde başarılı hücre dışı çıkışları %81,6 oranında azalttığını gösterdi. Bu yeni koruma önlemi, modelin performansına minimal bir etki yaratırken, saldırılara karşı etkili bir savunma mekanizması sağlıyor. Bu gelişme, AI dünyasında büyük yankı uyandırırken, güvenlik açıklarını tespit etme ve kapatma konusundaki çabalarını sürdüren Anthropic, sektördeki lider konumunu pekiştirmeye devam ediyor.

“Sosyal Medya Dolandırıcılığına Karşı Güvende Kalmanın Yolları – SentinelLabs Raporuna Göre Bilmeniz Gerekenler”

Per, 13 Şub

0 0 votes

Article Rating