“Anthropic, Claude 3.5 Sonnet modelinə yeni bir güvenlik tədbirinin sınandığı bir araştırmanın nəticələri açıqlandı”
OpenAI rakibi Anthropic, zorba doğal dil tələblərinə qarşı mübarizə aparmaq məqsədilə yeni bir konsept olan “konstitusiya klassifikatorlarını” təqdim etdi. Bu koncepsiya, insan kimi dəyər sistemlərini (adətən, bir konstitusiyaya) geniş bir dil modelinə sərmayələşdirmək mənasını daşıyır. Şirkətin Safeguards Research Team adlı komandası, Claude 3.5 Sonnet modelindən daha böyük bir dil modelinə sığorta tədbirini açıqladı. Yapılan testlər, konstitusiya klassifikatorlarının tətbiqi ilə Claude modelinə qarşı uğurlu cəzaçekmələrdə 81.6% azalmanın olduğunu göstərdi. Yeni güvenlik tədbiri ilə sistemdə minimal performans təsiri olduğu da qeyd olundu.
Anthropic, konstitusiya klassifikatorunu məşhur etmək məqsədilə istifadəçilərinə 8 səviyyəli CBRN-məzmunu əlaqəli cəzaçekişləri müzakirə etməsi təklif edən bir demo nümayiş etdi. Bu addım, təhlükələrdən qorunmaq isteyən zaman adi insanların köməyinə əsaslanan bir təhlükəsizlik təşkilatı yarattığını düşünənlərin tənqidinə səbəb oldu.
Anthropic, konstitusiya klassifikator təlimatlarına qarşı uğurlu cəzaçekişlərin bu klassifikatorları döləndirməklə işlədiklərini qeyd etdi. Bununla birlikdə, konstitusiya klassifikatorları olmadan əməliyyat göstərən modelə məxsus olan bazı cəzaçekimlərin uğursuz olduğunu etiraf etdi. Ancaq, testlər zamanı verilən təlimatların “praktik olaraq yüksək rədd edilmə oranları” olduğunu kabul edərək, səhv müsbətlər və səhv mənfi nəticələr üçün nizamla(meterial-based testing system) qəbul etdi.
Çin’dən gələn DeepSeek R1 modeli də tanıdığımız bir başqa LLM modelidir. Bu model, açıq mənbəli və müasir səviyyəli idarə olunan veb və tətbiq versiyaları ilə çətinlik yaşamış, məsələn, Çinin tarixi və siyasətinin mübahisəli cəhətlərində müdafiələrə əsaslaşdırıldığı konularla bağlı əlaqə qurmaları yasaqlanmışdır.
DeepSeek R1 şimdilik Nvidia, AWS və Github-da mövcud modellərdən biri olub və Hugging Face avtomat modelləri 3000-ni ötmüşdür.