“AI Chatbotların Xəbərləri Düzgün Şəkildə Özətləyə Bilməməsi: BBC-nin Tədqiqatı Nəticələri”

Posted by:
Rauf Panahov
Be, 24 Fev
0 Comment
Feature image

BBC-dən gələn yeni bir araşdırma AI chatbotların xəbərləri düzgün şəkildə özetləyə bilmədiyini göstərir. Araşdırma ChatGPT, Gemini, Copilot və Perplexity kimi chatbotları öz xidmətlərini BBC xəbərlərini özündə əks etdirən yüz dənə xəbərdən ibarət həftəlik texniki texnologiyalar özetləməyə sınayıb. Nəticələrinə əsasən, “bütün AI cavablarının 51% -inin bir formada ciddi problemlərə malik olduğu” və “BBC məzmununu göstərən AI cavablarının 19%-i, yəni, səhv faktiki məlumatlar, səhv faktlar və tarixlər da daxil olmaqla, faktiki səhvlərə yol açdı”. Tədqiqat müxtəlif səhvlərin nümunələrinə yer verir: “Gemini NHS-nin təkərlemə əsasında tərkibdə olmayacağını yanlış bildirdi” və “ChatGPT və Copilot Rishi Sunak və Nicola Sturgeonun ofisdən ayrıldıqdan sonra belə olduğunu iddia etdilər.

Zəhmət olmasa təəssüratlısan? BBC-nin tədqiqatından sonra Microsoftun Copilotu və Googlenin Geminisi OpenAI-ın ChatGPT və Perplexity-dən daha çox əhəmiyyətli məsələlərə malik olduğunu qeyd etdi. Bu tədqiqat bizi əsasən daha çox məlumat verməz, ancaq AI özetləyici alətlərə etirazların doğruluğunu təsdiqləyir və AI chatbotlardan gələn məlumatları bəzi şübhələrə qoymaqın nə qədər əhəmiyyətli olduğunu vurğulayır. AI tezliklə inkişaf edir və hal-hazırda həftəlik yayımlanacaq böyük dil modelləri (LLMs) gözlənilməz səhv edəcək. Bununla birlikdə, şəxsi sınaqlarım zamanı gördüyüm kimi, ChatGPT kimi proqramlarda səhv və xəyalçılıqların hazırda bir neçə ay əvvəldən daha az olduğunu tapdım. Sam Altman dünənki bir blog yazısında AI-in Moore qanunundan daha sürətlə irəlilədiyini və bu da yazılımın və onunla ətrafdakı dünya ilə necə əlaqə qura biləcəyini nəzərdən keçirir. Hazırda, bununla birlikdə, ən yaxşı AI-a günlük xəbərlər üçün etibar etməmək və texnologiyaya əsaslanan bir şeydən söz edirsəniz, ən yaxşısı hələlik TechRadar-ı seçməkdır.

Tags:

0 0 votes
Article Rating
Subscribe
Notify of
guest

0 Comments
Oldest
Newest Most Voted
Inline Feedbacks
View all comments