Dünyanın en zor testini içeren yapay zeka sınavı olan “İnsanlığın Son Sınavı”nda, son iki haftada elde edilen doğruluk oranları büyük bir artış gösterdi. ChatGPT o3-mini ve şimdi de OpenAI Deep Research liderlik tablosunda başı çekiyor. Dünya çapında uzmanlar tarafından oluşturulan yapay zeka testi, insanlık için bilinen en zor mantık problemlerini içeriyor. Deep Research’in elde ettiği %26,6’lık doğruluk skoru, sadece 10 günde %183’lük bir artışı temsil ediyor. Diğer yapay zeka modellerinden farklı olarak, Deep Research web’i arama yeteneğine sahip, bu da genel bilgi tabanlı soruları içeren testler için avantaj sağlıyor. İnsanlık için Son Sınav’da modellerin elde ettiği doğruluk sonuçları istikrarlı bir şekilde artıyor. AI modellerinin bu lige yakın zamanda gelmesi beklenmiyor, ancak beklemeyi bırakmak zor olabilir.
Özetle, yapay zeka alanındaki gelişmeler hız kazanıyor ve gelecekte bir AI modelinin bu zorlu sınavı başarıyla tamamlayabileceği sorusu akıllara geliyor. OpenAI’nın Deep Research modeli, tıp, klasikler ve hukuk gibi konularda önemli bir performans sergiliyor. Humanity’s Last Exam, AI modellerinin gelişimini ölçmemizi sağlayarak ne kadar ilerlediklerini görmemizi sağlayacak çok değerli bir test olacak. Gelecekte bir AI’nın %50 barajını aşmasını ne kadar sürede göreceğimizi ve hangi modelin bunu ilk gerçekleştireceğini merakla bekliyoruz.