Dünyanın ən çətin sınaq proqramında 26.6% doğruluk nəticəsi ilə ötən OpenAI Deep Research, xalcağı 183% artıraraq rekord qırmışdır. Nəzarətçi ChatGPT o3-mini isə 10,5% ilə 13% doğruluğa yüksəlmişdir. Bizlərə əzələ proqramçılar tərəfindən yaradılan AI sınaqına dair yeni məlumatlar var. Hərakət rəqsçilərinin məntiq tapşırma və sualları eşşək kiçik şeylər kimi çətin olsa da, yeni məlumatlar gəldikcə AI nəticələrinin doğruluğu sabit bir şekildə yüksəlişə keçir. Deep Research kimi yeni alət isə bu sınaqda başarısıyla diqqət çəkən sərvətdər nəticə göstərir. AI modellərinin sınaqını gözətən yeni proseslər ildən-ilahe inkişaf edir və AI modellərinin bu sınaqda necə nail olacağını görmək və müqayisə etmək maraqlı olacaq. Bu sınaqı necə vaxt keçəcəyi və ilk olacağı modeli nə vaxt görmək lazım olacaq.