Der Durchbruch: OpenAI's Deep Research dominiert die härteste KI-Prüfung der Welt!

Der Durchbruch: OpenAI’s Deep Research dominiert die härteste KI-Prüfung der Welt!

Die Genauigkeit des besten KI-Modells in der schwierigsten Benchmark der Welt hat sich in nur zwei Wochen um 183 % verbessert. ChatGPT o3-mini erzielt nun je nach Kapazität bis zu 13 % Genauigkeit. OpenAI Deep Research vernichtet die Konkurrenz mit einem Genauigkeitsergebnis von 26,6 %.

Die härteste KI-Prüfung der Welt, Humanity’s Last Exam, wurde vor weniger als zwei Wochen gestartet, und wir haben bereits einen enormen Anstieg der Genauigkeit gesehen, wobei ChatGPT o3-mini und nun auch OpenAI’s Deep Research die Bestenliste anführen. Der von Experten aus der ganzen Welt erstellte KI-Benchmark enthält einige der schwierigsten Problemszenarien und Fragen, die dem Menschen bekannt sind. Zum Zeitpunkt meines letzten Artikels lag das weltbekannte Phänomen DeepSeek R1 mit einer Genauigkeitsbewertung von 9,4 % an der Spitze der Bestenliste bei reiner Textbewertung (nicht multimodal). OpenAI’s o3-mini hat jetzt 10,5 % Genauigkeit bei den o3-mini-Einstellungen und 13 % Genauigkeit bei den o3-mini-high-Einstellungen erzielt.

Besonders beeindruckend ist jedoch die Punktzahl von OpenAI’s neuem KI-Agenten Deep Research in der Benchmark, wobei das neue Tool eine Genauigkeit von 26,6 % erzielte, ein drastischer Anstieg von 183 % in weniger als 10 Tagen. Deep Research verfügt über Suchfunktionen, die den Vergleich etwas unfair machen, da andere KI-Modelle dies nicht können. Die Fähigkeit, im Internet zu suchen, ist für einen Test wie Humanity’s Last Exam hilfreich, da er einige Wissensfragen enthält.

Alles in allem verbessert sich die Genauigkeit der Modelle, die Humanity’s Last Exam bestehen, stetig, und es bleibt abzuwarten, wie lange wir warten müssen, bis ein KI-Modell in die Nähe des Abschlusses der Benchmark gelangt. Realistisch betrachtet sollte KI dies nicht so bald schaffen, aber man sollte nicht dagegen wetten.

Die neueste OpenAI-Modell scheint in vielen Themen sehr gut abzuschneiden. Meine Vermutung ist, dass Deep Research besonders bei Themen wie Medizin, Klassik und Recht behilflich ist. Deep Research ist in der Lage, als persönlicher Analyst zu fungieren, der intensive Forschungen durchführt und Berichte und Antworten erstellt, die von Menschen stundenlang dauern würden.

Obwohl eine Punktzahl von 26,6 % bei Humanity’s Last Exam beeindruckend ist, ist sie immer noch relativ niedrig – niemand würde behaupten, eine Prüfung mit weniger als 50 % bestanden zu haben.

Humanity’s Last Exam ist ein ausgezeichneter Benchmark, der uns dabei helfen wird, die Fortschritte der KI-Modelle einzuschätzen und zu verstehen, wie weit sie gekommen sind. Wie lange werden wir wohl warten müssen, um zu sehen, wie eine KI die 50 %-Marke überschreitet? Und welches Modell wird das erste sein, das dies schafft?

„Sony-Präsident Shuhei Yoshida: Nintendo Switch 2 Enthüllung enttäuscht – Maus-Controller als Überraschung?“

Mi., 12 Feb.

0 0 votes

Article Rating