Insoniyatning So‘nggi Imtihoni (HLE) nima?
Agar OpenAI ning rasmiy veb-sahifasiga qarasangiz, ushbu reytingda yuqori natijani Deep Research modeli egallab turibdi, u 26% ko‘rsatkich bilan yetakchilik qilmoqda. Oddiy qilib aytganda, u 100 ta savoldan 26 tasiga to‘g‘ri javob bera olgan (evaziga 200$).
Eng qiziq tomoni shundaki, bu ro‘yxatda DeepSeek R1 modelini ham ko‘rishingiz mumkin. Ularning natijalari o‘rtasidagi farq muhim emas, asosiy jihat shundaki, OpenAI o‘z modelini DeepSeek bilan taqqoslamoqda. Bu esa DeepSeek-ni qanchalik darajada jiddiy olganligini ko‘rsatadi.
@digital_inform
Humanity’s Last Exam (HLE) – bu til modellari uchun mo‘ljallangan murakkab akademik mezon bo‘lib, ular mutaxassis darajasidagi yopiq savollarga javob berish orqali tuziladi
Agar OpenAI ning rasmiy veb-sahifasiga qarasangiz, ushbu reytingda yuqori natijani Deep Research modeli egallab turibdi, u 26% ko‘rsatkich bilan yetakchilik qilmoqda. Oddiy qilib aytganda, u 100 ta savoldan 26 tasiga to‘g‘ri javob bera olgan (evaziga 200$).
Eng qiziq tomoni shundaki, bu ro‘yxatda DeepSeek R1 modelini ham ko‘rishingiz mumkin. Ularning natijalari o‘rtasidagi farq muhim emas, asosiy jihat shundaki, OpenAI o‘z modelini DeepSeek bilan taqqoslamoqda. Bu esa DeepSeek-ni qanchalik darajada jiddiy olganligini ko‘rsatadi.
@digital_inform