🔄 СУНЪИЙ ИНТЕЛЛЕКТ ОЛИМЛАРНИ ИШСИЗ ҚОЛДИРАДИМИ❓❓❓
СИ моделларининг қобилиятларини баҳолаш учун уларга махсус тестлар - бенчмарклар берилади. Улар нейрон тармоқларни турли соҳаларда - математикадан тортиб таржималаргача синовдан ўтказади.
Мутахассислар энг мураккаб мезонлардан фойдаланиб, мавжуд моделлар кучли СИга қанчалик яқин эканлигини кузатиб боради ва уларнинг хавфсизлигини баҳолайди.
3 минг саволдан иборат тестни 50 та давлатдан турли соҳалардан - аналитик фалсафадан тортиб олий математика ва ракеташуносликгача бўлган мингга яқин олимлар (кўпчилиги фан докторлари) томонидан тузилди. 50 та энг яхши савол муаллифлари 5 минг доллар билан мукофотланди.
❓Саволлардан намуна👇:
Apodiformes туркумига мансуб колибриларда, ажойиб икки томонлама жуфт овал суяги (сесамоид суяк) мавжуд. Бу сесамоид суяги нечта жуфт тендонларни қўллаб-қувватлайди? Рақам билан жавоб беринг.
Олтита етакчи СИ моделлари синалди:
➖Gemini 2.0 - Google дан,
➖Claude 3.5 Sonnet - Anthropic дан,
➖Grok-2 - xAI дан,
➖GPT-4o - OpenAI дан,
➖o1 - OpenAI дан,
➖DeepSeek-R1 Хитой стартапидан.
Улрадан ҳеч бири 10% дан кўп балл тўпламади.
Энг юқори баллни OpenAI-o1 (9,1%) ва DeepSeek-R1 (9,4%) олди, аммо Хитой модели расмлар билан ишлай олмагани учун баъзи муаммоларни ҳал қилмади.
Синовни яратувчилар кўрсаткичлар тез ўсиб боришига ва 2025 йил охирига келиб 50% дан ошиши мумкинлигига ишончлари комил. Эҳтимол, кейин янги мезон керак бўлади, унда СИга одамлар жавоб беролмайдиган саволлар берилади.
Аммо бундай кучли сунъий интеллект ҳам инсон олимлари учун хавф туғдириши даргумон, дейди тест муаллифларидан бири, Берклилик физик Кевин Чжоу.
СИ моделларининг қобилиятларини баҳолаш учун уларга махсус тестлар - бенчмарклар берилади. Улар нейрон тармоқларни турли соҳаларда - математикадан тортиб таржималаргача синовдан ўтказади.
Мутахассислар энг мураккаб мезонлардан фойдаланиб, мавжуд моделлар кучли СИга қанчалик яқин эканлигини кузатиб боради ва уларнинг хавфсизлигини баҳолайди.
3 минг саволдан иборат тестни 50 та давлатдан турли соҳалардан - аналитик фалсафадан тортиб олий математика ва ракеташуносликгача бўлган мингга яқин олимлар (кўпчилиги фан докторлари) томонидан тузилди. 50 та энг яхши савол муаллифлари 5 минг доллар билан мукофотланди.
❓Саволлардан намуна👇:
Apodiformes туркумига мансуб колибриларда, ажойиб икки томонлама жуфт овал суяги (сесамоид суяк) мавжуд. Бу сесамоид суяги нечта жуфт тендонларни қўллаб-қувватлайди? Рақам билан жавоб беринг.
Олтита етакчи СИ моделлари синалди:
➖Gemini 2.0 - Google дан,
➖Claude 3.5 Sonnet - Anthropic дан,
➖Grok-2 - xAI дан,
➖GPT-4o - OpenAI дан,
➖o1 - OpenAI дан,
➖DeepSeek-R1 Хитой стартапидан.
Улрадан ҳеч бири 10% дан кўп балл тўпламади.
Энг юқори баллни OpenAI-o1 (9,1%) ва DeepSeek-R1 (9,4%) олди, аммо Хитой модели расмлар билан ишлай олмагани учун баъзи муаммоларни ҳал қилмади.
Синовни яратувчилар кўрсаткичлар тез ўсиб боришига ва 2025 йил охирига келиб 50% дан ошиши мумкинлигига ишончлари комил. Эҳтимол, кейин янги мезон керак бўлади, унда СИга одамлар жавоб беролмайдиган саволлар берилади.
Аммо бундай кучли сунъий интеллект ҳам инсон олимлари учун хавф туғдириши даргумон, дейди тест муаллифларидан бири, Берклилик физик Кевин Чжоу.
“Тестдан ўтиш ва амалиётчи физик ёки тадқиқотчи бўлиш ўртасида катта фарқ бор. Ҳатто бу саволларга жавоб бера оладиган СИ ҳам тадқиқотларда ёрдам беришга тайёр эмас”,дейди олим.
🔍Veb sayt | 🌐Telegram | 📱Instagram | 🛜Facebook | 🎥YouTube