#482 post — Mironshoh Inomjonov (@mironshohinomjonov)

TGStat

Qidiruv uchun matnni kiriting

Ilg‘or kanal qidiruvi

Uzbek

Sayt tili

Russian English Uzbek
Saytga kirish

Katalog

Kanal va guruhlar katalogi Kanallar qidiruvi
Kanal/guruh qo‘shish
Reytinglar

Kanallar reytingi Guruhlar reytingi Postlar reytingi
Brendlar va shaxslar reytingi
Analitika
Postlarda qidiruv
Telegram'ni kuzatish

Mironshoh Inomjonov

18 Feb, 15:39

Telegram'da ochish Ulashish Shikoyat qilish

Not So Artificial Intelligence dan repost

Transformer Sxemalarga Matematik Yondashuv/Framework

Kimdir so'rasa transformerlarni eng yaxshi tushuntiradigan maqola shu (va uning sekveli) deyman.

Maqola neyron tarmoqlardagi kichik va katta ichki mexanizmlarni mexanik tushunish va interpretatsiya qilish haqida. Bizda masalan, konvolyutsion tarmoqlar qanday ishlashi haqida yaxshi tushuncha (masalande) bor, lekin transformerlarni yaxshi bilmaymiz.

Ushbu maqola kichik transformerlar qurish orqali ularni tushuntirib berishga uruniadi. Masalan, shu maqola orqali siz:
- rezidual strim haqida oqiysiz va nega barcha qatlamlar shu strimdan o'qib shunga qaytib yozishini kuzatasiz;
- tushunasizki, transformerlar juda ham g'alati ko'rinishda chiziqli. Agar attention maskalarni qotirsak, to'liq chiziqli ko'rinishga o'tishadi!
- 2-qavatli transformer qatlamlarda qiziq mexanik "harakatlar" vujudga kelishini kuzatasiz. Masalan, attention head larning tokenlardan nusxa olishi, o'chirishi va izlashi. Bu esa o'z navbatida skip-triagramalarni xosil qiladi ("make a -> wish")

Avtorlar yana bir muhim matematik analiz uchun qurol taklif qilishadi: matritsalarning spektral analizi. Shunday o'ylashingiz mumkin: agar tayin token A boshqa token B ning ehtimolini oshirsa, demak shunday eigenvectorlar borki, ularning eigenvalue lari musbat. Buni tekshirish uchun nusxa oluvchi attention head'larga, yoki biror spesifik (masalan, xitoycha tokenlar boshqa xitoycha tokenlarni ehtimolini oshidadi) attention head'larga qarash yetarli. Agar tegishli (maqolada OV ) matritsalarda eigenvalue'lar katta bo'lsa, demak bu head'lar musxa oladi, yoki o'z gurux tokenlarini qidiradi!

Shu va shundan boshqa qiziq topilmalar orqali transformerlarni dekode qilishga harakat qilishadi.

Undan keyingi maqola esa chuqurroq transformerlarda "in-context learning" paydo bo'la boshlashini kuzatishadi.

Nima demoqchiman: "attention is all you need" is not all you need.

Tabiiy Intellekt

Konvolyutsion Neyron Tarmoqlarni tushunish va tasvirlash 2013-yilda nashr qilingan tegishli maqola yordamida konvolyutsion tarmoqlar filterlari vizualizatsiyasi uchun python loyiha. Kod va mavzu uchun tushuntiruv videosi ham mavjud.