Not So Artificial Intelligence dan repost
Transformer Sxemalarga Matematik Yondashuv/Framework
Kimdir so'rasa transformerlarni eng yaxshi tushuntiradigan maqola shu (va uning sekveli) deyman.
Maqola neyron tarmoqlardagi kichik va katta ichki mexanizmlarni mexanik tushunish va interpretatsiya qilish haqida. Bizda masalan, konvolyutsion tarmoqlar qanday ishlashi haqida yaxshi tushuncha (masalande) bor, lekin transformerlarni yaxshi bilmaymiz.
Ushbu maqola kichik transformerlar qurish orqali ularni tushuntirib berishga uruniadi. Masalan, shu maqola orqali siz:
- rezidual strim haqida oqiysiz va nega barcha qatlamlar shu strimdan o'qib shunga qaytib yozishini kuzatasiz;
- tushunasizki, transformerlar juda ham g'alati ko'rinishda chiziqli. Agar attention maskalarni qotirsak, to'liq chiziqli ko'rinishga o'tishadi!
- 2-qavatli transformer qatlamlarda qiziq mexanik "harakatlar" vujudga kelishini kuzatasiz. Masalan, attention head larning tokenlardan nusxa olishi, o'chirishi va izlashi. Bu esa o'z navbatida skip-triagramalarni xosil qiladi ("make a -> wish")
Avtorlar yana bir muhim matematik analiz uchun qurol taklif qilishadi: matritsalarning spektral analizi. Shunday o'ylashingiz mumkin: agar tayin token A boshqa token B ning ehtimolini oshirsa, demak shunday eigenvectorlar borki, ularning eigenvalue lari musbat. Buni tekshirish uchun nusxa oluvchi attention head'larga, yoki biror spesifik (masalan, xitoycha tokenlar boshqa xitoycha tokenlarni ehtimolini oshidadi) attention head'larga qarash yetarli. Agar tegishli (maqolada OV ) matritsalarda eigenvalue'lar katta bo'lsa, demak bu head'lar musxa oladi, yoki o'z gurux tokenlarini qidiradi!
Shu va shundan boshqa qiziq topilmalar orqali transformerlarni dekode qilishga harakat qilishadi.
Undan keyingi maqola esa chuqurroq transformerlarda "in-context learning" paydo bo'la boshlashini kuzatishadi.
Nima demoqchiman: "attention is all you need" is not all you need.
Kimdir so'rasa transformerlarni eng yaxshi tushuntiradigan maqola shu (va uning sekveli) deyman.
Maqola neyron tarmoqlardagi kichik va katta ichki mexanizmlarni mexanik tushunish va interpretatsiya qilish haqida. Bizda masalan, konvolyutsion tarmoqlar qanday ishlashi haqida yaxshi tushuncha (masalande) bor, lekin transformerlarni yaxshi bilmaymiz.
Ushbu maqola kichik transformerlar qurish orqali ularni tushuntirib berishga uruniadi. Masalan, shu maqola orqali siz:
- rezidual strim haqida oqiysiz va nega barcha qatlamlar shu strimdan o'qib shunga qaytib yozishini kuzatasiz;
- tushunasizki, transformerlar juda ham g'alati ko'rinishda chiziqli. Agar attention maskalarni qotirsak, to'liq chiziqli ko'rinishga o'tishadi!
- 2-qavatli transformer qatlamlarda qiziq mexanik "harakatlar" vujudga kelishini kuzatasiz. Masalan, attention head larning tokenlardan nusxa olishi, o'chirishi va izlashi. Bu esa o'z navbatida skip-triagramalarni xosil qiladi ("make a -> wish")
Avtorlar yana bir muhim matematik analiz uchun qurol taklif qilishadi: matritsalarning spektral analizi. Shunday o'ylashingiz mumkin: agar tayin token A boshqa token B ning ehtimolini oshirsa, demak shunday eigenvectorlar borki, ularning eigenvalue lari musbat. Buni tekshirish uchun nusxa oluvchi attention head'larga, yoki biror spesifik (masalan, xitoycha tokenlar boshqa xitoycha tokenlarni ehtimolini oshidadi) attention head'larga qarash yetarli. Agar tegishli (maqolada OV ) matritsalarda eigenvalue'lar katta bo'lsa, demak bu head'lar musxa oladi, yoki o'z gurux tokenlarini qidiradi!
Shu va shundan boshqa qiziq topilmalar orqali transformerlarni dekode qilishga harakat qilishadi.
Undan keyingi maqola esa chuqurroq transformerlarda "in-context learning" paydo bo'la boshlashini kuzatishadi.
Nima demoqchiman: "attention is all you need" is not all you need.