Securing Research Infrastructure for Advanced AI
Власне, ми багато працюємо з Computer Vision і основний продукт - це девайс, який вміє розумно щось детектити (читайте - івенти, які відбуваються перед камерою). Булшитні або ні. Чи треба слати нотіф, тому що хтось краде посилку або коцає авто, чи це просто кіт / вітер / бжели (мем).
Хоча і наша робота закінчується раніше (ще до релізу девайсу і сервінгу моделі), але те що ми робимо - називається Research Infrastructure.
І ми робили це ще до того як це стало мейнстрімом. Всі степи, по типу Data Collection, Annotation, Model Evaluation, Inference ... Окрім останнього, в силу багатьох причин.
Ну і я завжди вважав, що "ну що тут складного". Зібрав стрім, в бакет поклав, процесинг зробив, хтось проанотував, в базку поклав, готово. Можна тренуватись. А виявляється не так 🙂
Почитайте про безпеку в Research Infrastructure. Спершу виглядає як успішний успіх, але з другого-третього разу виявляється що цей набір практик має сенс.
Ви натренувались на даних, які користувач вам розшарив, а потім попросив видалити. Що тепер робити з моделькою?
Видалити і перетренувати? Так це ж дорого. І метрики моделі будуть гіршими. А якщо вона вже в проді?
Видаляти похідні цих даних (фрейми, шматки даних, деривативи будь-які) по системі, а як їх ідентифікувати? А якщо їх хтось викачав з інфри (не важливо як, опустимо цей момент)?
І це тільки мікрочастина data collection & data deletion.
Звісно, якщо це парсинг інтернету без консентів, то все простіше. Але і в результаті вийде лайно.
Власне, ще дуже багато роботи.
У девопсдейс кімнатах запитав шановного девопса, а "що ж там у них". І там по-іншому. Тули зібрав, почитаю потикаю, і теж поділюсь.
Поки подивіться цей блогпост від OpenAI, який з першого ознайомлення буде здаватись "за все хороше, проти всього поганого". ⤵️
https://openai.com/index/securing-research-infrastructure-for-advanced-ai/
Власне, ми багато працюємо з Computer Vision і основний продукт - це девайс, який вміє розумно щось детектити (читайте - івенти, які відбуваються перед камерою). Булшитні або ні. Чи треба слати нотіф, тому що хтось краде посилку або коцає авто, чи це просто кіт / вітер / бжели (мем).
Хоча і наша робота закінчується раніше (ще до релізу девайсу і сервінгу моделі), але те що ми робимо - називається Research Infrastructure.
І ми робили це ще до того як це стало мейнстрімом. Всі степи, по типу Data Collection, Annotation, Model Evaluation, Inference ... Окрім останнього, в силу багатьох причин.
Ну і я завжди вважав, що "ну що тут складного". Зібрав стрім, в бакет поклав, процесинг зробив, хтось проанотував, в базку поклав, готово. Можна тренуватись. А виявляється не так 🙂
Почитайте про безпеку в Research Infrastructure. Спершу виглядає як успішний успіх, але з другого-третього разу виявляється що цей набір практик має сенс.
Ви натренувались на даних, які користувач вам розшарив, а потім попросив видалити. Що тепер робити з моделькою?
Видалити і перетренувати? Так це ж дорого. І метрики моделі будуть гіршими. А якщо вона вже в проді?
Видаляти похідні цих даних (фрейми, шматки даних, деривативи будь-які) по системі, а як їх ідентифікувати? А якщо їх хтось викачав з інфри (не важливо як, опустимо цей момент)?
І це тільки мікрочастина data collection & data deletion.
Звісно, якщо це парсинг інтернету без консентів, то все простіше. Але і в результаті вийде лайно.
Власне, ще дуже багато роботи.
У девопсдейс кімнатах запитав шановного девопса, а "що ж там у них". І там по-іншому. Тули зібрав, почитаю потикаю, і теж поділюсь.
Поки подивіться цей блогпост від OpenAI, який з першого ознайомлення буде здаватись "за все хороше, проти всього поганого". ⤵️
https://openai.com/index/securing-research-infrastructure-for-advanced-ai/