Yana bir tavsiya:
Agarda GPU memory 70%dan oshib ketadigan bo'lsa GPU o'zining performance'ini ko'rsatishga qiynaladi. GPUni to'ldirvormaslik kerak.
Buni menga yaqinda team leadim aytib bergandi.
Tepada esa ancha oshib ketgan - training balki shunga ham odatdagidan ko'p vaqt olgandir.
Endi tepadagi savolga javobga kelsak:
Batch size'ni 2 marta oshirish varianceni kamaytiradi (variance of averaged gradients). Shuning uchun hyperparametrlarni (masalan learning rateni) ham oshirishimiz kerak.
Agarda GPU memory 70%dan oshib ketadigan bo'lsa GPU o'zining performance'ini ko'rsatishga qiynaladi. GPUni to'ldirvormaslik kerak.
Buni menga yaqinda team leadim aytib bergandi.
Tepada esa ancha oshib ketgan - training balki shunga ham odatdagidan ko'p vaqt olgandir.
Endi tepadagi savolga javobga kelsak:
Batch size'ni 2 marta oshirish varianceni kamaytiradi (variance of averaged gradients). Shuning uchun hyperparametrlarni (masalan learning rateni) ham oshirishimiz kerak.