кстати, причиной скорее всего послужил #oom. Вылетело на "том же" месте обучения, хотя данные были рандомно пересортированы. Значит что-то происходит именно на N батче. И скорее всего это нехватка ОЗУ, потому что я сохраняю все градиенты после каждого батча, чтобы потом их зааверейджить и наложить на данные