Поиск оптимальной архитектуры

Мотивация запуска проекта заказчиком: поиск и сравнение оптимальных конфигураций нейронных сетей - важный этап в исследовании или реализации наукоемкого проекта, но он отнимает большое количество времени и требует значительных затрат вычислительных ресурсов. Особенно ситуация осложняется, когда нужно сравнить много архитектур на большом датасете. Поэтому была поставлена задача создать быстрый и точный метод сравнения нейронных сетей, который не требует полной процедуры обучения всех сравниваемых архитектур.

Описание исходной ситуации:

имеется большое количество перспективных конфигураций архитектур нейронных сетей из определенного пространства;
имеется объемный датасет - ImageNet, на котором должно быть оценено качество этих архитектур;
оценка качества заключается в правильном ранжировании архитектур относительно друг друга. Полностью правильным ранжированием считается ранжирование архитектур при их одиночном обучении с нуля на всем датасете до сходимости.

Существующие подходы NAS направлены на поиск одной или нескольких “лучших” архитектур. В этой задаче требуется правильно ранжировать модели из всего пространства поиска, которые являются потенциально обучаемыми. Особое пространство поиска, которое отличается от того, которое используется в литературе по данной тематике.

Цели проекта:

Разработка и реализация методов для быстрого и точного сравнения архитектур нейронных сетей. Реализованные методы должны значительно превосходить по скорости прямой метод полного одиночного обучения сетей, при слабом падении качества ранжирования. В частности, должно быть получено десятикратное ускорение сравнения архитектур при потере качества ранжирования не более чем на 10% (в терминах метрики ранжирования - Kendall Tau).

Решение MIL Team: реализация, анализ и улучшение различных методов оценки качества архитектур. Одним из реализованных методов является создание супер-сети на основе пространства рассматриваемых архитектур. Такой подход позволяет производить обучение всех моделей из пространства в one-shot режиме и может значительно сэкономить время и вычислительные ресурсы. Кроме того, рассматриваются такие методы, как оценка качества модели с использованием меньшего числа обучающих данных, ранняя остановка обучения, использование классификаторов и регрессионных моделей.

Для построения модели были использованы:

Открытые датасеты ImageNet и Cifar10;
Датасет архитектур с указанием качества их полного обучения на ImageNet.

Результаты моделирования: under NDA

Заказчик: Huawei

Технологический стек: Python, PyTorch, opencv