Вилка: 250-400к net за full-time
Формат: full-time или part-time (20 часов/неделю), удаленка (в тч не РФ)
Описание:Делаем крутые исследовательские проекты командой
mil-team.ru, публикуем научные статьи и развиваем продукт
compressa.ai по оптимизации инференса LLM моделей. Делаем так, чтобы LLM-ки (и не только они) работали в контуре, дешевле, быстрее. Ищем крутого и инициативного спеца в ключевую команду.
Какие задачи будешь решать:- Развивать движок инференса LLM моделей (делаем его быстрее, чем vllm);
- Предлагать и доводить до прода улучшения методов компрессии LLM;
- Внедрять SotA технологии инференса и сжатия моделей в платформу.
Твой опыт:- Использовал и модифицировал фреймворки запуска сеток (ONNX, TensorRT-LLM, llama.cpp, Vllm) + писал кастомные CUDA-ядра;
- Применял и модифицировал методы программной оптимизации LLM, знаешь SotA: спарсификация, квантизация, дистилляция;
- Обучал LoRA-адаптеры или файнтюнил LLM модели.
Следующие шаги:- Крепи CV (круто, если будут ссылки на твой открытый код в git);
- Краткое описание (до 3х абзацев) твоего опыта в теме;
- Мотивашку (1 абзац), почему нам по пути;
- Мы проверим заявку и проведем собеседование с командой.