Cloud.ru запустил в коммерческую эксплуатацию Evolution Stack.ML — платформу для распределённого обучения ИИ-моделей и разработки ИИ-приложений в частном и гибридном облаке, сообщили «Коду Дурова» в пресс-службе облачного провайдера.
Компании смогут обучать и донастраивать модели на собственной инфраструктуре, сохраняя контроль над данными, а при необходимости масштабироваться в публичное облако. Решение рассчитано на крупный бизнес, госкомпании, финансовый сектор, операторов ЦОДов и промышленные предприятия.
- В основе платформы лежит сервис Evolution Distributed Train. Он объединяет инструменты для обучения и тюнинга ML-моделей, управления экспериментами, мониторинга и совместной работы команд дата-сайентистов.
- Evolution Stack.ML позволяет запускать изолированные рабочие пространства для более чем 200 команд одновременно. Система очередей, приоритетов, аллокаций и спотов помогает распределять нагрузку между задачами и эффективнее использовать GPU-инфраструктуру.
По данным Cloud.ru, платформа может повысить утилизацию GPU с 35% до 90%, а расходы на серверные мощности могут окупиться менее чем за три месяца. Совместное использование кластеров позволяет ускорить обучение и разработку новых ИИ-решений на 20%.
- Также в платформе есть механизмы self-healing: система автоматически обнаруживает сбои оборудования, перезапускает задачи и заменяет GPU-ноды. Это должно помочь стабильнее выполнять распределённое обучение на больших кластерах.
В Cloud.ru отмечают, что Evolution Stack.ML подходит компаниям с высокими требованиями к безопасности и регуляторике, включая обработку персональных и финансовых данных, а также размещение ГИС и КИИ.