- AI,ML, #1.3 Ретро - комната
Руководитель центра компетенций и исследований CodeInside, CV/ML инженер
Про что поговорим:
1. LLM перестали быть исключительно облачными — благодаря оптимизациям их стало возможно запускать даже на потребительских устройствах.
2. Разнообразие рантаймов — следствие разных целей: максимальная скорость, минимальное потребление памяти, удобство развертывания, поддержка конкретных архитектур.
3. Нет «единого правильного» решения — выбор рантайма зависит от контекста: железо, модель, требования к задержке/пропускной способности, необходимость масштабирования.
4. llama.cpp стал поворотной точкой, показав, что LLM можно запускать на CPU и даже на Raspberry Pi — это открыло двери для приватного, оффлайн-инференса.
5. Облачные рантаймы фокусируются на эффективности в продакшене: высокая пропускная способность, распределенность.
6. Инструменты вроде Ollama и Mistral.rs упрощают UX, делая LLM доступными для разработчиков без глубоких знаний ML-инфраструктуры.
7. Будущее — в гибридных подходах: локальный инференс для приватности + облачный для сложных задач.
Для всех тех, кто хочет попробовать локальный запуск моделей, а так же для инженеров, которые выбирают способ запуска моделей для проекта на собственных мощностях.
