SECON'2025 - Конференция разработчиков ПО

Доклад

AI,ML,

27 сентября 10:15

Управляющий директор по исследованию данных — директор управления базовых моделей Kandinsky; создатель линейки Kandinsky; победитель рейтинга Forbes «30 до 30» в номинации «Наука и технологии»

Генерация изображений и видео по тексту: текущее состояние области и вызовы - Денис Димитров (ПАО Сбербанк, Москва)

Последние годы ознаменовались стремительным развитием генеративных моделей, способных работать с различными модальностями данных. В рамках доклада будет рассмотрено одно из самых ресурсоёмких и технически сложных направлений — синтез изображений и видео на основе текстовых описаний (text-to-image, text-to-video). Основное внимание будет уделено диффузионным подходам к решению этой задачи, а также опыту команды Сбера в данной области.

Мы подробно рассмотрим архитектуру Kandinsky-4 (для генерации как изображений, так и видео), особенности её обучения, вызовы, связанные со сбором и фильтрацией обучающих данных, а также достигнутые результаты. Отдельный акцент будет сделан на принципах оценки качества таких моделей. В заключение обсудим практические применения Kandinsky и перспективы использования генеративных моделей для работы с изображениями и видео в прикладных задачах.

Аудитория слушателей доклада

Специалисты в области Data Science (учёные, инженеры, менеджеры), нейрохудожники, да и все люди, которые интересуются генеративным искусственным интеллектом (и современными технологиями в целом)

Вопрос спикеру

Опишите тему встречи