21 августа 2025 года в Москве (+ Онлайн) пройдет митап «D >< Vision»
Чувствуете, что крутые разработки в Computer Vision остаются в тени других популярных тем в ИИ? Что на многих конференциях CV-секции зачастую не соответствуют вашим интересам и возникающим на работе задачам? Мы — тоже.
Поэтому мы решили запустить серию митапов, цель которых — объединить и поддержать сообщество, глубоко увлечённое Computer Vision. Мы сознательно делаем фокус на CV, чтобы подчеркнуть его непреходящую важность и уникальные исследовательские задачи. И рассматриваем Computer Vision во всей его широте — и discriminative, и generative, и multimodal подходы.
Здесь вас ждут:
— Доклады о передовых и прикладных аспектах CV,
— Живое общение и обмен опытом.
Присоединяйтесь, если любите Computer Vision так же, как любим его мы!
В программе:
Как эффективно контролировать генерацию диффузионных моделей.
Диффузионные являются одним из самых мощных инструментов генерации изображений, однако их точное управление остаётся вызовом. Ключевые подходы к повышению контролируемости, а также результаты исследований по улучшению текущего подхода.
Проблема bias в компьютерном зрении: как бороться с предвзятостью алгоритмов?
Модели компьютерного зрения, несмотря на высокую точность, часто страдают от заметной предвзятости (bias). Природа такой необъективности и результаты исследований по её устранению в алгоритмах распознавания.
Видеосегментация процессов на складе.
Как модели видеоаналитики помогают отслеживать и анализировать процессы на складах. Распознавание действий во времени (temporal action recognition) для автоматической проверки корректности выполнения операций. Реальные кейсы применения и основные вызовы, возникающие при работе с видео.
Мультимодальные агенты в Yandex VLM
Пайплайн разработки мультимодального агента от команды YaVLM Яндекса, его учебный конвейер (претрейн → SFT → DPO) и режимы применения. Метрики и бенчмарки, их связь с реальными продуктовыми целями, а также существующие решения в областях Browser Agents, GUI multimodal и Computer Use. Ключевые практические уроки, повышающие качество, надежность и эффективность модели.
Спикеры:
Айбек Аланов, руководитель команды Controllable Generative AI, FusionBrain Lab, AIRI
Дмитрий Нехаев, директор по исследованиям, VisionLabs
Геворг Оганесян, Data Scientist, команда видеоаналитики, Wildberries & Russ
Даниил Лукичев, старший разработчик, служба компьютерного зрения Яндекс
Чувствуете, что крутые разработки в Computer Vision остаются в тени других популярных тем в ИИ? Что на многих конференциях CV-секции зачастую не соответствуют вашим интересам и возникающим на работе задачам? Мы — тоже.
Поэтому мы решили запустить серию митапов, цель которых — объединить и поддержать сообщество, глубоко увлечённое Computer Vision. Мы сознательно делаем фокус на CV, чтобы подчеркнуть его непреходящую важность и уникальные исследовательские задачи. И рассматриваем Computer Vision во всей его широте — и discriminative, и generative, и multimodal подходы.
Здесь вас ждут:
— Доклады о передовых и прикладных аспектах CV,
— Живое общение и обмен опытом.
Присоединяйтесь, если любите Computer Vision так же, как любим его мы!
В программе:
Как эффективно контролировать генерацию диффузионных моделей.
Диффузионные являются одним из самых мощных инструментов генерации изображений, однако их точное управление остаётся вызовом. Ключевые подходы к повышению контролируемости, а также результаты исследований по улучшению текущего подхода.
Проблема bias в компьютерном зрении: как бороться с предвзятостью алгоритмов?
Модели компьютерного зрения, несмотря на высокую точность, часто страдают от заметной предвзятости (bias). Природа такой необъективности и результаты исследований по её устранению в алгоритмах распознавания.
Видеосегментация процессов на складе.
Как модели видеоаналитики помогают отслеживать и анализировать процессы на складах. Распознавание действий во времени (temporal action recognition) для автоматической проверки корректности выполнения операций. Реальные кейсы применения и основные вызовы, возникающие при работе с видео.
Мультимодальные агенты в Yandex VLM
Пайплайн разработки мультимодального агента от команды YaVLM Яндекса, его учебный конвейер (претрейн → SFT → DPO) и режимы применения. Метрики и бенчмарки, их связь с реальными продуктовыми целями, а также существующие решения в областях Browser Agents, GUI multimodal и Computer Use. Ключевые практические уроки, повышающие качество, надежность и эффективность модели.
Спикеры:
Айбек Аланов, руководитель команды Controllable Generative AI, FusionBrain Lab, AIRI
Дмитрий Нехаев, директор по исследованиям, VisionLabs
Геворг Оганесян, Data Scientist, команда видеоаналитики, Wildberries & Russ
Даниил Лукичев, старший разработчик, служба компьютерного зрения Яндекс