ML

MLDataConf


Айдын Абиров
Computer Vision engineer @ Wildberries
Москва

Аннотация

Доклад посвящен обзору современных методов Action Recognition с акцентом на задачу Temporal Action Recognition в видео. Я рассмотрю теоретические основы различных подходов, от CNN-based до SSL backbone в купе с ActionFormer. Особое внимание уделено практическому решению конкретного кейса на складе Wildberries. Я покажу преимущества и минусы разных подходов и рекомендации по выбору архитектуры в зависимости от специфики задачи.

Содержание (предварительное)

- Теоретические основы Action Recognition

- Temporal Action Recognition как ключевая задача

- Практический кейс и его решение

- Архитектурные решения и метрики, включая разные эксперименты по VideoMAEv2, ActionFormer, EVR, итд

- Практическая значимость

- Заключение


Илья Карев
Team Lead в команде прикладного ИИ @ Just AI
Санкт-Петербург

Краткое описание доклада: Тезисы: Сложности разработки приложений с LLM, хардкодинг и гарантии исполнения пользовательских запросов

1. Почему сложно разрабатывать приложения с LLM?

2. Почему нельзя хардкодить пайплайны для недетерминированных систем?

3. Как гарантировать исполнение желаний пользователя через LLM?

4. Как это все тестировать и проверять что малейшее изменение промпта не поломает отдельные части систем? Сложности промптинга для мульти модальных LLM систем.

5. Что поняли в Apple уже после обещаний внедрить ИИ в 2025 году.

Ключевой вывод LLM требуют перехода от традиционной «жесткой» логики к гибридным подходам, где генеративные возможности модели сочетаются с алгоритмическим контролем, пост-обработкой и человеко-машинным взаимодействием.


Никита Венедиктов
team lead DS @ Raft
Санкт-Петербург

Вопрос «Может ли AI заменить аналитика?» мы решали не в теории, а в «полях» — в прямом и переносном смысле. Работая с лидером сельскохозяйственного рынка, мы столкнулись с тем, что команда аналитиков стала узким местом для обработки запросов к базам данных с миллионами строк агрономических показателей. Наша первая попытка, основанная на применении большой языковой модели «в лоб», привела к созданию инструмента, который не понимал специфику домена и давал красивые, но бесполезные ответы. Мы быстро поняли, что монолитный AI не способен воссоздать главную ценность аналитика: знание сложной предметной области и умение задавать правильные вопросы.

Наш реальный успех начался с декомпозиции. Мы воссоздали мыслительный процесс аналитика в двух-агентной системе. Первый агент, «интерпретатор», через векторное хранилище со специфической агрономической терминологией в диалоге с пользователем превращает хаос в четкое ТЗ. Второй агент, «исполнитель», безупречно реализует этот план. Так может ли AI заменить аналитика? Наш опыт в сложном домене говорит: да, рутинную часть — полностью. В докладе я поделюсь архитектурой этого решения и выводами, которые помогут вам ответить на этот вопрос для вашей компании.