Войти через email:
Аннотация
Доклад посвящен обзору современных методов Action Recognition с акцентом на задачу Temporal Action Recognition в видео. Я рассмотрю теоретические основы различных подходов, от CNN-based до SSL backbone в купе с ActionFormer. Особое внимание уделено практическому решению конкретного кейса на складе Wildberries. Я покажу преимущества и минусы разных подходов и рекомендации по выбору архитектуры в зависимости от специфики задачи.
Содержание (предварительное)
- Теоретические основы Action Recognition
- Temporal Action Recognition как ключевая задача
- Практический кейс и его решение
- Архитектурные решения и метрики, включая разные эксперименты по VideoMAEv2, ActionFormer, EVR, итд
- Практическая значимость
- Заключение
Краткое описание доклада: Тезисы: Сложности разработки приложений с LLM, хардкодинг и гарантии исполнения пользовательских запросов
1. Почему сложно разрабатывать приложения с LLM?
2. Почему нельзя хардкодить пайплайны для недетерминированных систем?
3. Как гарантировать исполнение желаний пользователя через LLM?
4. Как это все тестировать и проверять что малейшее изменение промпта не поломает отдельные части систем? Сложности промптинга для мульти модальных LLM систем.
5. Что поняли в Apple уже после обещаний внедрить ИИ в 2025 году.
Ключевой вывод LLM требуют перехода от традиционной «жесткой» логики к гибридным подходам, где генеративные возможности модели сочетаются с алгоритмическим контролем, пост-обработкой и человеко-машинным взаимодействием.
Вопрос «Может ли AI заменить аналитика?» мы решали не в теории, а в «полях» — в прямом и переносном смысле. Работая с лидером сельскохозяйственного рынка, мы столкнулись с тем, что команда аналитиков стала узким местом для обработки запросов к базам данных с миллионами строк агрономических показателей. Наша первая попытка, основанная на применении большой языковой модели «в лоб», привела к созданию инструмента, который не понимал специфику домена и давал красивые, но бесполезные ответы. Мы быстро поняли, что монолитный AI не способен воссоздать главную ценность аналитика: знание сложной предметной области и умение задавать правильные вопросы.
Наш реальный успех начался с декомпозиции. Мы воссоздали мыслительный процесс аналитика в двух-агентной системе. Первый агент, «интерпретатор», через векторное хранилище со специфической агрономической терминологией в диалоге с пользователем превращает хаос в четкое ТЗ. Второй агент, «исполнитель», безупречно реализует этот план. Так может ли AI заменить аналитика? Наш опыт в сложном домене говорит: да, рутинную часть — полностью. В докладе я поделюсь архитектурой этого решения и выводами, которые помогут вам ответить на этот вопрос для вашей компании.