Apple научила ИИ понимать, что делает человек, по звукам и движениям
ЕРЕВАН, 24 ноября. /АРКА/. Apple представила результаты исследования, в котором показала: современные ИИ-модели могут распознавать действия человека, анализируя всего лишь звуки вокруг и данные о движении — без камер и видеозаписей.
Исследование описано в научной работе «Использование LLM для объединения мультимодальных данных датчиков для распознавания активности». Суть в том, что большие языковые модели (LLM) способны объединять данные от датчиков — например, микрофона, акселерометра и гироскопа — и по этим сигналам определять, чем человек занят.
В Apple отмечают, что это может серьёзно повысить точность «понимания» активности пользователя, особенно там, где одних данных датчиков недостаточно.
Как это работает
Учёные взяли данные из крупного набора Ego4D — это тысячи часов видео от первого лица, где люди занимаются повседневными делами: готовят, убирают, играют в баскетбол, гуляют с собакой, работают за компьютером и т.д.
Apple выделила 12 распространённых типов активности — например, мытьё посуды, чтение, тренировки, приготовление еды — и обработала аудио и данные движения небольшими ИИ-моделями. Эти модели создавали текстовые описания звуков и движений, а уже затем LLM (Gemini-2.5-pro и Qwen-32B) определяли, чем именно занят человек.
Важно: языковые модели не слушали записи напрямую — они анализировали текстовые расшифровки, созданные другими ИИ.
Что показали тесты
ИИ от Apple смог достаточно точно определять действия пользователя даже без дополнительного обучения. А если дать модели всего один пример для «подсказки», точность резко повышается.
Результаты:
LLM справляются гораздо лучше, чем модели, использующие только один тип данных.
Наиболее точные результаты — когда модель выбирала действие из фиксированного списка из 12 вариантов.
В «открытом» режиме (когда вариантов нет) ИИ тоже неплохо справляется, хотя иногда даёт слишком общие ответы.
Gemini-2.5-pro и Qwen-32B показали сопоставимую точность.
Зачем это Apple
Компания показывает, что языковые модели могут стать универсальным инструментом для анализа любых датчиков — от микрофона до движения руки. Это открывает путь к более «умным» и контекстно-чувствительным функциям в iPhone, Apple Watch и других устройствах без необходимости включать камеру.
Такие технологии могут применяться в фитнесе, безопасности, здоровье и даже управлении устройствами жестами — при минимуме данных и максимуме приватности.