Основанный бывшими инженерами Google стартап Physical Intelligence представил модель π0.7. Разработчики заявили о «качественном скачке» в способности ИИ обобщать навыки и выполнять задачи, которым его не обучали напрямую.
Система относится к классу «зрение-язык-действие» (Vision-Language-Action, или VLA) и предназначена для управления роботами.
В отличие от предыдущих решений, π0.7 продемонстрировала признаки композиционного обобщения — способности комбинировать ранее усвоенные навыки для решения новых задач.
В ходе экспериментов модель показала ряд неожиданных способностей. В частности, π0.7 смогла управлять новым типом робота и складывать футболки, несмотря на отсутствие обучающих данных для этой конкретной платформы.
Результаты сопоставимы с уровнем операторов, имеющих сотни часов опыта телоуправления, отметили программисты.
Инструмент также смог разобраться в использовании ранее незнакомых устройств, включая кухонную технику. Например, робот выполнил часть задачи по приготовлению батата в аэрогриле, хотя подобных сценариев в обучающей выборке не было.
По словам разработчиков, это стало возможным за счет объединения разрозненных навыков — аналогично тому, как языковые модели комбинируют знания из разных областей.
Одним из ключевых отличий π0.7 стала возможность управлять не только через команды «что делать», но и через уточнение «как делать».
Модель принимает:
Некоторые из субцелей вспомогательная система может создавать прямо во время работы. Это дает роботу возможность корректировать поведение без дообучения.