Ученые разработали новый метод, помогающий роботам понимать и манипулировать объектами с помощью языковых подсказок

Исследователи из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) создали систему Feature Fields for Robotic Manipulation (F3RM), которая позволяет роботам понимать и манипулировать близлежащими объектами с помощью произвольных языковых подсказок. Смешивая 2D-изображения с особенностями модели фундамента для создания 3D-сцен, F3RM позволяет роботам идентифицировать и захватывать незнакомые предметы, что делает ее особенно полезной в реальных условиях, таких как склады и домашние хозяйства.

Одной из ключевых особенностей F3RM является способность интерпретировать текстовые подсказки на естественном языке, что позволяет роботам манипулировать объектами на основе менее конкретных запросов человека. Это означает, что даже если пользователь попросит робота «поднять высокую кружку», робот сможет найти и взять предмет, наиболее подходящий под это описание. Такой уровень адаптивности и обобщения задач крайне важен для эффективной работы роботов в реальных условиях.

Гэ Янг, постдок Института искусственного интеллекта и фундаментальных взаимодействий Национального научного фонда и MIT CSAIL, объясняет: «Создать роботов, способных к обобщению в реальном мире, невероятно сложно. Мы очень хотим понять, как это сделать, поэтому в этом проекте мы пытаемся добиться агрессивного уровня обобщения — от трех или четырех объектов до всего, что мы найдем в Центре Стата Массачусетского технологического института. Мы хотели научиться делать роботов такими же гибкими, как мы сами, поскольку мы можем схватывать и размещать объекты, даже если никогда их раньше не видели».

Применение F3RM выходит за рамки простого понимания и манипулирования объектами. Она может быть особенно полезна в крупных центрах обработки заказов, где роботы должны выбирать товары из загроможденной и непредсказуемой среды. На таких складах роботам часто дают описание товара, который они должны идентифицировать, и они должны сопоставить текстовое описание с нужным объектом, невзирая на различия в упаковке.

Например, в центрах обработки заказов крупных интернет-магазинов могут находиться миллионы товаров, со многими из которых роботы никогда раньше не сталкивались. Для эффективной работы в таких масштабах роботам необходимо глубоко понимать геометрию и семантику различных объектов, даже если они находятся в ограниченном пространстве. Развитые способности F3RM к пространственному и семантическому восприятию могут значительно расширить возможности робота по обнаружению объекта, помещению его в контейнер и отправке на упаковку. В конечном итоге это поможет работникам завода более эффективно отгружать заказы клиентов.

Разработка F3RM — это значительный шаг вперед в области робототехники. Благодаря сочетанию визуального восприятия с обработкой естественного языка роботы теперь могут понимать объекты и манипулировать ими так, как это делает человек. Это имеет далеко идущие последствия для различных отраслей, включая электронную коммерцию, логистику и производство.

По словам профессора Даниэлы Рус, директора MIT CSAIL, «эта работа открывает новые возможности для сотрудничества и взаимодействия человека и робота. Позволяя роботам понимать и отвечать на открытые языковые запросы, мы приближаемся к созданию действительно интеллектуальных и адаптируемых машин».

Оригинал earth-chronicles.ru