Gripper навчається… через випробування та помилки

Dec 26, 2019

Натхненний людською рукою, LearningGripper має чотири пальці. За допомогою програмного забезпечення машинного навчання цей захват може оволодіти складними діями, такими як збирання та орієнтування статті. Основні положення пальців і функція зворотного зв’язку з навколишнього середовища потрібно визначити заздалегідь; захват вивчає всі інші послідовності руху шляхом спроб та помилок.


Завдання LearningGripper, як показано на малюнку, полягало в тому, щоб повернути кульку, поки логотип не знаходиться вгорі. На початку захват переміщав м'яч випадковим чином. Датчик позиції в кульці дав відгук про те, наскільки логотип знаходився від «долоні захвата». LearningGripper отримав винагороду за системою очок; бали обробляються в програмному забезпеченні машинного навчання. З часом програмне забезпечення розробило стратегію руху, і захоплювач дізнався, які дії потрібно зробити в певній точці. Він змінює свої рухи, щоб отримати якомога більше позитивних відгуків і нарешті знаходить надійне рішення своєї задачі. Якщо стратегія одного захоплювача переноситься на інший, другий захоплювач використовує це як базу знань, щоб більш ефективно вивчити власну стратегію.


LearningGripper демонструє, як системи в майбутньому зможуть самостійно вирішувати складні завдання без складного програмування. Системи самонавчання, такі як LearningGripper, можуть бути встановлені на виробничій лінії, а потім дозволяти самостійно оптимізувати свою поведінку