본문 바로가기

인공지능/Embodied AI

A SURVEY OF EMBODIED AI: FROM SIMULATORS TO RESEARCH TASKS 논문 정리 - 1

https://arxiv.org/abs/2103.04918

Embodied AI 분야의 Survey 논문입니다.

시뮬레이터에 대한 설명과 여러 가지 평가 방법들, Embodied AI의 연구 주제 등을 쉽게 잘 설명해주는 논문이어서 입문으로 읽기에 적합합니다.


ABSTRACT

최근 인공지능의 패러다임은 인터넷상에 널리 퍼져있는 이미지, 비디오, 텍스트 등을 활용하여 학습하는 "Internet AI"에서 실제 혹은 시뮬레이션에서 학습을 하는 "Embodied AI"로 변화하고 있습니다.

Embodied AI에 대한 관심은 증가하고 있지만 이에 대한 포괄적인 조사(Survey)는 이루어지지 않고 있습니다.

본 논문에서는 SOTA 수준의 시뮬레이터 9개를 벤치마킹하여 시뮬레이터가 Embodied AI 연구에 어떤 영향을 주는지 정리합니다.

또한 Embodied AI의 주요 연구 주제인 Visual Exploration, Visual Navigation, Embodied Question Answering등과 Embodied AI에 대한 최신 연구 기법, 평가 방법, 데이터셋 등을 다룹니다.

1.  INTRODUCTION

본 논문에서는 Embodied AI에서 주로 논의되는 3가지에 대하여 다룹니다.

첫 번째로, 본 논문에서는 SOTA 시뮬레이터에 대한 조사와 Embodied AI 연구 시에 사용할 시뮬레이터를 선정하는 과정에 대한 정보(Insight)를 제공합니다.

두 번째로, 본 논문에서는 Embodied AI의 연구 방향성과 현재 활용 가능한 여러 Embodied AI들을 구체적으로 분석합니다.

마지막으로, 본 논문에서는 Embodied AI 시뮬레이터의 발전과 Embodied AI 연구의 진척(Progress) 사이의 연관성을 명확히 합니다.

2. EMBODIED AI SIMULATORS TO RESEARCH

Embodied AI 시뮬레이터와 연구 과제(Tasks)에는 밀접한 연관성이 있습니다.

시뮬레이터는 Embodied AI 프레임워크를 실제 배포하기 전에 학습과 테스트를 할 수 있는 가상의 환경을 제공합니다.

본 논문에서는 지난 4년 동안 많이 사용된 9개의 시뮬레이터에 대하여 다룹니다.

DeepMind Lab, AI2-THOR, CHALET, VirtualHome, VRKitchen, Habitat-Sim, iGibson, SAPIEN, ThreeDWorld

이러한 시뮬레이터들은 강화 학습에 주로 사용되는 게임 시뮬레이터와는 다르게 보다 일반적인 상황에 맞게 설계되었는데 주로 방이나 아파트를 실험 환경으로 설정합니다.

대부분의 시뮬레이터들은 물리 엔진, 파이썬 API, 다양한 환경에서 오브젝트를 제어하거나 조작할 수 있는 에이전트로 구성됩니다.

본 논문에서는 Sim2Real와 robotics 관련 시뮬레이터는 다루지 않습니다.

3. SIMULATORS FOR EMBODIED AI

그림 1

3.1. Embodied AI Simulators

DeepMind Lab.

Embodied AI를 위해 만들어진 첫 번째 시뮬레이터입니다.

1인칭 3D 게임 플랫폼으로 일반적인 인공지능과 기계학습 시스템을 연구하기 위해 개발되었으며, Quake III Arena 엔진으로 개발되었습니다.

Navigation Tasks, Fruit Collection, Movement through narrow spaces, Laser tag 등의 Task를 연구할 수 있는 환경을 제공합니다.

가상 환경은 주로 Fruit Gathering부터 Navigation to Laser Tag까지 각기 다른 주제들로 이루어진 3가지 레벨로 나뉜다.

DeepMind의 Arcade Learning Environment(Atari)와는 다르게 DeepMind Lab. 은 강화 학습 연구에서 Embodied AI 시뮬레이터의 벤치마킹을 하기 위해 만들어졌습니다.

AI2-THOR

부엌, 거실, 침실, 욕실 4가지 카테고리가 있는 시뮬레이터로 120개의 photo-realistic 3D 장면으로 이루어져 있습니다.

유니티(Unity) 3D 게임 엔진으로 만들어졌으며 방 안의 사물과 상호작용 할 수 있는 파이썬 API를 제공합니다.

주요 특징 중 하나는 에이전트의 특정 작업에 따라서 상태가 바뀌는 실행 가능한 객체입니다.

또한 로우 레벨의 로봇 조작까지 가능한 다양한 에이전트 조작 기능을 제공합니다.

또한 멀티 에이전트 강화 학습을 위한 멀티 에이전트 설정도 지원합니다.

AI2-THOR의 성공에 힘입어 알렌 인공지능 연구소(Allen Institute of Artificial Intelligence)에서 RoboTHOR를 발표했습니다.

AI2-THOR의 확장판으로 AI2-THOR의 가상 환경 몇 가지를 현실에 맞게 수정하고 사용자가 훈련된 에이전트를 현실에서 배포할 수 있도록 도와줍니다.

CHALET

Cornell House Agent Learning Environment의 줄임말로 주로 집을 가상 환경으로 만들며, 네비게이션(Navigation) Task가 가능하고 오브젝트와 가상 환경 모두 조작이 가능합니다.

유니티 게임 엔진으로 개발되었습니다.

CHALET은 58개의 방이 있으며 150가지 종류의 오브젝트들이 있는 10개의 집으로 구성되어 있습니다.

서로 다른 질감의 330개의 오브젝트들이 섞여서 여러 타입의 오브젝트를 생성합니다..

에이전트는 1인칭 시점이며 전체적으로 AI2-THOR와 매우 유사합니다.

VirtualHome

유니티 게임 엔진으로 개발된 시뮬레이터로 운동학(Kinematics), 물리학(Physics), 네비게이션(Navigation) 모델을 내장하고 있습니다.

모든 내장 오브젝트는 유니티 에셋 스토어에서 가져왔습니다.

VirtualHome 시뮬레이터는 6개의 아파트와 4개의 휴머노이드 모델로 구성되어있습니다.

각 아파트는 357개의 오브젝트들로 구성되어 있습니다.

VirtualHome 시뮬레이터는 가상 환경을 실행하기 전에 프로그램 스크립트를 필요로 합니다.

VRKitchen

언리얼엔진 4(UE4)로 만들어졌고 physics-based와 photo-realistic이 적용된 부엌 가상 환경 모듈, VR장비와 파이썬 API를 통해 사용자가 조종할 수 있는 유저 인터페이스 모듈, 사용자의 명령을 가상환경에 전달하는 파이썬-UE4 브릿지 모듈로 이루어져 있으며, VRKitchen은 기본적인 상호작용(interactions)와 네비게이션 Task를 수행해 볼 수 있습니다.

총 16개의 가상의 부엌이 있으며 SUNCG 데이터셋을 통해서 3D 모델들을 불러올 수 있습니다.

VRKitchen의 특이한 점은 오브젝트의 상태(State)가 변한다는 점인데, 에이전트의 특정 행동으로 인하여 오브젝트의 상태를 변경시킬 수 있습니다.

Habitat-Sim

다양하게 활용 가능하며, 높은 성능을 보여주는 3D 시뮬레이터로 에이전트, 센서, 3D 데이터셋으로 구성됩니다.

Matterport3D와 Gibson V1 데이터셋 모두 렌더링이 가능하며 다른 3D 가상환경 데이터셋도 지원합니다.

OpenAI Gym 같은 하이 레벨 라이브러리 API를 제공합니다.

iGibson

높은 정확도의 시각화 기반 실내(indoor) 시뮬레이터로 에이전트와 오브젝트 사이의 높은 수준의 물리 역학(physical dynamics)을 제공합니다.

iGibson은 Gibson V1을 향상한 버전으로, 더 역동적인 가상 환경 렌더(render)가 가능한 새로운 렌더링 엔진을 탑재했습니다.

또한 Gibson V1 기반으로 설계되었기 때문에 5개 카테고리(의자, 책상, 문, 소파, 식탁)의 1984개의 상호작용 가능한 CAD 모델과 106개의 씬(scenes)을 사용할 수 있습니다.

이러한 기술은 방 형태의 가상 환경을 사용하는 Embodied AI 시뮬레이터의 획기적인 발전을 가져왔습니다.

iGibson은 로봇 형태의 에이전트인 MuJoCo's 휴머노이드와 Ant, Freight, JackRabbot V1, TurtleBot V2, Minitaur and Fetch 등을 제공합니다.

SAPIEN

SimulAted Part-based Interactive ENvironment의 줄임말로 현실적이고 물리적인 대화형(interactive) 가상 환경입니다.

PartNet-Mobility 데이터셋을 사용합니다.

SAPIEN의 특징으로 Robot Operating System(ROS) 인터페이스를 사용하는 에이전트를 제공합니다.

ROS는 3가지 레벨의 추상적 개념을 지원하는데 다이렉트 포스 컨트롤, ROS 컨트롤러, 모션 플레닝 인터페이스입니다.

이러한 특징들은 강화 학습에 사용하기 적합합니다.

ThreeDWorld

가장 최근에 만들어진 대화형 Embodied AI 시뮬레이터로 실내와 실외 모두 photo-realistic Scenes 설정이 가능합니다.

유니티 게임 에진을 사용하며 가구, 가전제품, 동물들, 탈 것들과 같은 약 200개의 카테고리의 2000개 이상의 3D 오브젝트들을 사용할 수 있습니다.

그러나 rigid-body physics, soft-body physics 등의 높은 수준의 물리 엔진은 포함되어있지는 않습니다.

사용자는 API, 아바타, VR 3가지로 상호작용 할 수 있으며 멀티 에이전트 세팅이 가능합니다.

가장 진보된 Embodied AI 시뮬레이터이지만 아직 많은 한계점을 가지고 있습니다.

로우 레벨로 조작하는 로봇 아바타나 관절 오브젝트들은 부족합니다.

 

이어지는 내용은 다음 글에서 추가로 작성하겠습니다.

처음 작성해본 논문 번역 및 요약이라 많이 부족합니다.

오역이나 잘못된 부분이 있다면 댓글로 남겨주시면 감사하겠습니다.

반응형

'인공지능 > Embodied AI' 카테고리의 다른 글

Embodied AI란 무엇인가?  (0) 2021.09.08