自主移動機器人的基本要求之一是其導航能力。機器人必須能夠按照給定的坐標從當前位置導航到地圖上指定的目標位置,同時還要避開周圍的障礙物。在某些情況下,需要機器人能夠以較高的導航速度盡快到達目的地。然而,導航速度較快的機器人通常具有較高的碰撞風險,額能會影響到機器人和周圍環境。
為了解決這個問題,豐橋工業大學(TUT)計算機科學與工程系主動智能系統實驗室(AISL)的研究小組提出了一個新的框架,用于訓練移動機器人快速導航,同時保持低碰撞率。該框架在訓練過程中結合了深度強化學習(DRL)和課程學習,讓機器人學會快速又安全的導航策略。
論文第一作者、博士生Chandra Kusuma Dewa解釋說,DRL可以使機器人通過反復嘗試各種動作,根據環境的當前狀態(如機器人位置和障礙物放置)學習適當的動作。此外,當前動作的執行會在機器人達到目標位置或與障礙物發生碰撞時立即停止,因為學習算法假設動作已經被機器人成功執行,該后果需要用于改進策略。所提出的框架可以幫助維持學習環境的一致性,使機器人可以學習到更好的導航策略。
此外,TUT的AISL負責人Jun Miura教授介紹說:“該框架遵循課程學習策略,在訓練情節開始時為機器人設定一個小的速度值。隨著集數的增加,機器人的速度會逐漸增加,這樣機器人就可以在訓練環境中從最簡單的關卡(如動作緩慢的關卡)到最困難的關卡(如動作快速的關卡),逐漸學會快速又安全的導航這一復雜任務。”
由于訓練階段的碰撞是不可取的,所以學習算法的研究通常是在模擬環境中進行的。研究人員模擬了室內環境進行實驗。實踐證明,所提出的框架在訓練和驗證過程中,與之前已有的其他框架相比,都能使機器人的導航速度更快,成功率最高。研究人員認為,根據評估結果,該框架是有價值的,它可以廣泛應用于任何需要快速但安全導航的領域的移動機器人的訓練。
論文標題為《A Framework for DRL Navigation With State Transition Checking and Velocity Increment Scheduling》,發表在《IEEE Access》上。
