Learning to drive in a simulated environment using deep reinforcement learning
Tarih
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Erişim Hakkı
Özet
Kendi kendini sürebilen araçlar yıkıcı bir teknoloji olabilir ve Derin Pekiştirmeli Öğrenme ile araç kullanmayı öğrenmek hala zorlu ve çözülmemiş bir problemdir. Uçtan uca pekiştirmeli öğrenme yöntemleri, son zamanlarda video oyunlarında ve belirli kendi kendine sürüş görevlerinde başarılı olduğu gösterilmiştir. Bu yöntemler çoğunlukla simülasyon ortamlarında veya oyunlarda çalışır ve amaçlanan sürüş politikasını yakalamak için iyi tanımlanmış ödül işlevlerine ve ayrıca çoğunlukla kullanılan sezgisel optimizasyon yöntemlerine (rasgele gradyan inişi gibi) büyük ölçüde güvenirler. Bu tezde, daha karmaşık bir 3 boyutlu sürüş simülasyonunun ara yüzü olan 2 boyutlu bir sürüş ortamı inşa edildi. Bu sürüş ortamı pekiştirmeli öğrenme algoritmalarının ihtiyaç duyduğu ödül fonksiyonuna sahiptir ve gözlemler sunar. Sıkça kullanılan Derin Q-Ağları algoritması bu ortamda sürüş politikası öğrenmek için başarılı bir şekilde eğitildi. Ancak, elde edilen sonuçlara göre öğrenilen sürüş politikası için çok sayıda deney gerekirken, tüm senaryoları çarpmadan bitirememekte ve düz bir şekilde hareket edememektedir. Pekiştirmeli öğrenmede optimal bir politikaya yakınsamak için çok fazla veri ve zaman gerekir. Bu yöntemlerin ihtiyaç duyduğu basit ödül fonksiyonları güvensiz ve istenmeyen sürüş politikalarına yol açabilir. Pekiştirmeli öğrenmede sonuçlar her zaman kolayca tekrarlanabilir değildir. Kapsayıcı bir ödül fonksiyonu tasarlamak yerine, gerçek sürücülerin yargılarından ödül fonksiyonu öğrenmeye çalışılabilir. Bu tezde, literatürdeki ödül fonksiyonu yakınsaması yöntemleri bir sürüş simülasyonunda çalışabilecek şekilde genişletildi. Bu yöntemler insanlardan toplanan geribildirimlerin yumuşatılması, insan sürüş örneklerinin kullanılması ve bozuk senaryoların tekrar edilmesi gibi özetlenebilir. Sonuç olarak elde edilen sürüş politikası diğer yöntemlere göre daha hızlı yakınsamıştır. Daha düzgün ve güvenli hareketlerle daha uzun süreler çarpmadan sürüş yapabilmektedir.
Self-driving vehicles can be a disruptive technology and learning to drive with Deep Reinforcement Learning is still challenging and unsolved. End-to-end reinforcement learning methods recently have yielded successful models in video games and specific self-driving tasks. These methods primarily work on simulation environments, and they heavily rely on well-defined reward functions for capturing intended driving policy and mainly use heuristic optimization methods (such as stochastic gradient descent). This thesis builds a 2D driving environment appropriate to Reinforcement Learning algorithms while providing observations, applying actions, and giving rewards with its defined reward function. A generally used Deep Q-Networks algorithm trained on it successfully to learn a driving policy. However, it cannot move without collision in all scenarios, and it is also moving erratically. Although simple reward functions work very well for static environments, wrongly designed reward functions can lead to unsafe and unwanted driving policies. The optimization methods require a lot of data and time to converge. In this thesis, the research is enhanced by extending human-in-the-loop reinforcement learning to learn a driving policy. Instead of designing a reward function, one can capture it from actual drivers. As an extension, the smooth feedback mechanism is proposed to capture scenarios such as, instead of making a sharp turn, going for a gradual one. Furthermore, scenes repeated until the agent gained positive rewards, allowing the system to overcome the problematic states. Finally, explanation-based learning is applied by letting the user drive initially, and demonstrations used to be positive and negative feedback. The resulting method applied to the driving simulation environment yields successfully trained models. The method converged faster, and learned driving policy lasts longer without errors with smoother and safer movements than prior Reinforcement Learning and human-in-the-loop works.








