Evrim Stratejileri ile RL Algoritmalarının İncelenmesi ve Karşılaştırılması

Fatma Vural
6 min readApr 5, 2021

--

RL Learning (Takviyeli Öğrenme )

Takviyeli öğrenme ortamında etmendeki bir hareketinin karşılığı olarak eğitici veya yazılım, yeni durumun istem durumunu belirtmek için bir ödül veya ceza ile etmeni takviye işlemi gerçekleştirir. Böylece bu sistemde, amaca ulaşmak için gerçekleştirilebilecek en iyi eylem seçilmeye çalışır. Bir takviyeli öğrenme sisteminde etmen ve çevre dışında biri opsiyonel olmak üzere dört unsur bulunur:

  1. Politika (policy)
  2. Ödül (reward signal)
  3. Değer/Durum Değeri (value function)
  4. Çevre modeli (model)

Politika; etmenin içinde bulunduğu durumda alabileceği aksiyonu belirler. Ödül; etmenin gerçekleştirmiş olduğu bir aksiyona karşılık çevreden aldığı puandır. Durum değeri; etmenin içinde bulunduğu durumdan ve o durumu takip eden diğer durumlardan bekleyebileceği ödüllerin toplamıdır. Model; isteğe bağlı olarak sisteme dâhil edilen bir unsurdur.

Örneğin, Q öğrenme, sonlu durumlu Markov Karar Süreci olarak modellenebilen alanlara kolaylıkla uygulanabilecek modelden bağımsız bir Takviyeli Öğrenme algoritmasıdır. Takviyeli öğrenme problemleri matematiksel olarak Markov karar süreçleri gibi modellenebilirler. Markov karar süreci şu parametrelere bağlı olarak tanımlanır.

  1. Sonlu durumlar kümesi, S
  2. Hareketler kümesi, A
  3. Bir ödül fonksiyonu, R: S x A → R
  4. Durum geçiş fonksiyonu, T: S x A → π(S)

Q öğrenme prosedürü şöyle sıralanabilir:

  1. Q-değerleri tablosunu (Q (s, a)) başlat.
  2. Mevcut durumu gözlemle, s.
  3. Eylem seçimi politikalarından birine dayalı bir eylem seç. (soft, greedy veya softmax).
  4. Harekete geç ve ödülü (r) ve yeni durumu (s’) izle.
  5. Gözlemlenen ödülü ve bir sonraki durum için mümkün olan maksimum ödülü kullanarak durum için Q değerini güncelle.
  6. Durumu yeni durumuna ayarla ve terminal durumuna ulaşana kadar işlemi tekrarla.

Öğrenme için rastgele oyun başlatılıyor, oyunun bir süre çevre ile etkileşime girmesine ve etkileşim bölümlerini (verilerini) toplamasına izin veriyoruz.Böylelikle, ne olduğunun tam bir kaydını elde edebilme şansına sahibiz: hangi sırayla karşılaştığımız, her durumda hangi eylemleri gerçekleştirdiğimiz ve her adımda ödülün ne olduğu gibi eylem bilgileridir bunlar.

Örnek verecek olursak, aşağıdaki resimde varsayımsal bir ortamda her biri 10 zaman adımı atan üç bölümden oluşan bir diyagram bulunmaktadır. Her dikdörtgen bir durumdur ve ödül pozitifse dikdörtgenler yeşil renklidir( örn. top elimizde veya skorda rakibimizi geçtik) ve ödül negatifse kırmızıdır (örn. Topu kaçırdık veya rakibimiz önde)

Bu şema, stratejiyi nasıl geliştirebileceğimize dair bir reçete öneriyor; Yeşil alanlara giden yol boyunca yaptığımız her şey iyiydi ve kırmızı alanlarda ise yaptığımız her şey kötüydü. Daha sonra, gelecekte bu yeşil eylemlerin daha olası hale getirecek ve gelecekte bu kırmızı eylemlerin ise daha az olası hale getirecek ağın parametrelerinde küçük bir güncelleme hesaplamak için geri yayımı kullanabiliriz.

Sonuç olarak, güncellenen eylemlerin biraz daha iyi çalışmasını bekliyoruz. Daha sonra süreci yineliyoruz: başka bir bölüm grubu topluyoruz, başka bir güncelleme yapıyoruz, ve bu şekilde iyileştirmeleri devam ettiriyoruz.

Evrim Stratejileri

Evrimsel algoritmalar tipik olarak diğer teknikler kullanılarak kolayca çözülemeyen problemlere optimum çözümler sağlamak için kullanılır. Kesin bir sonucu bulmak hesaplama açısından çok yoğun olabilir. Kesin olmasa da genellikle diğer olası algoritmalara göre kesine yakın bir çözüm verir.

Sezgisel olarak, optimizasyon, bazı rastgele parametrelerimiz ve ardından tekrar tekrar tahminimizi biraz daha iyi sonuç veren ince ayarlara doğru hareket ettirdiğimiz bir “tahmin et ve kontrol et” sürecidir.

Kırmızı yüksek, mavi düşük parametreleri içeren bir ES optimisasyon sürecidir. Mevcut parametre değerleri beyaz renkle belirtilmiştir. Her bir örnek popülasyonu ise siyah renktedir. ES algoritmalarının her yenilenme iterasyonunda daha iyi sonuca ulaştığını görebiliyoruz.

Konu ile ilgili başka bir örnek ise; aşağıdaki giftir. Vücut yapılarını ve uygulanan kas kuvvetlerini optimize ederek yürümeyi öğrenen birkaç nesil dinozoru göstermektedir. Soldan sağa nesil artar, bu nedenle daha sağa doğru yürüme süreci daha optimize olur. Erken nesil dinozorların yürüyememesine rağmen ES, dinozorları mutasyon ve çapraz geçiş yoluyla (eğitilmesiyle) zamanla yürüyebilen bir forma dönüştürmeyi başardı.

RL ve ES arasındaki fark nedir?

  1. Pekiştirmeli öğrenme, bir temsilci kavramını kullanır ve bu temsilci, çevre ile farklı şekillerde etkileşime girerek öğrenir. Evrimsel algoritmalarda, genellikle birçok “temsilci” ile başlarlar ve yalnızca “güçlü olan faktör, temsilci ya da etken” hayatta kalır.
  2. Pekiştirmeli öğrenme temsilci faktörleri sayesinde yapay sinir ağı hem olumlu hem de olumsuz eylemleri öğrenir, ancak evrimsel algoritmalar yalnızca optimum olanı öğrenir ve olumsuz veya yetersiz çözüm bilgileri atılır ve kaybolur.

Daha kolay anlaşılması açısından örnek vermek gerekirse; Anladığım kadarıyla iki ana şey biliyorum.

1) Pekiştirmeli öğrenme, bir ajan kavramını kullanır ve ajan, çevre ile farklı şekillerde etkileşime girerek öğrenir. Evrimsel algoritmalarda, genellikle birçok “ajan” ile başlarlar ve yalnızca “güçlü olanlar” hayatta kalır (en düşük kaybı veren özelliklere sahip ajanlar).

2) Pekiştirmeli öğrenme aracı (ları) hem olumlu hem de olumsuz eylemleri öğrenir, ancak evrimsel algoritmalar yalnızca optimum olanı öğrenir ve olumsuz veya yetersiz çözüm bilgileri atılır ve kaybolur.

Odadaki sıcaklığı düzenlemek için bir algoritma oluşturmak istiyorsunuz.

Oda 15 ° C ve siz 23 ° C olmasını istiyorsunuz.

Temsilci, Takviyeli öğrenmeyi kullanarak sıcaklığı artırmak ve azaltmak için bir dizi farklı eylem deneyecektir. Sonunda, sıcaklığı artırmanın iyi bir ödül verdiğini öğrenir. Ama aynı zamanda sıcaklığı düşürmenin kötü bir ödül vereceğini de öğreniyor.

Evrimsel algoritmalar için, hepsinin yapacağı önceden programlanmış bir dizi eyleme sahip olan bir grup rastgele aracı ile başlar. Daha sonra “sıcaklığı artır” eylemine sahip ajanlar hayatta kalır ve bir sonraki nesle geçer. Sonunda, yalnızca sıcaklığı artıran maddeler hayatta kalır ve en iyi çözüm olarak kabul edilir. Ancak algoritma, sıcaklığı düşürdüğünüzde ne olacağını bilmiyor.

RL genellikle farklı eylemler deneyen ve tüm bilgileri (olumlu veya olumsuz) öğrenen ve hatırlayan bir aracıdır. EM, birçok eylemi tahmin eden birçok aracı kullanır, yalnızca en uygun eylemlere sahip ajanlar hayatta kalır.

Grafik Karşılaştırması

ES ve RL’nin performansını karşılaştırdık. MuJoCo (Multi-Joint dynamics with Contact)labarotuvarında tasralanan aşağıdaki örneklere bakın, tüm eklemlerin konumlarının verildiği ve ilerlemek için her bir eklemde uygulanacak torkları, çıkarması gereken fiziksel hareket olarak simüle edilmiş eklemli birkaç şekil içeriyor. Aşağıda, amacın ilerlemek olduğu üç MuJoCo kontrol görevi konusunda eğitilmiş bazı örnek temsilciler verilmiştir.

Genellikle algoritmaların performansını, verilerden öğrenme verimliliğine bakarak karşılaştırırız.Grafiklere bakarsak,

Veri verimliliği karşılaştırması: Yukarıdaki karşılaştırmalar, ES’nin (turuncu) TRPO (mavi) ile karşılaştırılabilir bir performansa ulaşabileceğini, ancak her durumda tam olarak eşleşmediğini veya onu geçmediğini göstermektedir.

Çözüm Zamanlaması: Belirli bir sorunu çözmek ne kadar sürer? Sorulması gereken en önemli sorudur şüphesiz. Bu miktar nihayetinde bir araştırmacı için ulaşılabilir yineleme hızını belirler. ES, çalışanlar arasında ihmal edilebilir bir iletişim gerektirdiğinden, en zor MuJoCo simülasyon görevlerinden birini 80 makinede 1.440 CPU kullanarak yalnızca 10 dakikada çözmeyi başarmıştır. Karşılaştırma olarak, tipik bir ortamda, bir makinede 32 A3C çalışanı bu görevi yaklaşık 10 saatte çözecektir. Ayrıca, RL’nin performansının daha algoritmik ve mühendislik çabasıyla iyileştirilmesi de mümkündür, ancak A3C’yi standart bir bulut CPU ayarında saf bir şekilde ölçeklendirmenin, yüksek iletişim bant genişliği gereksinimleri nedeniyle zor olduğunu da belirtmek gerekir.

Aşağıda, ES ile eğitilmiş 3 boyutlu insansı yürüyüşçülerin birkaç videosu bulunmaktadır. Gördüğümüz gibi, sonuçlar, optimizasyonun hangi yerel minimuma yaklaştığına bağlı olarak oldukça çeşitlidir.

Bu çalışma nöroevrim yaklaşımlarını açıklama ve farklı bakış açısı sunmayı amaçlamıştır. ES algoritmalarının pekiştirmeli öğrenme yöntemleriyle rekabet edebildiğinin kanıtını niteliğinde de olmuştur. Bir çok veribilimciye göre, RL algoritması dolaylı kodlama yöntemleri gibi diğer fikirleri yeniden gözden geçirerek veya parametrelere ek olarak ağ yapısını geliştirerek daha heyecan verici çalışmaların içinde olacağı düşünülmektedir.

KAYNAKÇA

--

--

Fatma Vural

I’m a analog person in digital world also part - time engineer.. ✨