Kullanıcı:İcanerdogan/deneme tahtası

Q-öğrenme, belirli bir durumda bir eylemin değerini öğrenmek için model içermeyen, pekiştirmeli bir öğrenme algoritmasıdır. Bir ortam model gerektirmediğinden dolayı modelden bağımsızdır. Uyarlamalar gerektirmeden stokastik geçişler ve ödüllerle ilgi sorunları çözebilir.

Herhangi bir sonlu Markov Karar Süreci (MKS) için, Q-öğrenme, mevcut durumdan başlayarak tüm ardışık adımlarda toplam ödülün beklenen değerini maksimize etme anlamında optimal bir politika bulmaktadır. ^[1] Q-öğrenme, sonsuz keşif süresi ve kısmen rastgele bir politika göz önüne alındığında, herhangi bir MKS için optimal bir eylem seçimi politikasını belirleyebilir. ^[1] "Q", algoritmanın hesapladığı işlevi yani belirli bir durumda gerçekleştirilen bir işlem için beklenen ödülleri ifade eder. ^[2]

Kaynakça[değiştir | kaynağı değiştir]

^ ^a ^b "Convergence of Q-learning: a simple proof" (PDF). Francisco S. Melo.
^ "Demystifying Deep Reinforcement Learning | Computational Neuroscience Lab" (İngilizce). Erişim tarihi: 2021-05-26.

[:0-1] "Convergence of Q-learning: a simple proof" (PDF). Francisco S. Melo.

[2] "Demystifying Deep Reinforcement Learning | Computational Neuroscience Lab" (İngilizce). Erişim tarihi: 2021-05-26.

[1]

[2]