Q nauka vs Temporal Różnica vs model oparty wzmocnionego nauki

głosy
11

Jestem w kursie o nazwie „Intelligent Machines” w uniwersytecie. Byliśmy wprowadzone z 3 metod uczenia zbrojonego oraz z tymi, dano nam intuicję kiedy je stosować cytuję:

  1. Q-Learning - Best gdy MDP nie może być rozwiązany.
  2. Różnica czasowa Nauka - najlepiej, gdy MDP jest znane lub można się nauczyć, ale nie może być rozwiązany.
  3. Model-Based - najlepiej, gdy MDP nie można się nauczyć.

Poprosiłem przykład dlaczego używać TDL nad QL i tak dalej, a wykładowca nie mógł znaleźć.

Więc czy są jakieś dobre przykłady do wyboru jednej metody nad drugą? Dzięki.

Utwórz 09/12/2015 o 12:17
źródło użytkownik
W innych językach...                            


1 odpowiedzi

głosy
21

Różnica czasowa jest podejście do uczenia się, jak przewidują, że ilość zależy od przyszłych wartości danego sygnału . Może być używany do nauki zarówno funkcję V i Q-funkcji, natomiast Q-learning jest specyficzny algorytm TD używany do nauki Q-funkcji. Jak stwierdził @StationaryTraveller, trzeba Q-funkcji, aby wykonać działanie (np następstwie polityki epsilon-chciwy). Jeśli masz tylko funkcję V-nadal można czerpać Q-funkcję iteracji po wszystkich możliwych kolejnych państw i wybierając działanie, które prowadzi do stanu z najwyższym V-wartości. Do przykładów i więcej spostrzeżeniami polecam klasyczną książkę z Sutton i Barto ( to jest nowsza wersja progress- -in).

W modelu wolne RL nie nauczysz funkcję stan przejściowy ( model ) i polegać tylko na próbkach. Jednak, być może zainteresuje Cię również dowiedzieć się, na przykład dlatego, że nie można zebrać wiele próbek i chcesz wygenerować jakieś wirtualne. W tym przypadku mówimy o modelu opartego RL. RL w oparciu o model jest dość powszechne w robotyce, gdzie nie można wykonać wiele prawdziwych symulacji lub robot będzie złamać. To jest dobry przegląd z wielu przykładów (ale to tylko mówi o algorytmach wyszukiwania polityka). Inny przykład spojrzeć na tym papierze, Tutaj autorzy uczą -along z procesu kształtowania polityki Gaussa celu zbliżenie do przodu model robota, w celu symulacji trajektorii oraz do zmniejszenia liczby rzeczywistej interakcji robota.

Odpowiedział 14/12/2015 o 07:20
źródło użytkownik

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more