Zrozumienie log_prob dla rozkładu normalnego w pytorch

głosy
1

Jestem obecnie próbuje rozwiązać Pendulum-V0 ze środowiska siłowni openAi który ma ciągłą przestrzeń działania. W rezultacie, trzeba użyć rozkładu normalnego do spróbowania swoich działań. Co nie rozumiem jest wymiar log_prob podczas korzystania z niego:

wprowadzić

I oczekiwano tensora wielkości 2 (jedno dla każdego log_prob działania), ale wyjściu tensora wielkości (2,2).

Jednakże, w przypadku stosowania do rozkładu kategoryczne dyskretnej środowiska log_prob ma odpowiednie rozmiary. Dlaczego log_prob dla rozkładu normalnego o innym rozmiarze?

Utwórz 19/03/2020 o 21:23
źródło użytkownik
W innych językach...                            

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more