Badanie statystyczne dla szeregów czasowych, w których występuje wynik - pyton

głosy
49

Zwracam się z prośbą o pomoc w zakresie testów regresji. Mam ciągły szereg czasowy, który zmienia się pomiędzy dodatnimi i ujemnymi liczbami całkowitymi. Mam też zdarzenia występujące w tym szeregu czasowym w pozornie przypadkowych punktach czasowych. Zasadniczo, kiedy jakieś zdarzenie ma miejsce, chwytam odpowiednią liczbę całkowitą. Następnie chcę sprawdzić, czy ta liczba całkowita w ogóle wpływa na zdarzenie. Podobnie jak w innych przypadkach, czy jest więcej dodatnich/ujemnych liczb całkowitych

Początkowo myślałem o regresji logistycznej z liczbą dodatnią/ujemną, ale wymagałoby to co najmniej dwóch różnych grup. Natomiast ja mam informacje tylko o zdarzeniach, które miały miejsce. Nie mogę włączyć tej liczby zdarzeń, które nie wystąpiły, ponieważ jest ona nieco ciągła i przypadkowa. Nie da się zmierzyć, ile razy dane zdarzenie nie wystąpiło

Tak więc moja odrębna grupa jest w pewnym sensie prawdziwa, ponieważ nie mam żadnych wyników z czegoś, co nie miało miejsca. To, co staram się sklasyfikować to

Czy dodatnia lub ujemna liczba całkowita ma wpływ na ten wynik, jeśli wystąpi.

Utwórz 11/05/2020 o 04:28
źródło użytkownik
W innych językach...                            


3 odpowiedzi

głosy
0

Chociaż pytanie to jest dość trudne do zrozumienia po pierwszym akapicie. Pozwólcie mi pomóc z tego, co mogłem zrozumieć z tego pytania.

Zakładając, że chcesz zrozumieć, czy istnieje związek między zdarzeniami, które mają miejsce, a liczbami całkowitymi w danych.

Podejście pierwsze: Wykreślić dane w skali 2d i sprawdzić wizualnie, czy istnieje związek między danymi. Podejście drugie: sprawić, aby dane ze zdarzeń były ciągłe i usunąć zdarzenia z innych danych, a następnie za pomocą rozwijanego okna wygładzić dane, a następnie porównać oba trendy.

Powyższe podejście działa dobrze tylko wtedy, gdy dobrze rozumiem twój problem Jest jeszcze jedna rzecz znana jako "Survivorship bias". Być może brakuje ci danych, proszę sprawdź również tę część.

Odpowiedział 18/05/2020 o 13:52
źródło użytkownik

głosy
0

Wygląda na to, że jesteś zainteresowany określeniem podstawowych sił, które wytwarzają dany strumień danych. Takie modele matematyczne nazywane są modelami Markova. Klasycznym przykładem jest studiowanie tekstu

Na przykład, jeśli uruchomię algorytm Ukrytego Modelu Markowa na paragrafie tekstu angielskiego, to okaże się, że istnieją dwie kategorie jazdy, które określają prawdopodobieństwo tego, jakie litery pojawiają się w paragrafie. Kategorie te można z grubsza podzielić na dwie grupy, "aeiouy" i "bcdfghjklmnpqrstvwxz". Ani matematyka, ani HMM nie "wiedziały", jak nazwać te kategorie, ale są one tym, do czego statystycznie zbiega się analiza akapitu tekstu. Możemy nazwać te kategorie "samogłoski" i "spółgłoski". Tak więc, tak, samogłoski i spółgłoski nie są tylko kategoriami pierwszej klasy do nauczenia się, ale wynikają z tego, jak tekst jest pisany statystycznie. Co ciekawe, "przestrzeń" zachowuje się bardziej jak samogłoska niż spółgłoska. Nie podałem prawdopodobieństw dla powyższego przykładu, ale warto zauważyć, że "y" kończy się prawdopodobieństwem około 0,6 samogłoski i 0,4 spółgłoski; co oznacza, że "y" jest statystycznie najbardziej spółgłoskową zachowującą się samogłoską

Świetny artykuł to https://www.cs.sjsu.edu/~stamp/RUA/HMM.pdf, w którym omówiono podstawowe idee tego rodzaju analizy szeregów czasowych, a nawet podano jakiś sudo-kod dla odniesienia

Niewiele wiem o danych, z którymi masz do czynienia i nie wiem, czy pojęcia "pozytywny" i "negatywny" odgrywają decydującą rolę w danych, które widzisz, ale jeśli przeprowadziłeś HMM na swoich danych i uznałeś, że te dwie grupy to zbieranie liczb pozytywnych i zbieranie liczb negatywnych, twoja odpowiedź zostałaby potwierdzona, tak, najbardziej wpływowe dwie kategorie, które napędzają twoje dane to pojęcia "pozytywny" i "negatywny". Jeżeli nie podzielą się one równo, wówczas Twoja odpowiedź brzmi, że pojęcia te nie mają wpływu na prowadzenie danych. Co więcej, algorytm zakończyłby się kilkoma matrycami prawdopodobieństwa, które pokazałyby, jak bardzo każda z liczb całkowitych w twoich danych jest pod wpływem każdej kategorii, dzięki czemu miałbyś znacznie lepszy wgląd w zachowanie twoich danych szeregów czasowych

Odpowiedział 19/05/2020 o 07:59
źródło użytkownik

głosy
0

Być może źle rozumiem twój problem, ale nie wierzę, że możesz przeprowadzić jakąkolwiek sensowną regresję bez dodatkowych informacji.

Regresja jest zazwyczaj używana do znalezienia związku pomiędzy dwoma lub więcej zmiennymi, jednak wydaje się, że masz tylko jedną zmienną (jeśli są one pozytywne lub negatywne) i jedną stałą (wynik jest zawsze prawdziwy w danych). Może mógłbyś zrobić kilka statystyk dotyczących rozkładu liczb (średnia, mediana, odchylenie standardowe), ale nie jestem pewien jak możesz zrobić regresję. https://en.wikipedia.org/wiki/Regression_analysis

Możesz wziąć pod uwagę, że jeśli brakuje ci dużego fragmentu danych, może pojawić się silna tendencja do przetrwania. https://en.wikipedia.org/wiki/Survivorship_bias

Mam nadzieję, że jest to choć trochę pomocne, by skierować cię we właściwym kierunku

Odpowiedział 11/05/2020 o 04:53
źródło użytkownik

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more