Replikacja wyników z pd.merge w SQL?

głosy
0

Bawiłem się z niektórymi zestawami danych lokalnie w Pythonie, a teraz próbuję odtworzyć te same wyniki w środowisku chmury z SQL

Mam 3 stoliki, każda z wieloma duplikatami identyfikatorów. Dla przykładu, tabela A będzie zawierać identyfikatorya, b, c, d, ..., tabela B będzie zawierać identyfikatorya, c, e, a1, a2 ..., a tabela C będzie zawierać identyfikatory d, f, a2, b1, b2, ...

Obecnie robię pd.mergedla tabeli A i tabeli B na ID a, oraz tabeli C z tabelą wynikową z pierwszego połączenia na ID a2. Używając pd.merge, zauważyłem, że doda on a _xlub a _ydo zduplikowanych ID (przez to rozumiem, że w pierwszej pd.mergetabeli A i B, cz tabeli A stanie się c_x, a cz tabeli B stanie się c_yi tak dalej dla każdego innego zduplikowanego ID. To samo odnosi się do wszelkich innych duplikatów identyfikatorów dla wszelkich połączeń

Jak mógłbym powtórzyć ten proces i ominąć problem z duplikatami identyfikatorów w SQL?

Utwórz 26/05/2020 o 03:30
źródło użytkownik
W innych językach...                            


1 odpowiedzi

głosy
0

Myślę, że można zmienić nazwę w połączeniu z resztą połączonych kolumn z nowymi nazwami:

SELECT table_A.ID_a, table_A.c_ID as c_ID_from_A, table_B.c_ID as c_ID_from_B
FROM table_A
JOIN table_B ON(table_A.ID_a = table_B.ID_a)

Mam nadzieję, że ci się to przyda.

Odpowiedział 10/06/2020 o 15:51
źródło użytkownik

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more