Statystyki pandy DataFrame w rzędzie id

głosy
0

Pracuję na badania i stworzyłem DataFrame z kolumnami ID, db_keywords, new_words, count_new_words. W kolumnie new_words mam słów, które nie znajdują się w db_keywords kolumn aw count_new_words liczyć z nowymi słowami. Kiedyś describe()z count_new_words kolumn, aby mieć podstawowe statystyki. Ja jak użycie pewnego sposobu w celu uzyskania danych statystycznych w rzędzie (ID). Potrzebuję wartość lub kilka metryk na przykład, jak wiele nowych słów na identyfikatorze nie są obecne w naszej bazie danych Więc w tym przypadku db_keywords. Może to być dowolny sposób, ponieważ nie wiem jak podejść do tego problemu. I stworzył podobną dataframe testową tylko wyobrażać mój problem.

Przykład:

data = [[1, 'detergent', 'detergent, cleaning, stains', ' cleaning, stains',2], [2, 'battery, low', 'fast, full, speed', 'fast, full, speed',3], [3, 'sunglasses, black', 'sunglasses, metal, black, optics', ' metal, optics', 2], [4, 'chemicals', 'chemicals, flammable, hexahydrate', 'flammable, hexahydrate', 2]] 

df = pd.DataFrame(data, columns = ['id', 'db_keywords','ml_keywords','new_words','count_new_words']) 

df 

Wold chciałbym wiedzieć na przykład, co jest dodawane do vale id 1 z tylko jednym słowem w kolumnie db_keywords i znaleźliśmy dwa nowe słowa prezentowane w kolumnie new_words. W jaki sposób należy obliczyć i przedstawić to?

Utwórz 13/02/2020 o 21:54
źródło użytkownik
W innych językach...                            

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more