Jak połączyć kolejnych wierszy, w których kolumny są NaN

głosy
2

Mam tego rodzaju danych, które doprowadza mnie do szału. Źródłem jest plik PDF, który czytałem z tabula wyodrębnić tabele. Problem polega na tym, że niektóre wiersze tabeli są wielowierszowego w dokumencie i to jak widzę wyjścia.

> sub_df.iloc[85:95]
1   Acronym   Meaning
86   ABC    Aaaaa Bbbbb Ccccc
87   CDE    Ccccc Ddddd Eeeee
88   NaN    Fffff Ggggg 
89   FGH    NaN
90   NaN    Hhhhh
91   IJK    Iiiii Jjjjj Kkkkk
92   LMN    Lllll Mmmmm Nnnnn
93   OPQ    Ooooo Ppppp Qqqqq
94   RST    Rrrrr Sssss Ttttt
95   UVZ    Uuuuu Vvvvv Zzzzz

Co chciałbym dostać coś takiego.

> sub_df.iloc[85:95]
1   Acronym   Meaning
86   ABC    Aaaaa Bbbbb Ccccc
87   CDE    Ccccc Ddddd Eeeee
88   FGH    Fffff Ggggg Hhhhh   
91   IJK    Iiiii Jjjjj Kkkkk
92   LMN    Lllll Mmmmm Nnnnn
93   OPQ    Ooooo Ppppp Qqqqq
94   RST    Rrrrr Sssss Ttttt
95   UVZ    Uuuuu Vvvvv Zzzzz

Walczę z combine_first tak:

sub_df.iloc[[88]].combine_first(sub_df.iloc[[87]])

ale wynik nie jest to, czego oczekuję.

Ponadto rozwiązanie z GroupBy będzie docenione.

Uwaga: indeks nie jest ważna i może zostać zresetowany. Po prostu chcę dołączyć kilka kolejnych wierszy, w których kolumny są NaN a następnie zrzucić go do csv, więc nie są potrzebne.

Utwórz 19/12/2018 o 14:14
źródło użytkownik
W innych językach...                            


3 odpowiedzi

głosy
2

Spróbujmy tego:

df = df.assign(Meaning = df['Meaning'].ffill())
mask = ~((df.Meaning.duplicated(keep='last')) & df.Acronym.isnull())

df = df[mask]

df = df.assign(Acronym = df['Acronym'].ffill())

df_out = df.groupby('Acronym').apply(lambda x: ' '.join(x['Meaning'].str.split('\s').sum())).reset_index()

Wydajność:

 Acronym         0
0   ABC Aaaaa Bbbbb Ccccc
1   CDE Ccccc Ddddd Eeeee
2   FGH Fffff Ggggg Hhhhh
3   IJK Iiiii Jjjjj Kkkkk
4   LMN Lllll Mmmmm Nnnnn
5   OPQ Ooooo Ppppp Qqqqq
6   RST Rrrrr Sssss Ttttt
7   UVZ Uuuuu Vvvvv Zzzzz
Odpowiedział 19/12/2018 o 14:29
źródło użytkownik

głosy
2

Jest to dość trudne pytanie nie ffilli bfillbędą pracować na to pytanie

s1=(~(df.Acronym.isnull()|df.Meaning.isnull())) # create the group
s=s1.astype(int).diff().ne(0).cumsum() # create the group for each bad line it will assign the single id 
bad=df[~s1]# we just only change the bad one 
good=df[s1]# keep the good one no change 


bad=bad.groupby(s.loc[bad.index]).agg({'1':'first','Acronym':'first','Meaning':lambda x : ''.join(x[x.notnull()])})


pd.concat([good,bad]).sort_index()
Out[107]: 
  1 Acronym      Meaning
0 86   ABC Aaaaa Bbbbb Ccccc
1 87   CDE Ccccc Ddddd Eeeee
2 88   FGH Fffff Ggggg Hhhhh
5 91   IJK Iiiii Jjjjj Kkkkk
6 92   LMN Lllll Mmmmm Nnnnn
7 93   OPQ Ooooo Ppppp Qqqqq
8 94   RST Rrrrr Sssss Ttttt
9 95   UVZ Uuuuu Vvvvv Zzzzz
Odpowiedział 19/12/2018 o 15:04
źródło użytkownik

głosy
2

Oto podejście używając numpy.wherezrobić warunkową syta:

df['Acronym'] = np.where(df[['Acronym']].assign(Meaning=df.Meaning.shift()).isna().all(1),
             df.Acronym.ffill(),
             df.Acronym.bfill())

clean_meaning = df.dropna().groupby('Acronym')['Meaning'].apply(lambda x : ' '.join(x)).to_frame()

df_new = (df[['1', 'Acronym']]
     .drop_duplicates(subset=['Acronym'])
     .merge(clean_meaning,
         left_on='Acronym',
         right_index=True))

[out]

  1 Acronym      Meaning
0 86   ABC Aaaaa Bbbbb Ccccc
1 87   CDE Ccccc Ddddd Eeeee
2 88   FGH Fffff Ggggg Hhhhh
5 91   IJK Iiiii Jjjjj Kkkkk
6 92   LMN Lllll Mmmmm Nnnnn
7 93   OPQ Ooooo Ppppp Qqqqq
8 94   RST Rrrrr Sssss Ttttt
9 95   UVZ Uuuuu Vvvvv Zzzzz
Odpowiedział 19/12/2018 o 15:18
źródło użytkownik

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more