Pierwsze listę wszystkich kościołów w pewnym stanie przy użyciu Pythona

głosy
-3

Jestem dość dobre z Pythona, więc pseudo-kod wystarczy, gdy dane są trywialne. Proszę zaczynaj mi zadania - jak idą o indeksowania netto za adresów Snail Mail kościołów w moim stanie. Raz mam jedno wyłożenie takich jak „123 Old West Road # 3 Old Lyme miasta MD 01234”, mogę prawdopodobnie przetworzy go na miasto, województwo, ulica, numer, apt wystarczająco dużo prób i błędów. Mój problem jest - jeśli mogę użyć białych stron w Internecie, to w jaki sposób radzić sobie ze wszystkimi śmieciami HTML, tabel HTML, reklamy, itp? Nie sądzę, że muszę ich numer telefonu, ale nie zaszkodzi - zawsze mogę ją wyrzucić raz analizowany. Nawet jeśli rozwiązanie jest pół-manual (takich jak zapisywanie w formacie PDF, a następnie otwórz akrobata, zapisać jako tekst) - mogę być zadowolony z niego nadal. Dzięki! Heck, będę jeszcze zaakceptować fragmenty Perl - Mogę przetłumaczyć je sama.

Utwórz 14/12/2009 o 23:29
źródło użytkownik
W innych językach...                            


5 odpowiedzi

głosy
2

Spróbuj lynx --dump <url>pobrać stron internetowych. Wszystkie kłopotliwe znaczniki HTML zostaną usunięte z wyjścia, a wszystkie linki ze strony pojawi się razem.

Odpowiedział 14/12/2009 o 23:36
źródło użytkownik

głosy
2

Można użyć mechanize . Jest to biblioteka Pythona, który symuluje przeglądarkę, więc można przedzierać się przez białych stron (podobnie do tego, co zrobić ręcznie).

W celu radzenia sobie z pytona „html śmieci” posiada bibliotekę, że zbyt: BeautifulSoup Jest to piękny sposób, aby uzyskać dane, które chcesz z HTML (oczywiście zakładamy, że wiem trochę o HTML, jak będzie nadal muszą poruszać się po drzewo składniowy).

Aktualizacja: Jak do obserwacji pytanie, w jaki sposób poprzez kliknięcie kilku stronach. Mechanize jest biblioteką właśnie do tego. Przyjrzeć się bliżej na ich przykładach, esp. Sposób follow_link. Jak powiedziałem, że symuluje przeglądarkę, więc „kliknięcie” może być szybko zrealizowana w pytona.

Odpowiedział 14/12/2009 o 23:42
źródło użytkownik

głosy
2

Co ty próbujesz zrobić nazywa Skrobanie lub web skrobanie.

Jeśli zrobić kilka wyszukiwania na Python i skrobanie , można znaleźć listę narzędzi , które pomogą.

(Nigdy nie używane scrapy, ale to miejsce wygląda obiecująco :)

Odpowiedział 14/12/2009 o 23:46
źródło użytkownik

głosy
2

Piękny Soup jest to nie do pomyślenia. Oto strona może zacząć na http://www.churchangel.com/ . Mają ogromną listę i formatowanie jest bardzo regularny - tłumaczenie: łatwy w konfiguracji BSoup zeskrobać.

Odpowiedział 15/12/2009 o 00:17
źródło użytkownik

głosy
1

skrypty Pythona może nie być najlepszym narzędziem do tego zadania, jeśli jesteś po prostu patrząc na adresy kościołów w obszarze geograficznym.

US Census zapewnia zestaw danych kościołów do użytku z systemami informacji geograficznej. Jeśli znalezienie wszystkich xw strefie przestrzennej jest powtarzającym się problemem, inwestować w naukę GIS. Następnie można przynieść swoje umiejętności Python ponieść na wiele zadań geograficznych.

Odpowiedział 15/12/2009 o 00:34
źródło użytkownik

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more