Jestem dość dobre z Pythona, więc pseudo-kod wystarczy, gdy dane są trywialne. Proszę zaczynaj mi zadania - jak idą o indeksowania netto za adresów Snail Mail kościołów w moim stanie. Raz mam jedno wyłożenie takich jak „123 Old West Road # 3 Old Lyme miasta MD 01234”, mogę prawdopodobnie przetworzy go na miasto, województwo, ulica, numer, apt wystarczająco dużo prób i błędów. Mój problem jest - jeśli mogę użyć białych stron w Internecie, to w jaki sposób radzić sobie ze wszystkimi śmieciami HTML, tabel HTML, reklamy, itp? Nie sądzę, że muszę ich numer telefonu, ale nie zaszkodzi - zawsze mogę ją wyrzucić raz analizowany. Nawet jeśli rozwiązanie jest pół-manual (takich jak zapisywanie w formacie PDF, a następnie otwórz akrobata, zapisać jako tekst) - mogę być zadowolony z niego nadal. Dzięki! Heck, będę jeszcze zaakceptować fragmenty Perl - Mogę przetłumaczyć je sama.
Pierwsze listę wszystkich kościołów w pewnym stanie przy użyciu Pythona
Spróbuj lynx --dump <url>pobrać stron internetowych. Wszystkie kłopotliwe znaczniki HTML zostaną usunięte z wyjścia, a wszystkie linki ze strony pojawi się razem.
Można użyć mechanize . Jest to biblioteka Pythona, który symuluje przeglądarkę, więc można przedzierać się przez białych stron (podobnie do tego, co zrobić ręcznie).
W celu radzenia sobie z pytona „html śmieci” posiada bibliotekę, że zbyt: BeautifulSoup Jest to piękny sposób, aby uzyskać dane, które chcesz z HTML (oczywiście zakładamy, że wiem trochę o HTML, jak będzie nadal muszą poruszać się po drzewo składniowy).
Aktualizacja: Jak do obserwacji pytanie, w jaki sposób poprzez kliknięcie kilku stronach. Mechanize jest biblioteką właśnie do tego. Przyjrzeć się bliżej na ich przykładach, esp. Sposób follow_link. Jak powiedziałem, że symuluje przeglądarkę, więc „kliknięcie” może być szybko zrealizowana w pytona.
Co ty próbujesz zrobić nazywa Skrobanie lub web skrobanie.
Jeśli zrobić kilka wyszukiwania na Python i skrobanie , można znaleźć listę narzędzi , które pomogą.
(Nigdy nie używane scrapy, ale to miejsce wygląda obiecująco :)
Piękny Soup jest to nie do pomyślenia. Oto strona może zacząć na http://www.churchangel.com/ . Mają ogromną listę i formatowanie jest bardzo regularny - tłumaczenie: łatwy w konfiguracji BSoup zeskrobać.
skrypty Pythona może nie być najlepszym narzędziem do tego zadania, jeśli jesteś po prostu patrząc na adresy kościołów w obszarze geograficznym.
US Census zapewnia zestaw danych kościołów do użytku z systemami informacji geograficznej. Jeśli znalezienie wszystkich xw strefie przestrzennej jest powtarzającym się problemem, inwestować w naukę GIS. Następnie można przynieść swoje umiejętności Python ponieść na wiele zadań geograficznych.













