Duży Dane - przechowywanie i zapytania

głosy
2

Mamy ogromny dane około 300 milionów płyt, które będą aktualizowane co 3-6 months.We trzeba zapytać tych danych (w sposób ciągły, w czasie rzeczywistym), aby uzyskać pewne information.What są opcje - RDBMS (MySQL), lub jakaś inna opcja jak Hadoop.Which będzie lepiej?

Utwórz 09/12/2008 o 15:30
źródło użytkownik
W innych językach...                            


5 odpowiedzi

głosy
3

300M zapisy jest dobrze w granicach regularnych relacyjnych baz danych i zapytań na żywo nie powinno być problemem, jeśli prawidłowo używać indeksów.

Hadoop brzmi jak przesada, chyba że naprawdę trzeba bardzo rozproszonych i zbędnych danych, a także sprawiają, że trudniej znaleźć wsparcie, jeśli napotkasz problemy lub optymalizacje.

Odpowiedział 09/12/2008 o 15:54
źródło użytkownik

głosy
1

Jak mówili inni, nowoczesne RDBMS może obsługiwać takie tabele, w zależności od zapytań i schematu (niektóre optymalizacje musiałyby być wykonane). Jeśli masz dobry klucz do dzielenia wierszy przez (takie jak kolumny data), a następnie techniki partioniong / fragmentowanie pomoże Ci podzielić tabelę na kilka małych.

Możesz przeczytać więcej o tych i innych technik skalowania w pytaniu prosiłem kiedyś temu tutaj - rozwiązań Skalowanie dla MySQL (replikacja, klastrów)

Odpowiedział 09/12/2008 o 15:45
źródło użytkownik

głosy
1

Cóż, mam kilka baz danych PostgreSQL z kilku tabel z ponad 700 rekordów i są one aktualizowane przez cały czas.

Zapytanie w tych tabelach działa bardzo szybko (kilka milisekund) i bez żadnych problemów. Teraz moje dane jest dość prosty i mam indeksów na polach kwerendy.

Więc powiedziałbym, że będzie wszystko zależy od tego, jakiego rodzaju zapytań możesz tworzyć, a jeśli masz wystarczająco dużo pieniędzy na szybkich dyskach.

Odpowiedział 09/12/2008 o 15:37
źródło użytkownik

głosy
0

300 mln naprawdę nie liczą się jako ogromny te dni :-).

Jeśli są w większości zapytań i wiesz mniej więcej co formularz zapytania weźmie następnie tabel MySQL z odpowiednich indeksów będzie działać dobrze.

Jeśli stale appying aktualizacje w tym samym czasie jak używasz zapytań następnie wybierz PostgreSQL, ponieważ ma lepszą obsługę współbieżności.

MS SQLServer, Sybase, Oracle i DB2 będzie obsługiwać wszystkie te wielkości z łatwością, jeśli Twoja firma woli wydawać pieniądze.

Jeśli natomiast masz zamiar zrobić prawdziwie wolny formacie zapytania dotyczące danych niestrukturalnych następnie Hadoop lub podobny byłby lepszym wyborem.

Odpowiedział 09/12/2008 o 15:48
źródło użytkownik

głosy
0

300 milionów rekordów powinno stwarzać żadnych problemów do górnej półki RDBMS, takich jak Oracle, SQL Server, DB2. Nie jestem pewien, o MySQL, ale jestem pewien, że przyzwyczaja się do niektórych dość dużych baz danych w tych dniach.

Odpowiedział 09/12/2008 o 15:41
źródło użytkownik

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more