Apache Sedona z Apache Spark a przetwarzanie danych przestrzennych
W ostatnich czasach zbieramy coraz więcej danych lokalizacyjnych z przeróżnych sensorów IoT, aplikacji, satelitów, ilość danych powoduje potrzebę przetwarzania ich używając systemów rozproszonych aby móc dokonać tego efektywnie w rozsądnym czasie. Tą potrzebę rozwiązuje Apache Sedona (incubating), biblioteka, która rozszerza Apache Spark o Spatial RDD oraz SpatialSQL, które to pozwalają na efektywne, wczytywanie, procesowanie oraz analizę dużych zbiorów danych przestrzennych na wielu maszynach. Apache Sedona (incubating) posiada API w językach tj. Scala, Java, Python, R, SQL co pozwala na integrację z wieloma popularnymi bibliotekami w świecie Data Science. Apache Sedona (incubating) wspiera wiele funkcji przestrzennych zaimplementowanych w Postgis oraz innych bazach przestrzennych.
Z tego spotkania dowiesz się:
- Czym są dane przestrzenne
- Jakie formaty danych są używane do zapisu danych przestrzennych
- Czym jest relacja przestrzenna oraz złączenie przestrzenne
- Jakie wyzwania stwarza przetwarzanie takich danych
- Czym jest indeks przestrzenny
- Jak poradzić sobie w rozproszonym przetwarzaniu danych przestrzennych (partycjonowanie przestrzenne, złączenie przestrzenne)
Architektura Apache Sedona (incubarting) oraz jej główne komponenty
“Live demo” w oparciu o dane z OSM (Open street map) oraz https://api.um.warszawa.pl/