GFT piąTech #4: Spark 3 - co nowego?
Apache Spark to potężna i uniwersalna platforma do przetwarzania dużych danych. Na horyzoncie jest już jej najnowsza, trzecia wersja. O nowościach, ulepszeniach i zmianach w Spark 3 porozmawiamy z Kamilem Owczarkiem, szefem praktyki Big Data w GFT Poland!
Optymalizacje
- Nawet 17-krotnie szybszy od Sparka 2.4.5 ‼️
- DataSource V2 i plugowalne Data Source’y
- Adaptive Query Execution
- Dynamic Partition Pruning
- Ulepszona integracja Kubernetesa jako Resource Managera
Nowości
- Spark – Cypher (Nowe API do graph processingu oparte o Datasety i Cypher Query Language)
- Native Binary Format (przetwarzanie obrazów, wideo, dźwięku etc.)
- GPU jako resource, czyli Deep Learning na Sparku (zewnętrzne biblioteki - do jakiego stopnia jest to możliwe i wydajne?)
- Kwestia Continuous Processingu
Na rozmowę zaprasza Marcin Kowalski, Head of Development w GFT Poland.