Performance Monitoring in Spark Structured Streaming (online)
Kolejna próba wznowienia naszych spotkań w 2022. Tym razem bierzemy się za Apache Spark, a dokładniej Spark Structured Streaming, z którym miałem przyjemność ostatnio spędzić kilka długich tygodni (!)
Podczas meetupu przedstawię narzędzia do monitorowania wydajności "data streams" / "streaming queries" w Apache Spark, ze szczególną uwagą na strumienie ze stanem (co zwykle właśnie stanowi o wyższości jednego rozwiązania do przetwarzania strumieni danych nad innymi).
W roli głównej zobaczymy Structured Streaming UI i "stateful data streams", StateStores (RocksDB) oraz "streaming aggregation" (korzystając z groupBy + withWatermark).
Czegoś brakuje? Coś niejasne? Masz pytania, sugestie lub chcesz pomóc, skontaktuj się ze mną na [email protected]. Każda pomoc mile widziana!
Proszę o nagłośnienie meetupu wśród Twoich znajomych. Dziękuję i zapraszam!