Performance Monitoring in Spark Structured Streaming cntd. (online)
Ponownie Apache Spark i Spark Structured Streaming (z którymi mam ostatnio przyjemność spędzić całkiem sporo czasu, dzięki uprzejmości moich klientów).
Wrócę do tematu, który wstępnie omówiliśmy podczas ostatniego meetupu (ale fear not udział w poprzednim nie jest konieczny, aby zrozumieć nadchodzący meetup). Przedstawię narzędzia i techniki do monitorowania wydajności Spark Data Streams (streaming queries) w Apache Spark. Przyjrzymy się strumieniom ze stanem (co zwykle stanowi o wyższości jednego rozwiązania do przetwarzania strumieni danych nad innymi).
W roli głównej zobaczymy Structured Streaming UI i "stateful data streams", StateStores (RocksDB) oraz "streaming aggregation" (korzystając z groupBy + withWatermark). Jak starczy czasu (raczej wątpię, ale nadzieja umiera ostatnia), spróbujemy trochę "koderki" (Scala).
Ten meetup to kolejny z serii meetupów online (korzystając z całkowicie bezpłatnego meet.jit.si). Planuję również wrzucić to na YouTube. Jeśli uważasz, że należałoby to zmienić, skontaktuj się z organizatorem.
Czegoś brakuje? Coś niejasne? Masz pytania, sugestie lub chcesz pomóc, skontaktuj się ze mną na [email protected]. Każda pomoc mile widziana!
Proszę o nagłośnienie meetupu wśród Twoich znajomych. Dziękuję i zapraszam!
Więcej informacji: https://www.meetup.com/warsaw-data-engineering/events/289886804/