Performance Monitoring in Spark Structured Streaming cntd. (online)

Event:

Event type:

Meetup

Category:

Topic:

programming , Spark

Date:

24.11.2022 (thursday)

Time:

18:00

Language:

Polish

Price:

Free

City:

Online

Zgłoś zmiany w wydarzeniu

Description:

Ponownie Apache Spark i Spark Structured Streaming (z którymi mam ostatnio przyjemność spędzić całkiem sporo czasu, dzięki uprzejmości moich klientów).

Wrócę do tematu, który wstępnie omówiliśmy podczas ostatniego meetupu (ale fear not udział w poprzednim nie jest konieczny, aby zrozumieć nadchodzący meetup). Przedstawię narzędzia i techniki do monitorowania wydajności Spark Data Streams (streaming queries) w Apache Spark. Przyjrzymy się strumieniom ze stanem (co zwykle stanowi o wyższości jednego rozwiązania do przetwarzania strumieni danych nad innymi).

W roli głównej zobaczymy Structured Streaming UI i "stateful data streams", StateStores (RocksDB) oraz "streaming aggregation" (korzystając z groupBy + withWatermark). Jak starczy czasu (raczej wątpię, ale nadzieja umiera ostatnia), spróbujemy trochę "koderki" (Scala).

Ten meetup to kolejny z serii meetupów online (korzystając z całkowicie bezpłatnego meet.jit.si). Planuję również wrzucić to na YouTube. Jeśli uważasz, że należałoby to zmienić, skontaktuj się z organizatorem.

Czegoś brakuje? Coś niejasne? Masz pytania, sugestie lub chcesz pomóc, skontaktuj się ze mną na [email protected]. Każda pomoc mile widziana!

Proszę o nagłośnienie meetupu wśród Twoich znajomych. Dziękuję i zapraszam!