Data Quality in Databricks Workflows (jobs) with Pydantic

- 10 minut Ogłoszenia. Czas na szalone pomysły na przyszłe meetupy
- 55 minut Live coding session, a w nim: Przypomnimy sobie osiągnięcie poprzednich meetupów: Databricks Asset Bundle (DAB) z Databricks job z pojedynczym notebookiem z libką w Pythonie z Pydantic. Korzystamy z uv do zarządzania libką w Pythonie.
- Główny cel meetupu: Stworzymy UDFa do walidacji rekordów, którego "uzbroimy" w pydantic'a. To miał być główny cel poprzedniego meetupu, ale nie wyszło i będzie ponownie
4 days before a meetup! Idzie nowe
Kontynuujemy poprzednie dwa meetupy, na których udało nam się poznać bliżej uv i pydantic, a nawet pożenić to wszystko z Databricks Workflows (jobs) za pomocą Databricks Asset Bundles (DAB). Skupiliśmy się na detalach i uciekło nam sporo czasu na rzeczy ważne = połączenie wszystkiego w jedną (projektową) całość.
I to będzie naszym celem na nadchodzący meetup. Podsumujemy najważniejsze elementy (narzędzia) i ich rolę w projekcie.
- 10 minut Q&A i zbieranie pomysłów na kolejne edycje
Wiedza o Databricks, Databricks Workflows, Databricks Asset Bundles, PySpark UDFs, Pythonie, pydantic, uv nie jest konieczna. Wręcz oczekiwany jest jej całkowity brak, bo wtedy można zmaks(ymaliz)ować zyski.
Prelegent chętnie odpowie na każde pytanie (w miarę swoich możliwości). Publika też nie zawodzi, więc ktoś z odpowiedzią się znajdzie.
Zaczynamy punktualnie o 18:00.
(Daj znać przy rejestracji na meetup, czy tematyka jest OK i co tam dalej rozważyć w ramach rozpoznawania Databricks i Data Engineering w ogólności).
Do zobaczenia!
Czegoś brakuje? Coś niejasne? Masz pytania, sugestie lub chcesz pomóc, skontaktuj się ze mną na [email protected]. Każda pomoc mile widziana!