141. Spotkanie Data Community - Data Engineering
18:00 - 18:15 Powitanie
18:15 - 19:15 Arkadiusz Grzyb - The New Kid on the Data Lakehouse Block
19:15 - 19:45 Networking, luźne rozmowy i poczęstunek
19:45 - 20:45 Tomasz Kostyrka - Od B-Drzew do V-Order. Opowiedziane inaczej niż zwykle
Kilka naszych poprzednich spotkań kręciło się wokół raportowania, wobec tego czas przesiąść się na obszar, który w naszych rozwiązaniach przygotowuje i przechowuje zgromadzone dane. Pamiętajcie o wcześniejszych zapisach!!!
The New Kid on the Data Lakehouse Block
Presentation on Ilum, the latest entrant in the Data Lakehouse platform market, designed as a robust, free alternative to platforms like Databricks and Cloudera.
Why should you attend?
- Understand the limitations of current platforms: we’ll discuss the key challenges with existing data management systems—high costs, rigid deployment options, and complex administrative tasks.
- Introduction to Ilum: learn about Ilum’s core features and how it reduces administrative overhead with automated integrations with Kubernetes.
- Kubernetes and data management: explore how Kubernetes simplifies data operations, providing automatic scaling, failover capabilities, and streamlined cluster management.
- Ilum’s evolution into a Data Lakehouse platform: discover Ilum’s growth from a simple tool to an advanced Data Lakehouse platform, leveraging open-source tools like Jupyter and MLflow for flexible and scalable data operations.
This presentation is perfect for data engineers who need practical and scalable solutions for managing large datasets without the burden of heavy infrastructure.
Od B-Drzew do V-Order. Opowiedziane inaczej niż zwykle
Podczas sesji omówimy podstawowe techniki optymalizacji zapytań, zaczynając od klasycznych indeksów (B-Tree) dla baz relacyjnych, poprzez partycjonowanie, Z-Order oraz Liquid Clustering dla DataLake/Lakehouse, a kończąc na wprowadzonym przez Microsoft mechanizmie V-Order, który przyspiesza działanie zapytań w trybie Direct Lake.
W ciągu tej godziny będziemy często odwoływać się do podstaw matematycznych stojących za tymi mechanizmami, jednocześnie sprawdzając, jak daleko odbiega od rzeczywistości nasza intuicja i to, co czasem uważamy za oczywiste.
Odpowiemy sobie m.in. na pytania:
• czym różnią się porządek częściowy od liniowego i jak ma się to do sortowania wierszy w tabelach,
• skąd wzięły się krzywe Mortona i Hilberta, zanim zostały wykorzystane do optymalizacji mechanizmu "Data Skipping",
• z czego składa się plik Parquet, jak działa Predicate Pushdown i dlaczego Z-Order i V-Order nie wykluczają się wzajemnie.
Logistyka
Wstęp wolny, ale konieczna jest rejestracja, która skończy się w południe dwa dni przed spotkaniem (wymóg MSFT).
Zachęcamy do zgłaszania swoich sesji. Jeśli wiecie coś, czego inni nie wiedzą, lub chcecie zgłębić temat, którego jeszcze nikt na naszej grupie nie przedstawiał: https://sessionize.com/warsaw-data-community-meetups-2024/
Zapraszamy,
Michał i Hubert