141. Spotkanie Data Community - Data Engineering

Event:

Event type:

Meetup

Category:

IT

Topic:

database , Business Analysis , Azure , Data Science

Date:

07.11.2024 (thursday)

Time:

18:00

Language:

Polish

Price:

Free

City:

Warsaw

Place:

Microsoft Polska

Address:

al. Jerozolimskie 195a

Speakers:

Tomasz Kostyrka

Arkadiusz Grzyb

Agenda:

18:00 - 18:15 Powitanie

18:15 - 19:15 Arkadiusz Grzyb - The New Kid on the Data Lakehouse Block

19:15 - 19:45 Networking, luźne rozmowy i poczęstunek

19:45 - 20:45 Tomasz Kostyrka - Od B-Drzew do V-Order. Opowiedziane inaczej niż zwykle

Description:

Kilka naszych poprzednich spotkań kręciło się wokół raportowania, wobec tego czas przesiąść się na obszar, który w naszych rozwiązaniach przygotowuje i przechowuje zgromadzone dane. Pamiętajcie o wcześniejszych zapisach!!!

The New Kid on the Data Lakehouse Block

Presentation on Ilum, the latest entrant in the Data Lakehouse platform market, designed as a robust, free alternative to platforms like Databricks and Cloudera.

Why should you attend?

- Understand the limitations of current platforms: we’ll discuss the key challenges with existing data management systems—high costs, rigid deployment options, and complex administrative tasks.

- Introduction to Ilum: learn about Ilum’s core features and how it reduces administrative overhead with automated integrations with Kubernetes.

- Kubernetes and data management: explore how Kubernetes simplifies data operations, providing automatic scaling, failover capabilities, and streamlined cluster management.

- Ilum’s evolution into a Data Lakehouse platform: discover Ilum’s growth from a simple tool to an advanced Data Lakehouse platform, leveraging open-source tools like Jupyter and MLflow for flexible and scalable data operations.

This presentation is perfect for data engineers who need practical and scalable solutions for managing large datasets without the burden of heavy infrastructure.

Od B-Drzew do V-Order. Opowiedziane inaczej niż zwykle

Podczas sesji omówimy podstawowe techniki optymalizacji zapytań, zaczynając od klasycznych indeksów (B-Tree) dla baz relacyjnych, poprzez partycjonowanie, Z-Order oraz Liquid Clustering dla DataLake/Lakehouse, a kończąc na wprowadzonym przez Microsoft mechanizmie V-Order, który przyspiesza działanie zapytań w trybie Direct Lake.

W ciągu tej godziny będziemy często odwoływać się do podstaw matematycznych stojących za tymi mechanizmami, jednocześnie sprawdzając, jak daleko odbiega od rzeczywistości nasza intuicja i to, co czasem uważamy za oczywiste.

Odpowiemy sobie m.in. na pytania:

• czym różnią się porządek częściowy od liniowego i jak ma się to do sortowania wierszy w tabelach,

• skąd wzięły się krzywe Mortona i Hilberta, zanim zostały wykorzystane do optymalizacji mechanizmu "Data Skipping",

• z czego składa się plik Parquet, jak działa Predicate Pushdown i dlaczego Z-Order i V-Order nie wykluczają się wzajemnie.

Logistyka

Wstęp wolny, ale konieczna jest rejestracja, która skończy się w południe dwa dni przed spotkaniem (wymóg MSFT).

Zachęcamy do zgłaszania swoich sesji. Jeśli wiecie coś, czego inni nie wiedzą, lub chcecie zgłębić temat, którego jeszcze nikt na naszej grupie nie przedstawiał: https://sessionize.com/warsaw-data-community-meetups-2024/

Zapraszamy,

Michał i Hubert

Log in

Password recovery

141. Spotkanie Data Community - Data Engineering

Data Community Warsaw

Similar events