Intro to Hadoop + Advanced prediction methods using Apache Spark

Event:

Event type:

Meetup

Category:

Topic:

Big Data

Date:

24.07.2017 (monday)

Time:

18:00

Language:

Polish , English

Price:

Free

City:

Krakow

Description:

This time we are going to have two amazing presentations: the first one will provide a gentle introduction into Hadoop world. The second one will show how a real time prediction system was built on top of Apache Spark.

While those are aimed at slightly different experience levels, the first one will be still a great refresher for Hadoop users and the second will allow to see how this is being used in practice even if you didn't work with Big Data before.

Żółty Słoń? A cóż to za zwierz? Wprowadzenie do ekosystemu Hadoop dla mniej wtajemniczonych.

Abstrakt: Choć o Hadoop jest już głośno od prawie dekady, to wielu z nas nie miało jeszcze żadnej okazji się z nim zapoznać. Jeszcze inni, mogą znać tylko podstawy niezbędne do pracy z HUE, Kibana lub narzędziami BI. A pozostali, choć znają Hadoop-a dobrze, to bardzo rzadko wygłaszają prezentacje o nim na spotkaniach typu Warsaw Hadoop User Group, DataKRK lub Data Science Warsaw.

W ramach “prezentacji wyrównawczej” chciałbym w przystępny sposób opowiedzieć o Hadoop tym osobom, które jeszcze go nie znają lub znają go pobieżnie, a chciałyby go poznać lub nadrobić swoje braki. Skupimy się na kilku najpopularniejszych technologiach czyli HDFS, YARN, Hive oraz trochę na Spark i Flink. Odpowiem też na bardziej zaawansowane pytania z sali i podzielę swoim doświadczeniem w pracy w takich firmach jak Spotify, Truecaller i GetInData.

Zapraszamy wszystkich bez względu na zawód, wiek, płeć :)

Bio: Adam Kawa zajmuje się technologiami Big Data od lat. Pracował w wielu firmach m.in. w Spotify w Szwecji, gdzie jego głównym zadaniem było utrzymanie i ulepszanie największego klastra Hadoop w Europie oraz implementowanie aplikacji ETL na naprawdę dużych danych. Dwa lata temu założył firmę GetInData, która pomaga innym firmom wykorzystywać technologie Big Data w produkcyjnych zastosowaniach. Własnymi rękami wspierał zarówno startupy (np. szwedzki Truecaller) jaki i globalne korporacje z branż takich jak farmaceutyka, media, czy FMCG. Oprócz tego prowadzi szkolenia Big Data, dzieli się swoją wiedzą na blogach oraz przeróżnych konferencjach i meetupach - zarówno w Polsce, jak i zagranicą. Adam od pięciu lat współprowadzi również Warsaw Hadoop User Group.

Advanced prediction methods on hundreds of billions AirFares using Apache Spark framework

Abstract: Developing and deploying a scalable prediction platform is a very challenging task that many big data practitioners are struggling with. The holy grail of data science/prediction infrastructure is to train the prediction models in real time as the data is collected and streamed into the data center, and serving the prediction results in an on-demand fashion via a service.

In this talk the speaker will go through a set of online machine learning tools that if used appropriately can be scaled to work on truly massive datasets with of billions or tens of billions of rows flowing through the system daily. The talk will cover dimentionality reduction, clustering and prediction using both simple tools such as linear regression as well as more advanced tools such as Markov Chains.

At Infare Solutions this framework is developed to be used on a massively multivariate time series, collecting a 1.5billion+ new airfares daily, as support tool for the airline Revenue Management systems.

Bio: Josef is a Lead Data Scientist / Data Paltform Architect at Infare Solutions. He uses Spark+Hadoop for Machine Learning on huge data sets (300+ Bn records). A frequent speaker at conferences (e.g. Spark Summit) and an active Apache Spark evangelist.

See an error in the description or event details?

Log in

Password recovery

Intro to Hadoop + Advanced prediction methods using Apache Spark

DataKRK

Similar events