Data Science Warsaw #44
Kolejne spotkanie Data Science Warsaw odbędzie się we wtorek 12tego marca, o godzinie 18tej, na Wydziale MiNI PW (sala 107). W programie:
1. Kategoryzacja tekstów - Rafał Prońko
Kategoryzacja tekstów ma wiele zastosowań: kategoryzacja ogłoszeń na portalach, kategoryzacja wiadomości, wykrywanie spamu, wykrywanie mowy nienawiści, standaryzacja nazw stanowisk pracy,... W moim wystąpieniu poruszę kwestie kategoryzacji tekstu na przykładzie standaryzacji nazw stanowisk pracy, powiem czemu w ogóle stanowiska, po co standaryzować, jakie podejścia wykorzystałem i do czego taka standaryzacja może być przydatna.
Rafał Prońko - Data Scientist od ponad 5 lat głównie związany z NLP: kategoryzacja ogłoszeń, strukturyzacja tekstu, normalizacja tekstu, lokalizacja, przewidywanie długości pozostania w jednej pracy. Procowałem także nad przetwarzaniem obrazów: rozpoznawaniem twarzy, wykrywaniem spoofingu, wykrywanie zabrudzeń, rozpoznawanie produktów na półkach. Jako Data Scientist pracowałem tez przy projekcie blockchain: tworzenie cryptoeconomy i symulacja zachowań użytkowników.
2. Automatyczne przetwarzanie języka polskiego - z perspektywy organizatorów konkursu PolEval. Łukasz Kobyliński
Ostatnie lata przyniosły szybki rozwój obszaru przetwarzania języka naturalnego (NLP). Stało się tak, między innymi, dzięki postępowi technologicznemu, ilości dostępnych danych i nowym metodom uczenia maszynowego. Wydaje się, że choć w obszarze automatycznego przetwarzania języka polskiego postęp również nastąpił, to nie był on tak szybki, jak w przypadku języka angielskiego. W trakcie tego wystąpienia chciałbym omówić czynniki, które mogły wpłynąć na ten stan rzeczy.
Mając na uwadze te wyzwania, rozpoczęliśmy w 2017 roku organizację konkursu PolEval (http://poleval.pl/). Jest to konkurs skierowany do indywidualnych badaczy oraz zespołów, którego celem jest:
- wypracowanie ustalonych procedur ewaluacji systemów rozwiązujących poszczególne zadania w NLP,
- wytworzenie anotowanych zbiorów danych, które mogą zostać wykorzystane do uczenia i ewaluacji systemów,
- obiektywne porównanie systemów realizujących odpowiednie zadania w zakresie przetwarzania języka naturalnego,
- zbliżenie do siebie badaczy ze środowisk naukowych i biznesowych oraz wymianę wiedzy między nimi,
- popularyzację zagadnień NLP w kontekście języka polskiego.
W trakcie wystąpienia chciałbym też podsumować rezultaty ostatnich dwóch edycji tego konkursu oraz opowiedzieć o perspektywach i możliwościach uczestnictwa w tegorocznej edycji PolEvalu.
Łukasz Kobyliński - Chief Science Officer w Sages, Data Scientist w SigDelta oraz adiunkt w Instytucie Podstaw Informatyki PAN, gdzie prowadzi projekty w Zespole Inżynierii Lingwistycznej. Członek Rady Programowej studiów podyplomowych Big Data realizowanych przez firmę Sages oraz Politechnikę Warszawską oraz opiekun merytoryczny bootcampów Kodołamacz.pl. Od wielu lat zajmuje się analizą danych i uczeniem maszynowym, początkowo w odniesieniu do obrazów, a obecnie w zastosowaniu do przetwarzania języka naturalnego. Szczególnie zainteresowany lingwistyką korpusową, analizą tekstu na poziomie morfoskładniowym i semantycznym, a także efektywnym przetwarzaniem dużych zbiorów danych.
Zachęcamy też do subskrypcji newslettera (https://tinyletter.com/datascience), w którym informujemy o ciekawych wydarzeniach dotyczących Data Science w Warszawie i Polsce.