ITU-bachelors system til at sortere Corona-relaterede tweets kåret som det bedste
Anders Giovanni Møllers system endte på en delt førsteplads i en international konkurrence, hvor akademikere og it-folk fra hele verden kæmpede om at udvikle den bedste metode til at sortere Corona-relaterede tweets.
Institut for DatalogiUddannelsesprogteknologi
Skrevet 30. september 2020 07:23 af Jari Kickbusch
Der bliver tweetet ufatteligt meget om Corona. Mens nogle tweets er usande og misinformerende, kan andre tweets være værdifulde, fx i forhold til at identificere nye lokale eller regionale smittekæder. For at kunne bruge de informative tweets, skal man imidlertid kunne frasortere de misvisende tweets, og det har vi brug for Natural Language Processing-systemer (NLP) til at gøre. Derfor var opgaven på den internationale workshop Noisy User-generated Text (W-NUT), at de 55 deltagere fra hele verden skulle konkurrere i at udvikle det bedste system til at skille skidt fra kanel.
Kæmpede mod anerkendte forskere
Blandt ansatte og studerende på universiteter og virksomheder fra hele verden deltog holdet med Anders Giovanni Møller, som lige havde fået sin bachelorgrad i Data Science, umiddelbart før workshoppen startede. Anders Giovanni Møller viste et særligt talent for at bruge machine learning og NLP. Med vejledning fra to af sine undervisere, lektor Barbara Plank og postdoc Rob van der Goot, formåede holdet at hive en delt førsteplads i hus for systemet, som Anders Giovanni Møller havde udviklet.
De to undervisere er imponerede over Anders Giovanni Møllers tilgang til konkurrencen:
- Anders lavede et fantastisk stykke arbejde. Han kom ikke bare med løsninger til et spændende udfordring, men formåede at udvikle et state-of-art-system til at løse et meget aktuelt problem. Universiteter og virksomheder fra hele verden deltog med stærke hold med anerkendte forskere, så det er en stor bedrift, at en af vores studerende får en førsteplads, fortæller Rob van der Goot.
- Anders brugte sin fritid under COVID-19-sommeren til at bruge NLP til at bekæmpe pandemien. Det er fantastisk at se sin bachelorstuderende blive så motiveret, og klare sig så godt på internationalt niveau, siger Barbara Plank.
Blod på tanden
I skrivende stund arbejder Anders Giovanni Møller som undervisningsassistent på IT-Universitetet og i virksomheden Flowplan (hvor han også arbejder med machine learning), mens han venter på at komme i gang med tage sin kandidatgrad, og han håber, at han også fremover kommer til at arbejde med fagområdet Natural Language Processing. Foreløbig har han på bagrund af sit flotte resultat været med til at skrive en forskningsartikel om de forskellige metoder til sortere brugergeneret indhold.
- Det har været vildt sjovt at arbejde med de her opgaver. Hidtil har jeg arbejdet mest med videoer og billeder, men nu er det tekst, hvor jeg har fundet ud af, at der er virkelig mange anvendelsesmuligheder. Det er et stort potentiale i de machine learning-teknikker, som vi har valgt at bruge i vores projekt, fortæller han og tilføjer, at det kunne være spændende at undersøge, hvad Natural Language Processing kan bruges til i Danmark: - Der er et kæmpe potentiale, hvis vi ser på det danske sprog. Langt størstedelen af det, der bliver lavet nu, er fokuseret engelsk. Det er jo det sprog, alle taler og forstår. Men der er virkelig mange muligheder, hvis vi ser på dansk, og det kunne jeg sagtens se mig selv arbejde med i fremtiden.
Jari Kickbusch, Forskningskommunikatør, telefon 7218 5304, email jark@itu.dk