Seminarium: Systemy Rozproszone
19 stycznia 2017, godzina 12:15, sala 4070
Cezary Siłuszyk

Word2vec: reprezentowanie słów w przestrzeni wektorowej



Do przetwarzania języka naturalnego tradycyjnie słowa reprezentuje się jako niezależne symbole, tj. słowo "kot" może być reprezentowane jako "Id537", a słowo "pies" jako "Id143". Choć taka reprezentacja czyni analizę języka prostszą, to nie uwzględnia związków między słowami (np. że słowa "kot" i "pies" reprezentują zwierzęta domowe). Reprezentowanie słów w przestrzeni wektorowej pomaga obejść te ograniczenia, a w konsekwencji trenować bardziej dokładne modele.

W swojej prezentacji chciałbym przedstawić sposób działania jednych z najpopularniejszych modeli do osadzania słów zaproponowany w 2013 r. przez badaczy z Google'a - word2vec. W dalszej części skupię się na praktycznych zastosowaniach word2vec opisując w jaki sposób portal Spotify używa tego podejścia do rozkładu macierzy Użytkownicy x Utwory (100 mln x 4 mln elementów) w celu rekomendacji utworów.

Zapraszam!
Cezary Siłuszyk



Bibliografia: