Photo by Markus Spiske temporausch.com from Pexels |
Enligt Jonas Lundberg, lektor i datavetenskap vid Linnéuniversitetet:
– Algoritmen i programmet undersöker enbart parametrar som är både språk- och landsoberoende i den metadata som följer med varje tweet. Texten, själva meddelandet, används inte. Detta gör algoritmen språkoberoende och möjlig att tillämpa även på mindre språk och på datamängder som använder flera olika språkg.
Resultaten är lovande. Efter att programmet hade tränats på svenska och finska tweetar, kunde det korrekt klassificera 98,2 % av alla tweetar på ett tredje språk, engelska. Men utvecklingsarbetet fortsätter.
– Mycket arbete återstår. Vi behöver träna och testa algoritmen på fler språk innan den kan anses som tillförlitlig, säger Jonas Lundberg.
Inga kommentarer:
Skicka en kommentar