Aallon tutkijat voittivat kansainvälisen puheentunnistuksen kilpailun

11.09.2017

Tehtävänä oli rakentaa puheentunnistin YouTubesta kerätylle egyptin kielelle.

Professori Mikko Kurimon johtama puheentunnistuksen tutkimusryhmä on voittanut kansainvälisen Multi-Genre Broadcast (MGB) Challenge -kilpailun, jossa tehtävänä oli rakentaa puheentunnistin YouTubesta kerätylle egyptinkielelle.

”Egyptin puhekielinen sanasto poikkeaa merkittävästi standardiarabiasta eikä suuria egyptiläisiä puheaineistoja ole saatavilla. Tutkimusryhmällä ei ollut aiempaa kokemusta arabiansukuisten kielen puheentunnistuksesta eikä yhtään arabiankielen taitajaa, mutta tästä huolimatta Aallon tunnistin oppi tunnistamaan sekä arabian- että egyptinkielistä puhetta tekstiksi selvästi tarkemmin kuin kukaan muu kilpailija”, kertoo professori Mikko Kurimo.

Aallon tunnistin hyödyntää uusimpia menetelmiä puheen ja kielen mallintamiseen syvien neuroverkkojen avulla. Erityisesti Aallon tutkimusryhmässä pitkään kehitellyt työkalut kielen mallintamiseen sanan osien avulla vaikuttivat merkittävästi tunnistimen suorituskykyyn. Nämä työkalut mallintavat tehokkaasti morfologisesti rikkaissa kielissä kuten suomessa ja virossa esiintyvät lukuisat eri sanamuodot ja niiden esiintymisen puheessa.

Video esittelee puheentunnistuksen ryhmän tutkimusta.

”Aalto voitti luultavasti siksi, että vain Aallon järjestelmä osasi tehokkaasti käyttää kielimalleissaan sanoja lyhyempiä yksiköitä eikä järjestelmä rajoittunut ennalta valittuun sanastoon.”

Aallon jälkeen seuraaville sijoille sijoittuvat tutkimusryhmät Tsinghua-yliopistosta Kiinasta ja Johns Hopkins- ja MIT-yliopistoista Yhdysvalloista. Aallossa kehitetty tunnistin on kuvattu artikkelissa, joka esitetään 2017 IEEE Automatic Speech Recognition and Understanding workshopissa joulukuussa Japanin Okinawassa. Artikkelin käsikirjoitus on jo nähtävillä allaolevasta linkistä.

 

Lisätietoa:

Tohtorikoulutettava Peter Smit
peter.smit@aalto.fi

Professori Mikko Kurimo
mikko.kurimo@aalto.fi