Tänu Tartu Ülikooli teadlaste pingutustele kasutati masintõlkesüsteemide rahvusvahelisel võistlusel esimest korda eesti keelt. Kõige paremini tõlkisid eesti ja inglise keelt omavahel Baltikumis ja Skandinaavias tegutsev keeletehnoloogia ettevõte Tilde ning jaapanlaste loodud tõlkemootorid.
Rahvusvahelist masintõlkekonverentsi WMT, mille osana tõlkemootorite võistlus toimub, korraldatakse alates 2006. aastast. Möödunud nädalal pandi Brüsselis võistlusel peale eesti keele inglise keelega paari veel saksa, hiina, türgi, tsehhi, vene ja soome keel.
TÜ arvutiteaduse instituudi keeletehnoloogia õppetooli juhataja Mark Fišeli hinnangul on eesti keel masintõlke jaoks keerukas.
“Eesti keele teeb masintõlke ja automaatse keeletöötluse jaoks raskeks rikas morfoloogia ehk suur arv käändeid ja pöördeid. Samuti on tõlkemootorite jaoks raske eesti keeles vabalt varieeruv sõnade järjekord. Probleem on ka see, et eestikeelsete tõlkenäidete arv on teistest keeltest väiksem. Võistlusel kasutatud väljundikeeltest ongi kõige keerulisemad eesti, soome ja türgi keel,” rääkis Fišel.
Konverentsil ja võistlusel osalejad said jaanuaris iga keelepaari kohta mitu miljonit tõlkenäidet. Nad kasutasid näiteid, et masinõppe abil oma tõlkesüsteeme õpetada.
Mai alguses anti kõigile osalejatele iga keelepaari kohta tõlkimiseks kaks teksti. Nii said nad eesti-inglise-eesti tõlkemootori testimiseks ühe ingliskeelse teksti, mille nad pidid tõlkima eesti keelde, ja ühe eestikeelse teksti, mis tuli tõlkida inglise keelde. Võistlejatel tuli panna need tekstid automaatse tõlkesüsteemi abil teise keelde ümber ühe nädala jooksul.
Seejärel võrdlesid teadlased ja tudengid Tartu Ülikooli korraldatud talgutel automaattõlget inimtõlkega.
Nii eesti-inglise kui ka inglise-eesti suunal hinnati kõige usaldusväärsemaks Balti ja Skandinaavia riikides tegutsev keeletehnoloogia ettevõtte Tilde http://www.masintolge.ee/et.
Tilde Eesti keeletehnoloog Martin Luts ütles, et seni on eesti keel olnud masintõlke jaoks kõva pähkel, kuna see on keeruline ja treeningmaterjali masinõppeks on võrreldes nn “suurte” keeltega vähe.
Mõlemal tõlkesuunal tuli teisele kohale Jaapanis loodud süsteem NICT.
“Õnneks on kõik süsteemid kirjeldatud avalikult jagatud teadusartiklites ning nende abil parandame ka Tartu Ülikoolis loodud tõlkemootorit Neurotõlge http://neurotolge.ee/, ütles Mark Fišel.
Soovijatel on võimalus kõiki masintõlkesüsteeme ka ise järele proovida.
VES/ERR