EKI kogus kokku 2,4 miljardi sõna mahus eestikeelseid tekste

Eesti Keele Instituut koondas spetsiaalse keeletarkvara abil kokku rohkem kui 2,4 miljardi sõna mahus eestikeelseid tekste, mis võimaldab täpselt uurida keele arengut ning kajastada veebisõnastikes muutusi peaaegu reaalajas.

Eesti Keele Instituudi (EKI) vanemarvutileksikograafi Kristina Koppeli sõnul kaardistab ja talletab EKI iga kahe aasta järel kõik avalikud elektroonilised eestikeelsed tekstid, mida pidevalt arenev tehnoloogia võimaldab leida. “Kümme aastat tagasi alustades suutsime selliseks tekstide digitaalseks kogumiks ehk keelekorpuseks kokku korjata alla poole miljardi sõna mahus tekste, aga nüüd juba üle 2,4 miljardi,” ütles Koppel.

Leksikograafi sõnul peab EKI pidevalt läbirääkimisi, et kaasata keelekorpusse aina rohkem rikka keelekasutusega ja hoolikalt koostatud tekste. “Võrreldes eelmise keelekorpuse uuendamisega tuli praegune maht ligi 50 protsenti suurem. Kõige rohkem – neli korda – kasvas ilukirjanduse maht, teadustekstide hulk suurenes poole võrra,” tõi Koppel välja.

“Võimalikult erinevate eestikeelsete tekstide regulaarne kokkukogumine on oluline, sest neis kajastub elav eesti keel, mis on aluseks nii keeleteadusele, sõnastikele kui keeleõppele. Nii on võimalik anda täpsemat infot EKI Sõnaveebis ja EKI teatmikus ning luua paremaid eesti keele õppimise materjale,” ütles EKI juhtivleksikograaf Margit Langemets.

“Kuigi veebirobotid koondavad aina suuremaid tekstimassiive, mis on aluseks sõnastike koostamisele, ei tähenda see, et sõnastikesse jõuaks automaatselt kõik, mis veebi kirjutatakse. Alati on keeleteadlane see, kes andmeid uurib ja mõtestab,” selgitas Langemets.

VES/ERR