Vt ka projektid.
Uurimisprobleemid
1. Leksikonitasandi keelemuutused
Eesmärk: keelde sisenevate uute sõnade ja paradigmat vahetavate sõnade äratundmise ja muuttüübi tuvastamise algoritmide väljatöötamine. Algoritmide väljatöötamine, mis eraldavad suurtes tekstimassiivides mitte-eestikeelsed osad, aga jätavad alles eesti keele mittestandardsed osad (nt ingliskeelsed spammikirjad postiloendites). Automaatsete eesti keele automaattöötluse tarkvara parema toimetuleku tagamine (nende jaoks) tundmatute sõnadega.
Keel ja eriti keele leksikon on pidevas muutumises. Esiteks lisandub keelde pidevalt uusi sõnu, mida hakatakse mingil kindlal moel muutma. Need keelde tulevad uued sõnad tuleks lisada ka sõnastikesse ja leksikonidesse, kus lisaks sõna algvormile peaks olema registreeritud ka tema sõnaliik ja muuttüüp. Teiseks võivad keeles juba olemas olevad sõnad hakata muutuma uuel moel, st nad võivad vahetada muuttüüpi. Näiteks käänab enamik eesti keele kõnelejaid tänapäeval sõna pune sõna kõne eeskujul, st omastav pune ja osastav punet, kuigi ÕS 2006 järgi oleksid õiged vormid omastav puneme ja osastav punet. Püüame selliseid uusi või muuttüüpi vahetavaid sõnu ka automaatselt tuvastada. Kolmandaks võib ühe sõna muutevormide seast mõni vorm grammatiseerumise teel iseseisvuda ja muutuda omaette leksikaalseks üksuseks. Näiteks on verbi vaatama mata-vorm muutunud iseseisvaks kaassõnaks (nt võistlus toimus halvale ilmale vaatamata), mille tähendus pole enam seotud algse verbi tähendusega. Oletame, et selliseid grammatiseerunud või grammatiseerumas olevaid sõnavorme on võimalik tuvastada sagedushälvete abil. Nimelt on grammatilistel vormidel, nt käändsõna käändevormidel oma sagedushierarhia. Kui ühe käändsõna (nt alus) kindel muutevorm (nt ainsuse alalütleva vorm alusel) on selle sõna käändevormide hierarhias kõrgemal kohal kui alalütleva käände vormidele tüüpiliselt omane, siis on põhjust selle vormi funktsiooni ja lausedistributsiooni lähemalt uurida - äkki on tegemist grammatiseerumise teel tekkiva uue sõnaga.
2. Püsiühendid
Eesmärk: uurida püsiühendi rektsiooni ja argumendistruktuuri ning tema tuumaks oleva lihtverbi rektsiooni ja argumendistruktuuri seoseid ja suhteid. Selgitada rektsiooni automaatse tuvastamise võimalusi.
Püsiühendid on kahe või enama sõna(vormi) ühendid, mida on mingi tähenduse väljendamiseks tavaks koos kasutada; keelendid, mida inimese mälus arvatavasti, aga hea keeletehnoloogilise rakenduse leksikonis kindlasti talletatakse tervikuna. Sellised "pooltooted" on lingvistide ja arvutilingvistide huvi objektiks, sest moodustavad olulise osa nii keele mentaalsest leksikonist kui ka jooksvast tekstist. Arvutilingvistika uurimisrühmas on koostatud verbikesksete püsiühendite andmebaas ning katsetatud nende püsiühendite märgendamist tekstis. Tegeldakse püsiühendi tähenduse, rektsiooni ja argumendistruktuuri ning sellesama püsiühendi keskmeks oleva lihtverbi tähenduse, rektsiooni ja argumendistruktuuri seoste ja regulaarsete vastavuste uurimisega.
3. Lause süvasüntaktiline analüüs
Eesmärk: leida eestikeelse lause süvastruktuuri esitamiseks sobiv
formalism ning efektiivsed meetodid nii morfoloogiliseks ühestamiseks kui
ka üleminekuks siiani kasutatud kitsenduste grammatika lamestruktuurilt
puukujulisele struktuurile. Kohandada morfoloogilise ühestamise reeglid
suulise eesti keele korpuse automaatseks märgendamiseks. Mittesoravuste
automaatne tuvastamine, et elimineerida grammatikareeglitele mittealluvad
fraasid süntaktilisest analüüsist.
Vt
eesti keele süntaksi ressursid ja vahendid.
4. Lause semantiline analüüs
Eesmärk: eesti keele lausete ja sidustekstide semantilise esituse
konstrueerimiseks vajalike kontseptuaalsete ja formaalsete vahendite
väljatöötamine.
Vt arvutisemantika.
5. Dialoogi modelleerimine ja inimestevaheline suhtlus
Eesmärk: luua dialoogi formaalne mudel, mis arvestaks nii inimestevahelise
suhtluse üldisi reegleid kui ka eesti keele ja kultuuri omapära.
Vt suulise ja arvutisuhtluse labor.
6. Masintõlge
Eesmärk: rikka morfoloogia ja vaba sõnajärjega keele masintõlke-alaste
erivajaduste selgitamine ning formalismide ja meetodite väljatöötamine
edukaks masintõlkeks sellisest keelest ja sellisesse keelde.
Vt
masintõlge.
Põhja-Euroopa Keeletehnoloogia Assotsiatsioon (Northern European Association
for Language Technology, NEALT)
Põhja-Euroopa keeletehnoloogia ajakiri
Northern European Journal of Language
Technology, NEJLT), vt ka
Linköpingi ülikooli
elektrooniline kirjastus
Põhja-Euroopa Keeletehnoloogia Assotsiatsiooni elektrooniliste
publikatsioonide sarjad TÜ Raamatukogu digitaalses repositooriumis
DSpace
Riiklik programm Eesti
keeletehnoloogia (2011-2017)
Riiklik programm Eesti keele
keeletehnoloogiline tugi (2006-2010)
Eesti keele arengukava (2011-2017)
Eesti keele arendamise
strateegia (2004-2010)
Eesti Arvutiteaduse Tippkeskus
(2008-2015)
Info- ja kommunikatsioonitehnoloogia
doktorikool (2009-2014)
Keeleteaduse, filosoofia ja
semiootika doktorikool (2009-2014)
Artikleid