Sünteesist analüüsini
Vestlus Meelis Mihklaga
Foto: Jake Farra / Eesti Keele Instituut
Eesti Keele Instituudi vanemteadur ja kõnesünteesi korüfee Meelis Mihkla tähistas 6. juulil oma 70 aasta juubelit. Sel puhul said töökaaslased võimaluse mõned küsimused küsida.
Kolleegid on tähele pannud su huvi numbrite vastu: tead alati, kui vanaks keegi saab ja kas vanus on algarv või muul moel tähelepanuväärne number. Mida sinu jaoks tähendab arv 70?
Astroloogiline numbrimaagia mind ei huvita, pigem aritmeetilised seosed ja suhted arvude vahel. 70 ei ole algarv, seega millegi algust ta otseselt ei tähista. Arv 70 seostub eelkõige seitsmekümne protsendiga sajast ehk väärikast inimeast ning kahe kolmandikuga 105-st ehk erakordsest inimeast. See on meeldetuletus, et elu kolmas kolmandik on juba käes. Kasutades võrdlusena jäähoki terminoloogiat, on viimase kolmandiku avavile juba kõlanud ning mäng käib. Väljakul särada ja väravaid visata on nüüd keerulisem, pigem peab keskenduma tiimi väravatele ja mängu ilu nautimisele. Minu jäähokikogemused piirdusid litri libistamisega Nõmme koolide liuväljakutel, täisvarustuses jäähokit pole ma kunagi mänginud, olen vaid teleri vahendusel päris jäähokit nautinud. Aga 60-ndate lõpus, kliima soojenemise eelsel ajal, pani kiiruisutamise taustaga üldfüüsilise treener Juhan Anupõld meid, tennisepoisse talvel uiskudel tenniseväljakutele rajatud liuväljale hokikeppidega tennisepalli taga ajama, nn jääpalli mängima, mis pakkus siis suurt lõbu.
Kuidas sa sattusid Keele ja Kirjanduse Instituudi (KKI) arvutuslingvistika sektorisse? Kui sa täna saaksid valida tolleaegse töökeskkonna ja praeguse vahel, siis kumma valiksid?
Olin Tallinna Polütehnilise Instituudi automatiseeritud juhtimissüsteemide eriala viimasel kursusel, kui rühmakaaslaste kaudu tuli info, et Keele ja Kirjanduse Instituut otsib uue saabuva arvuti EC1010 hooldamiseks insenere. Kahte tuba hõlmava miniarvuti saabumine oli tol ajal väga tähtis sündmus, liiati oli see esimene elektronarvuti Eesti humanitaarteaduses. Arvuti oli toodetud Ungaris ja ungarlastest spetsialistid kirjutasid kasutamisnõuetesse sisse, et arvuti vajab iga kuu kümme liitrit toidupiiritust, muidu nad ei garanteeri tõrgeteta tööd. Arvuti hoolduskursused ma läbisin, aga praktikas minust hooldusinseneri ei saanud, teised oskasid seda ala paremini. Mind huvitas enam programmeerimine ja signaalitöötlus. Juba minu diplomitöö oli foneetiliste kõneandmete töötlusest ja salvestamisest. Peale tehnikaülikooli lõpetamist võttis Mart Remmel mind arvutuslingvistika sektorisse vaneminsenerina tööle. Seal oli tollal aktiivne noorte inimeste seltskond, tööd tehti hoole ja entusiasmiga, Remmel oli tõeline liider ja karismaatiline juht. Väljaspool tööaega mängiti tihti malet ja ka pidutseti sageli, mõnikord ungarlaste väljaräägitud piiritusest lahjendatud jooke proovides.
Praeguseid ja tolleaegseid olusid on päris keeruline võrrelda. Praegu on kõigil personaalne arvuti töölaual, tihti möödub 100% tööpäevast ekraani ees. Ligi pool sajandit tagasi pidi endale arvutiaega eraldi tellima, et saaks mõned tunnid tööülesandeid lahendada, iga päev sellist võimalust ei olnud. Programmikoodi pidi esmalt paberile kirjutama ja pärast selle paberlindile perforeerima. Lahendust nõudev ülesanne vajas korralikku selgeks tegemist ja läbimõtlemist. Programmikoodis suuri vigu teha ei tohtinud, muidu võis tellitud arvutiaeg tühja joosta. Praegu käib pigem koodiga katsetamine ja jooksev toimetamine, et leida optimaalne lahendus. Paratamatult oli tol ajal ülesannetesse ja probleemidesse süvenemist rohkem ja pealiskaudsust vähem. Arvutustehnilised ressursid ja võimalused on eelneva ajaga võrreldamatud, aga suur osa praeguste arvutite ressursist läheb suhtluse, meelelahutuse ja infootsingu peale. Ülesannete lahendamise ja nende keerukuse osas erinevus nii suur ei olegi. Igal ajastul on oma head ja vead, midagi eelistada on päris raske.
Pärast automatiseeritud juhtimissüsteemide eriala lõpetamist ja KKI vaneminsenerina tööle sattumist kaitsesid sa doktoritöö hoopis Tartu ülikooli filosoofiateaduskonnas ja sinu praegused uurimisvaldkonnad on seotud eelkõige keeleteaduse ja kõneuurimisega. Kuidas sa selleni jõudsid?
Mulle avaldas suurt muljet Peter Ladefogedi plenaarettekanne 1987. aastal Tallinnas rahvusvahelisel foneetikateaduste kongressil, kus ta selgitas, et foneetika on sildu loov distsipliin, mis ühendab füüsikat, matemaatikat, anatoomiat, neuroteadust, sotsioloogiat ja keeleteadust. Kõneuurimisega on tihedalt seotud mitmesuguste erialade spetsialistid. Sama lugu on interdistsiplinaarse keeletehnoloogiaga, mille üheks haruks on kõnesüntees. Minu insenerihariduse diplom sobis hästi sellesse mitmekesiste erialade diapasooni laiemasse pilti. KKI arvutuslingvistika sektori tuumikus olid siis juba nimekad keeleteadlased: Mart Remmel, Arvo Eek, Ülle Viks jt. Seega uurimisrühma põhitähelepanu oli foneetika ja kõnesünteesi keeleteaduslikel aspektidel. Paratamatult nihutas see ka minu esimesi katsetusi ja eksperimente ning uurimistöö fookust tehnikateaduselt ja informaatikalt keeleteaduse poole. Seetõttu kaitsesin hiljem nii magistri- kui ka doktorikraadi Tartu ülikoolis üldkeeleteaduse erialal. Aga mina ei ole üldsegi mitte ainuke nüüdsest Tallinna Tehnikaülikoolist keeleteadusesse migreerunu. Ka minu hea koostööpartner ja sage kaasautor Einar Meister ning praegune kolleeg Arvi Tavast on selles osas sarnase CV-ga, aga kindlasti on neid veel.
Sa armastad siiski aeg-ajalt öelda, et sa pole filoloog. Kas see tähendab, et teekonnal tehnoloogia juurest keele juurde oled ennast instituudis mingil määral valge varesena tundnud? Ja kas võib öelda, et praeguseks oled sa jõudnud nende valdkondade sümbioosini ehk keele analüüsimiseni sünteesi teel? Kas sa räägiksid lühidalt sellest meetodist?
Võib vist tõesti öelda, et minu tehnoloogiline taust on mind härgamisi keele juurde toonud. Instituuti tulles oli mul suur aukartus filoloogide ees. Kogu kooliaja jooksul ma end eesti keele õigekirjas väga tugevalt ei tundnud, kirjandite õigekirja hinne kippus „kolm” või „neli” olema. Instituuti tööle tulles tundusid filoloogid inimestena teiselt planeedilt, aga õnneks märkasin küllaltki varsti, et mitte kõik neist ei vallanud eesti keele ortograafiat ja ortoeepiat ideaalselt. Päris valge varesena ma õnneks ennast tundma ei pidanud, kuna filoloogidele lisaks oli meie sektoris matemaatik, majandusgeograaf, muusikateadlane ja mitu inseneri.
„Analüüs sünteesi teel”-meetodit mainis toona juba Mart Remmel, kellel oli hea vaist uute teooriate ja meetodite peale. Aga tollal kasutati seda eelkõige tajutestide stiimulite genereerimiseks mõne keelenähtuse kitsa aspekti uurimisel ja siis see meetod mind ei kõnetanud. Umbes kümme aastat tagasi tekkis aga meetodi vastu huvi seoses iseõppivate kõnesüntesaatoritega. Peaaegu iga eesti emakeelega inimene oskab teksti ette lugedes või kõneldes pea ilmeksimatult sama kirjapildiga sõnu õiges vältes hääldada ja konsonante palataliseerida. Kui iseõppivatele kõnesüntesaatoritele ette sööta piisaval hulgal eestikeelseid kirjalikke tekste ja anda kuulata vastavat eestikeelset kõnet, siis kuidas nemad häälduse omandavad? Kui sarnased või erinevad on inim- ja sünteeskõne hääldusmudelid? Meie töörühm on viimastel aastatel püüdnud tehnoloogia abiga keeleteaduse veidi ebamäärastele aladele pilku heita. Analüüs sünteesi teel on tänu suurtele generatiivsetele keelemudelitele muutunud paljude igapäevaelu osaks: me ju mõttes hindame iga vestlusroboti vastust nii sisuliselt kui ka vormiliselt, häälvastuse puhul ka häälduskorrektsust.
Sa oled osalenud pea kõigis eesti kõnesünteesi etappides. Kas meenutaksid paari oma lemmikhetke? Kuidas ja millal tekkis sul huvi kõnesünteesi vastu? Kuhu praegune tehnoloogia areng kõnesünteesi sinu arvates viib?
Huvi kõnesünteesi vastu on mul instituuti tulekust saati, ehkki KKI esimese formantsüntesaatori Ex Nicolais väljatöötamisel ma ei osalenud. Otsene praktiline vajadus kõnesünteesiga tegeleda tekkis 80-ndate aastate keskel, kui üleliiduline raadioringhääling tellis meilt nn kõnelevad kellad, mis automaatselt teataks raadioeetris õiget aega. Tol ajal olid üleliidulises raadios kõik saated varem salvestatud ja diktorid pääsesid otse-eetrisse vaid kellaaja teatamiseks. Ametlik põhjendus „kõneleva kella” seadmete vajadusele oli see, et ööpäevase programmi valvediktorid olid öisel ajal unised ja kippusid kella näitu edastades eksima. Tegelik põhjus oli ilmselt selles, et püüti üldse välistada inimeste otse-eetrisse sattumist. „Kõnelevad kellad” olid piiratud sõnavaraga kõnesüntesaatorid, mille väljundkõne kvaliteet pidi vastama raadioringhäälingu nõuetele. Enne Nõukogude Liidu lagunemist jõudsime neid tellimuste alusel teha kolm: venekeelsena Ostankinole Moskvas, ukrainakeelsena Kiievi ja kirgiisikeelsena Biškeki raadiostuudiotele.
Üheksakümnendate alguses kõnesünteesiga Eestis praktiliselt ei tegeletud, aga sajandivahetuse eel hakkasime koos Arvo Eegi ja Einar Meistriga difoonidel põhinevat kõnesüntesaatorit välja töötama. Hiljem liitusid projektiga Indrek Hein, Heiki-Jaan Kaalep, Rene Prillop ja Tarmo Vaino. See osutus väga produktiivseks tiimiks.
Kõnesüntees areneb ja täiustub praegu kogu maailmas väga kiiresti. Ka eestikeelse kõnesünteesi areng on tagatud, uurimis- ja arengurühmad on nii Eesti Keele Instituudis kui ka Tartu Ülikoolis. Samuti on eestikeelne kõnesüntees suurte rahvusvaheliste firmade, näiteks Microsofti ja Google’i, huviorbiidis.
Arvan, et lähiaastate kõnesünteesi arenguprobleemid on eelkõige seotud kõnestiilide arvestamise ja emotsioonide väljendamisega. Uudiste, reklaamide ja ilukirjanduse lugemine nõuab eri stiilis kõnet, lisaks veel spontaanne ja argikõne. Kui aga emotsioonide usaldusväärne esitus sünteeskõnesse jõuab, siis sellisest kõnesüntesaatorist võib lavastajatele kujuneda vajalik tööriist. Kuuldemänge suudaks kõnesüntesaator tehisintellekti toel ise lavastada-genereerida. Teatrilavastaja saaks vajadusel proovides kasutada emotsionaalselt väljenduvaid virtuaalseid tegelaskujusid, kel kogu tekst juba esimestest proovidest täielikult peas. Ning filmidele pealelugemist või nende eesti keelde dubleerimist saaks väga hästi automatiseerida. Esialgu on need vaid minu uitmõtted, aga unistama praegusel ajal peab.
