Teknillinen korkeakoulu
Akustiikka ja äänenkäsittelytekniikka
S-89.152 Akustiikan seminaari, kevät 1998
Synteettisen puheen laatu
Tiivistelmä
Synteettinen eli keinotekoisesti tuotettu puhe on ollut tiedemiesten tutkimuksen kohteena jo yli kahden vuosisadan ajan. Ensimmäisten syntetisaattorien äänenlaatu oli varsin rajallinen, puhe oli varsin monotonista, konemaista ja epäselvää. Vuosien mittaan teknologian kehittyessä myös synteettinen puhe on kehittynyt melkoisesti ja siihen on panostettu tutkimuskapasiteettia yhä enemmän. Puheen selkeys ja ymmärrettävyys on saatu jo varsin korkealle tasolle, mutta puheen luonnollisuus ja yksilöllisyys ovat edelleen lähes ylitsepääsemättömiä ongelmia. Synteettisen puheen laadun arviointiin on kehitetty lukuisia eri menetelmiä, joista tärkeimmät tullaan käsittelemään seuraavassa esityksessä. Tärkeimmät puhesynteesin laadun mitat ovat ymmärrettävyys, selkeys, luonnollisuus ja soveltuvuus tiettyyn käyttökohteeseen. Eri sovelluskohteet edellyttävät synteettiseltä puheelta hieman eri ominaisuuksia ja näin ollen on varsin vaikeaa määrittää yhtä tiettyä menetelmää laadun arviointiin. Tässä yhteydessä esitellään tärkeimmät ja suosituimmat menetelmät. Lisäksi tullaan esittelemään joitain esimerkkejä ja äänidemoja.
Synteettistä puhetta voidaan hyödyntää lukuisissa eri sovelluskohteissa (Santen et al. 1997). Esimerkiksi näkövammaisille se luo aivan ainutlaatuisen mahdollisuuden kommunikoida muiden ihmisten kanssa ja seurata päivän tapahtumia vaikka päivän lehdestä. Kuulovammaiset voivat keskustella kuulevien ihmisten kanssa ilman viittomakieltä. Synteettisen puheen avulla voidaan myös kuunnella sähköpostiviestejä puhelimen välityksellä, kuunnella tekstiviestejä ja sitä voidaan hyödyntää lukuisissa muissa sovelluksissa, kuten multimediassa, opetuksessa sekä erilaisissa varoitus- ja kuulutusjärjestelmissä.
Puhesynteesi voidaan jakaa rajoitetun ja rajoittamattoman sanaston synteesiin. Helpoin tapa on tuottaa rajoitetun sanaston synteesiä (restricted speech, messaging) on toistaa valmiiksi äänitettyjä lauseita tai sanoja. Menetelmällä saadaan varsin laadukasta ja jopa luonnollisen kuuloista puhetta ja se soveltuu esimerkiksi erilaisiin kuulutus- ja informaatiojärjestelmiin, missä tarvittava sanavarasto ei ole kovin suuri. Rajoittamattoman sanaston puhesynteesiin (unrestricted, text-to-speech, TTS) menetelmä ei sen sijaan sovi, koska kaikkien mahdollisten sanojen tallentaminen sellaisenaan ei ole kovin realistista. Lisäksi ääntäminen tunnetusti riippuu asianyhteydestä, puhujan ominaisuuksista, mielentilasta sekä lukuisista muista seikoista, joten luonnollisen puheen aikaansaamiseksi tulisi jokaisesta sanasta tai lauseesta tallentaa lukemattomia eri versioita. Tämän vuoksi joudutaan käyttämään lyhyempiä äänneyksiköitä, kuten tavuja, foneemeja, difoneja tai jopa yksittäistä puhesignaalin perusjaksoa. Foneemi on abstrakti äänneyksikkö, joka suomen kielessä vastaa lähestulkoon kirjoitettua kirjainta, mutta voi kontekstista ja koartikulaatiosta riippuen sisältää eri allofoneja (esim. /e/ sanoissa kelta, keltä). Difonilla tarkoitetaan siirtymää foneemin puolivälistä seuraavan puoliväliin, jolloin kahden foneemin väliset epäjatkuvuuskohtien aiheuttamat ongelmat pienenevät.
Kuva 1.1. Yksinkertaistettu kaaviokuva puhesynteesistä.
Edellä kuvatun aika-alueessa tapahtuvan näytepohjaisen menetelmän lisäksi synteettistä puhetta voidaan tuottaa myös mallintamalla ihmisen puheentuottojärjestelmän ominaisuuksia. Yleisin menetelmä on ns. lähde-suodin-malliin perustuva synteesi, missä jaksollista herätettä tai kohinaa suodatetaan formanttien eli siirtofunktion napojen aikaansaamiseksi (kuva 1.2). Soinnillinen heräte vastaa glottista ja kohinaherätteellä mallinnetaan soinnittomia äänteitä. Suodinjärjestelmä koostuu usein neljästä sarjaan tai rinnan kytketystä kaistanpäästösuotimesta eli formanttiresonaattorista, joilla on omat vahvistuskertoimensa.
Kuva 1.2. Lähde-suodin-mallin periaatekaavio.
Teoreettisesti oikeaoppisin menetelmä synteettisen puheen tuottamiseksi on mallintaa suoraan ihmisen puheentuottojärjestelmää artikulatorisen mallin avulla (Donovan 1996). Menetelmä on laskennallisesti raskas ja vaikea toteuttaa. Puheentuottomalleja ovat käsitelleet tarkemmin mm. Flanagan (1972) ja Klatt (1987).
Synteettisen puheen tuottaminen on ollut ihmiskunnan haaveena jo vuosisatojen ajan. Ensimmäiset yritykset tuottaa synteettistä puhetta ovat jo yli kahdensadan vuoden takaa. Christian Krazenstein esitti jo vuonna 1779 viiden vokaaliäänteen eroavaisuuksia ja esitteli myös akustis-mekaanisen laitteen, jolla kyettiin tuottamaan keinotekoisia vokaaliäänteitä (Flanagan 1972, Schroeder 1993). Vuonna 1791 Wolfgang von Kempelen esitteli akustis-mekaanisen puhekoneen, joka kykeni tuottamaan runsaasti eri äänteitä ja äänneyhdistelmiä. Joitain vuosia myöhemmin Charles Wheatstone esitteli oman parannellun versionsa von Kempelenin puhekoneesta, joka on esitetty kuvassa 2.1. Laite oli varsin monimutkainen, mutta kokenut käyttäjä kykeni tuottamaan sen avulla eri äänteitä sekä joitain äänneyhdistelmiä. Erinäisiä kokeiluja mekaanisen puhekoneen aikaansaamiseksi on tehty aina tämän vuosisadan puoliväliin saakka.
Kuva 2.1. Wheatstonen versio von Kempelenin puhekoneesta.
Ensimmäisen elektronisen syntetisaattorin rakensi todennäköisesti Stewart vuonna 1922 (Klatt 1987). Laite perustui kahteen sähköiseen resonanssipiiriin, jotka muokkasivat summerimaista herätettä tuottaen yksittäisiä vokaaliäänteitä. Varsinaista puhetta laite ei kuitenkaan kyennyt tuottamaan.
Puheenkäsittelyn kannalta varsin oleellinen saavutus tehtiin Bellin laboratoriossa 1930-luvun loppupuolella, missä kehitettiin Vocoder (Voice Coder) niminen laite. Sillä kyettiin analysoimaan puhesignaali parametriseen muotoon ja rekonstruoimaan se takaisin puhesignaaliksi. Tämä johti ideaan kehittää puhesyntetisaattori, jota voitaisiin ohjata ihmisen toimesta parametreja muuttamalla. Vihdoin vuonna 1939 Homer Dudley esitteli New Yorkin maailmannäyttelyssä Voder (Voice Operation Demonstrator) nimisen puhesyntetisaattorin, jota voidaan pitää maailman ensimmäisenä jatkuvaa puhetta tuottavana syntetisaattorina (Flanagan 1972, Klatt 1987). Laitteen käyttö oli erittäin vaativaa, mutta kokenut käyttäjä kykeni tuottamaan sen avulla varsin ymmärrettävää puhetta. Laitetta voidaan pitää tavallaan esiasteena lähde-suodin mallista.
Voder-syntetisaattorin esittelyn jälkeen innostus puhesynteesin kehittämiseksi alkoi kasvaa nopeasti. Ensimmäisen formanttisyntetisaattorin kehitti Walter Lawrence 1953. Laite oli nimeltään PAT (Parameter Artificial Talker) ja se perustui kolmeen rinnakkain kytkettyyn resonaattoriin, joiden herätteenä käytettiin joko soinnillista sirinää tai kohinaa. Suurin piirtein samoihin aikoihin esitteli Gunnar Fant oman OVE I (Orator Verbis Electris) syntetisaattorinsa, joka perustui puolestaan sarjaan kytkettyihin resonaattoreihin. Kyseisten syntetisaattorien kehittelijät aloittivat ensimmäiset keskustelut puhesynteesin ääneen vaikuttavista tekijöistä, lähinnä eri toteutustapojen vaikutuksesta eri äänteiden laatuun.
Ensimmäinen suomenkielinen rajoittamattoman sanaston syntetisaattori SYNTE2 valmistui vuonna 1978 (Salmensaari 1989), jota seurasi viisi vuotta myöhemmin SYNTE3. Laitteet olivat tiettävästi ensimmäisiä kannettavia ja mikroprosessoritekniikkaan perustuvia syntetisaattoreita maailmassa. Nykyään tunnetuimmat suomenkieliset puhesyntetisaattorit lienevät Infovox, MikroPuhe ja Sano Se.
Puhesynteesin historiaa käsittelevät varsin laajasti mm. Flanagan (1972, 1973), Klatt (1987) ja Schroeder (1993).
Suurimmat ongelmat rajoittamattoman sanaston synteesissä ovat tekstin analysointi oikean ääntämisen sekä prosodiikan löytämiseksi. Suomen kielessä selvitään varsin suppealla säännöstöllä, koska puhuttu kieli vastaa varsin hyvin kirjoitettua. Suurimmassa osassa kieliä näin ei sen sijaan ole, vaan tarvitaan runsaasti erilaisia sääntöjä ja niiden poikkeuksia. Joissakin kielissä on lisäksi omat erityisongelmansa, kuten kiinassa, missä sanoja ei ole eroteltu kunnolla toisistaan. Erisnimet ja lyhenteet ovat vastaavasti suuri ongelma kaikissa kielissä. Esimerkiksi englannissa Dr. voi olla doctor tai drive ja st. street tai saint. Lukusanat, varsinkin roomalaiset numerot, aiheuttavat myös runsaasti hankaluuksia, esim. suomeksi roomalainen III äännetään eri tavalla yhteyksissä, kuten III (kolmos) olut, luku III (kolme) ja Kaarle III (kolmas). Erisnimiä voi taasen olla lukematon määrä. Lisäongelmia aiheuttavat myös päivämäärät, erikoismerkit (#, %, $). Oikea ääntäminen on usein etsittävä asianyhteydestä, mikä on yleensä varsin vaativa toimenpide.
Tekstin perusteella olisi kyettävä löytämään myös kunkin äänteen ja sanan oikea paino (stress), kesto (duration) ja korkeus (pitch). Prosodisten ominaisuuksien oikea tuottaminen ja tietyn persoonallisuuden saaminen synteettiseen puheeseen on tällä hetkellä ehkä haastavin osa-alue. Prosodiikalla tarkoitetaan yleisesti äänen luonnillisuuteen liittyviä ominaisuuksia, kuten oikeaa sävelkulkua (intonation) ja rytmiä (rhytm).
Myös eri synteesimenetelmät vaikuttavat eri tavalla eri äänteisiin. Esimerkiksi all-pole-tyyppinen formanttisynteesi tuottaa huonot nasaaliäänteet, joiden korjaamiseen tarvitaan ylimääräinen lisäsuodin. Näytepohjaisella synteesillä päästään varsin hyvään luonnollisuuteen ja puhuja saadaan kuulostamaan henkilöltä, joka näytteet on antanut.
Puheen ymmärrettävyyttä voidaan parantaa huomattavasti, mikäli siihen liitetään myös visuaalista informaationta (Beskow et al. 1997, Santen et al. 1997). Varsinkin foneemeille /p b m f v/, joiden ääntämiseen huulet olennaisesti liittyvät (labiaalit), saadaan huomattava parannus ymmärrettävyyteen jo pelkästään synteettisen huulimallin avulla.
Synteettisen puheen laatua voidaan testata lukuisilla eri menetelmillä. Joidenkin alan tiedemiesten mielestä erilaisia testausmenetelmiä on jopa liikaa, mikä haittaa eri toteutusten vertailua sekä standardoimistyötä. Puhesynteesin, kuten puheen yleensäkin, laadun arviointi on varsin monitahoinen kysymys. Eri sovelluskohteissa tarvitaan erilaisia ominaisuuksia. Esimerkiksi näkövammaisille on tärkeää, että synteettinen puhe on ymmärrettävää ja selkeää vielä suurillakin puhenopeuksilla. Vastaavasti joissain tapauksissa, kuten erilaisissa multimediasovelluksissa, puheen luonnollisuus ja prosodiset ominaisuudet voivat nousta merkittäväksi mitaksi.
Synteettistä puhetta, kuten puhetta yleensäkin, testataan pääasiassa subjektiivisilla kuuntelukokeilla, joihin tavallisesti osallistuu joitain kymmeniä kuuntelijoita. Tuloksista lasketaan yleensä virheprosenttien keskiarvo ja mahdollisesti joitain esim. hajontaa kuvaavia lukuja. Toistettaessa testejä samalle kuuntelujoukolle saattavat tulokset parantua ns. oppimisefektin seurauksena eli kuulijat tottuvat tietyn puhesyntetisaattorin tuottamaan ääneen. Tämän vuoksi eri testitulosten vertailu voi vaikeutua huomattavasti.
Puheen laatua voidaan mitata myös objektiivisilla mitoilla, joita ovat mm. artikulaatioindeksi (Articulatory Index, AI) ja puheensiirtoindeksi (Speech Transmission Index, STI). Synteettiselle puheelle voidaan kuitenkin pitää subjektiivisia menetelmiä kaikkein soveliaimpina.
Seuraavassa käsitellään aluksi testejä, joilla pyritään testaamaan ainoastaan puheen ymmärrettävyyttä (intelligibility). Koska konsonanttiäänteet ovat vaikeampia syntetisoida, on testit suunniteltu yleensä siten, että ne painottuvat juuri näiden äänteiden eroavaisuuksien havaitsemiseen. Seuraavaksi esitellään testejä synteettisesti tuotettujen lauseiden tajuttavuudesta (comprehension). Lopuksi käydään läpi testimenetelmiä, joilla pyritään arvioimaan puheen laatua yleisellä tasolla. Myös prosodisten ominaisuuksien ja puheen luonnollisuuden testaamiseksi on kehitetty yksittäisiä menetelmiä.
Yksi suosituimmista ja yksinkertaisimmista tavoista mitata synteettisen puheen ymmärrettävyyttä on käyttää siirtymiä vokaalien (V) ja konsonanttien (C) välillä. Yleisin tapa on käyttää merkityksettömiä VCV tai CVC tavuja (Pols et al. 1992), mutta myös lyhyemmät (VC - CV) tai pidemmät (VCCV - CVVC) tavut ovat mahdollisia. Varsinkin difoneihin perustuviin syntetisaattoreihin on käytettävä pidempiä tavuja, jotta kaikki CC, VV, CV ja VC difonit tulisivat testatuiksi. Yleensä tavut koostetaan siten, että mukana on mahdollisimman monta tutkittavan kielen konsonanttia sekä muutama vokaali. Testisanat ovat yleensä rakenteeltaan symmetrisiä (asa - isi - usu).
DRT (Diagnostic Rhyme Test) on 1950-luvun lopussa kehitetty testimenetelmä puheen ymmärrettävyyden (intelligibility) mittaamiseksi (Goldstein 1995). Testillä tutkitaan sanojen ensimmäisten konsonanttien ymmärrettävyyttä. Testi koostuu yhteensä 192 testisanasta, joista on muodostettu 96 sanaparia. Kunkin parin sanat eroavat toisistaan vain ensimmäisen konsonanttiäänteen verran. Sanat on pyritty valitsemaan siten, että ne testaavat kuutta eri foneettista ominaisuutta, jotka ovat soinnillisuus (voicing), nasaalisuus (nasality), jatkuvuus (sustension), suhuisuus (sibilation), tehoisuus (graveness) ja laveus (compactness). Ominaisuudet ja esimerkit testisanoista on esitetty taulukossa 4.1. Kuulija kuuntelee sanan kerrallaan ja valitsee kahdesta vaihtoehdosta omasta mielestään kuulemansa sanan. Lopuksi testin tuloksista lasketaan virhekeskiarvo. Myös yksittäisten konsonanttien virhearvoja voidaan tarkastella.
Taulukko 4.1. DRT-testissä huomioitavat foneettiset ominaisuudet.
Ominaisuus | Vaihtoehdot | Esimerkki |
Soinnillisuus | soinnillinen / soinniton | veal - feel, dense - tense |
Nasaalisuus | nasaali / ei nasaali | reed - deed |
Jatkuvuus | jatkuva / ei jatkuva | vee - bee, sheat - cheat |
Suhuisuus | suhuisa / ei suhuisa | sing - thing |
Tehoisuus | ylä / alatehoinen | weed - reed |
Laveus | tiivis / lavea | key - tea, show - sow |
DRT-menetelmää on käytetty varsin yleisesti synteettisen puheen ymmärrettävyyden mittaamiseen, koska se on suhteellisen helppo järjestää, sitä pidetään luotettavana eikä se kärsi oppimisefektistä (Pisoni et al. 1980). Testi testaa vain ymmärretäänkö tietty konsonantti oikein eikä se huomioi esimerkiksi puheen luonnollisia tai prosodisia ominaisuuksia.
MRT (Modified Rhyme Test) on edellisestä tavallaan laajennettu versio (Logan et al. 1989, Goldstein 1995). Siinä tutkitaan sekä sanan alku- että loppukonsonanttien ymmärrettävyyttä. Testissä on 50 kappaletta kuuden ääntämykseltään yksitavuisen sanan ryhmää. Ensimmäiset 25 ryhmää testaavat konsontantin ymmärrettävyyttä sanan lopussa ja vastaavasti toiset 25 konsonantin ymmärrettävyyttä sanan alussa. Sanoista on annettu esimerkki taulukossa 4.2.
Taulukko 4.2. Esimerkki MRT testisanoista.
A | B | C | D | E | F | |
1 | bad | back | ban | bass | bat | bath |
2 | beam | bead | beach | beat | beak | bean |
3 | bus | but | bug | buff | bun | buck |
... | ||||||
4 | led | shed | red | bed | fed | wed |
5 | sold | told | hold | fold | gold | cold |
6 | dig | wig | big | rig | pig | fig |
... |
Kuuntelija saa siis eteensä kuusi vaihtoehtoa kustakin kuulemastaan sanasta ja valitsee niistä mielestään oikean. Saaduista tuloksista lasketaan keskiarvoistetut virheprosentit alku- ja loppukonsonanteille sekä edelleen näiden keskiarvo. Myös yksittäisten äänteiden ymmärrettävyyttä voidaan tarkastella erikseen. Testi voidaan suorittaa myös avoimena versiona (open response), missä kuulijoille ei anneta kuutta vaihtoehtoa, vaan heidän on pyrittävä tunnistamaan kuulemansa sana sellaisenaan. Esimerkki MRT:n tuloksista yhdeksälle syntetisaattorille ja normaalille puheelle on esitetty seuraavassa luvussa.
Foneettisesti tasapainotetuilla testisanoilla (phonetically balanced word lists) pyritään mallintamaan eri äänteiden esiintymistiheyttä kussakin kielessä (Goldstein 1995). Menetelmä on kehitetty Harvardin yliopistossa vuosisadan puolivälissä. Testissä käytetyt sanat ovat yksitavuisia ja ne on pyritty valitsemaan siten, että testattavien syntetisaattoreiden eroavaisuudet tulisivat mahdollisiman hyvin esille. Toisin sanoen pyritään välttämään sanoja, jotka kaikki kuulijat tunnistavat tai joita kukaan ei tunnistaisi. Periaattella on kehitetty joitain sanalistoja, pääasiassa englannin kielelle.
Synteettisen puheen testaukseen on kehitetty useita erilaisia testilauseita tai lähinnä lauseryhmiä, jotka on pyritty rakentamaan siten, että ne mallintaisivat mahdollisimman hyvin eri äänteiden esiintymistä. Lauseet voivat olla joko normaaleja tai merkityksettömiä. Suosituimpia ovat Harvardin psykoakustiset lauseet (Harvard Psychoacoustic Sentences), joita on 100 kappaletta. Toinen yleisesti käytetty on Haskinsin merkityksettömät lauseet (Haskins Anomalous Sentences). Lauseet eivät siis sinänsä merkitse mitään järkevää, eikä kuulija voi näin ollen päätellä puuttuvaa sanaa asianyhteydestä. Esimerkkejä edellä mainituista lauseista ja niiden sovelluksista ovat esittäneet mm. (Pisoni et al. 1980, Allen et al. 1987)
Synteettisen puheen laatua voidaan mitata myös yleisellä tasolla. Yleensä tämä tapahtuu siten, että testiryhmälle annetaan kuultavaksi puhetta, jonka jälkeen he arvostelevat kuulemaansa yleensä viisiportaisella asteikolla. Yksi yleisimmin käytössä olevista on MOS-asteikko (Mean Opinion Score), missä puheen laatua arvostellaan seuraavalla asteikolla (Klaus et al. 1993):
5. Erinomainen (excellent)
4. Hyvä (good)
3. Tyydyttävä (fair)
2. Välttävä (poor)
1. Huono (bad)
Vastaavanlaisia asteikkoja on kehitetty myös erilaisten häiriötekijöiden kuuluvuuden mittaamiseksi. Tällaisia ovat esimerkiksi DCR (Degredation Category Rating) ja DMOS (Degredation Mean Opinion Score) asteikot (Goldstein 1995):
5. Ei kuultavissa (inaudible)
4. Kuultavissa, muttei häiritsevää (audible but not annoying)
3. Jonkin verran häiritsevää (slightly annoying)
2. Häiritsevää (annoying)
1. Erittäin häiritsevää (very annoying)
Lisäksi on kehitetty joitain hieman monimutkaisempia testejä, jotka huomioivat yleisen laadun lisäksi mm. erilaisia ympäristötekijöitä. Tälläinen on esimerkiksi DAM (Diaganostic Acceptability Measure), missä testihenkilöt arvostelevat näytettä 21 eri kriteerillä, mitkä liittyvät itse äänenlaadun tarkastelun lisäksi mm. ympäristön vaikutukseen sekä äänen miellyttävyyteen.
Kuten on jo todettu, tässä yhteydessä on esitetty vain osa, joskin yleisimmät synteettisen puheen laadun mittaamiseen käytetyistä menetelmistä. Näiden lisäksi on kehitetty joitain yksittäisiä testejä esimerkiksi prosodiikan arviointiin Yksittäisten äänteiden erotettavuutta mittaavat testit soveltuvat hyvin tutkimus- ja kehitystyöhön, koska niistä ilmenee helposti yksittäiset ongelmakohdat. Sen sijaan puheen luonnollisuuden testaamiseksi on hyvä käyttää esimerkiksi sana- tai lausepareja, joista toinen on luonnollinen ja toinen synteettinen. Soveltuvuutta tiettyyn käyttötarkoitukseen tulisi testata kussakin ympäristössä erikseen. Esimerkiksi testattaessa puhesyntetisaattoria näkövammaisten käyttöön, tulisi sitä testata erityisesti nopeilla puhenopeuksilla.
Esimerkki perustuu Indianan yliopiston puheentutkimuslaboratoriossa John Loganin, Beth Greenen ja David Pisonin tekemään MRT testiin yhdeksälle syntetisaattorille ja luonnolliseelle puheelle (Logan et al. 1989). Testissä käytetyt syntetisaattorit olivat: MITalk-79, TSI Prototype-1, DECtalk 1.8, Infovox SA101, Prose 3.0, Votrax Type'n'Talk, Echo, Amiga ja Smoothtalker. Kuvassa 5.1 on esitetty virheprosentit alku- ja loppukonsonanteille sekä kokonaisvirheprosentti.
Kuva 5.1. Testin virheprosentit alku- ja
loppukonsonanteille sekä kokonaisvirhe.
Kyseisten arvojen perusteella saadaan jo melko hyvä kuva syntetisaattorien tasoeroista, mutta tietoa siitä, missä virheet syntyvät, saadaan vasta tarkastelemalla eri konsonantteja erikseen. Huonoiten tunnistetut konsonantit on esitelty taulukossa 5.1, mistä voidaan havaita kunkin syntetisaattorin ongelmakohdat. Taulukossa esitetyt virheprosentit kuvaavat siis kussakin erikseen havaittuja suurimpia virheprosentteja.
Taulukko 5.1. Eri konsonanttien suurimmat virheprosentit.
Syntetisaattori |
alku (%) |
loppu (%) |
Luonnollinen puhe |
k (33,3) |
t (18,2) |
DECtalk Paul |
b (20,7) |
k (20,2) |
DECtalk Betty |
h (47,4) |
n (16,1) |
Prose 2000 |
h (22,2) |
k (38,5) |
MITalk-79 |
h (22,9) |
n (27,6) |
Amiga |
p (34,8) |
v (16,8) |
Infovox |
w (28,3) |
v (13,4) |
TSI-Proto |
h (18,0) |
n (34,4) |
Smoothtalker |
b (19,3) |
d (21,4) |
Votrax Type'n'Talk |
h (21,0) |
p (18,3) |
Echo |
b (17,8) |
k (15,2) |
Tuloksista voidaan muodostaa myös matriisi kuvaamaan sekaannuksia eri äänteiden välillä (confusion matrix).
Esimerkin testi on tehty myös versiona, missä valmiita vastausvaihtoehtoja ei ole annettu (open response test). Tällöin saadut virheprosentit muodostuvat yli kaksinkertaisiksi normaaliin testiin verrattuna.
Synteettinen puhe on kehittynyt viime vuosina varsin nopeasti ja siitä on nykytekniikalla saatu varsin ymmärrettävää ja selkeää. Myös luonnollisuus ja yksilöllisyys on parantunut, mutta tietynlainen konemaisuus ja monotonisuus tullee vaivaamaan käytännön syntetisaattoreita vielä vuosia. On myös huomattavaa, että varsin suuri osa synteettisen puheen laadusta riippuu oikeastaan tekstin analysoinnista, millä ei ole äänenkäsittelyn kanssa mitään tekemistä.
Tulevaisuudessa puhesynteesin kaupalliset tarpeet tulevat varmasti kasvamaan, mikä tuo omalta osaltaan lisää resursseja tutkimustyöhön. Lisäksi tietotekniikan kapasiteetin kasvu tulee auttamaan myös puhesynteesin kehitystä ja tulevaisuudessa yhä suurempi osa puhesyntetisaattoreista tulee olemaan ohjelmistopohjaisia ja lähes missä tahansa kotitietokoneessa toimivia. Myös synteettistä puhetta hyödyntävien sovellusten hintataso tulee todennäköisesti laskemaan huomattavasti.