WWW-sivujen toteuttaminen ääniselaimille

Mia Jaakkola

LuK-tutkielma 20.2.2002

Jyväskylän yliopisto

Tietotekniikan laitos

Tekijä: Mia Jaakkola.

Yhteystiedot: Sähköposti mia.jaakkola@eimo.com ja puh. 040-5845276.

Työn nimi: WWW-sivujen toteuttaminen ääniselaimille.

Title in English: Authoring WWW pages for voice browsers.

Työ: LuK-tutkielma.

Sivumäärä: 25+2

Tiivistelmä: Tutkielmassa esitellään ääniselainten tukemia XHTML:n määrityksiä ja CSS:n käyttöä. Tutkielmassa tarkastellaan, mitä on huomattava suunniteltaessa WWW-sivuja ääniselaimille ja mainitaan muutama ääniselain.

Avainsanat: Ääniselain, WWW-sivut, XHTML, äänityylitiedosto, käytettävyys.

Keywords: Voice browser, WWW pages, XHTML, Aural Style Sheet, accessibility.

Sisällys

1 JOHDANTO

Ei ole itsestään selvää, että kaikki WWW:n käyttäjät voisivat käyttää nykyään valta-aseman saaneita visuaalisia selaimia. Esimerkiksi sokeat eivät voi hyödyntää näköaistin käyttöön perustuvaa selainta, kuten eivät autoilijatkaan.

Ääniselaimet ovat selaimia, jotka perustuvat äänisyötteiden ja -vasteiden antamiseen. Syötteet annetaan puheena käyttäen apuna puheentunnistusta sekä vasteen saannissa käytetään puhesynteesiä ja ennakkoon äänitettyä puhetta. Apuvälineinä voivat olla W3C:n dokumentin [W3C9] mukaan myös pieni näyttö ja näppäimistö.

WWW:n käytettävyysguruksi tituleerattu Jakob Nielsen väittää artikkelissaan "Will voice interfaces replace screens?" [Nielsen], että äänikäyttöliittymistä ei ole vaihtoehtoiseksi mediaksi korvaamaan näyttöjä. Käyttökelvoton ääni ei kuitenkaan ole. Se on vain usein toissijainen vuorovaikutustapa, jos muitakin medioita on käytössä.

Ääniselaimet liittyvät monelta osin WWW:n käytettävyyteen. WWW:tä on helpompi selata äänellä, jos katseen täytyy olla samanaikaisesti jossain muualla tai sitä ei voi käyttää ollenkaan.

Luvussa 2 esitellään ääntä selaimissa yleensä. Luku 3 esittelee huomionarvoisia asioita suunniteltaessa WWW-sivuja ääniselaimille. Luku 4 kuvaa ääniselainten käytettävyyttä koskevia XHTML:n määrityksiä. Luvussa 5 käydään läpi äänityylitiedostojen ominaisuuksia. Luvussa 6 tutustutaan markkinoilla oleviin ja ilmaisiin ääniselaimiin.

2 ÄäNI SELAIMISSA

Vuonna 1986 Jakob Nielsen kysyi ryhmältä informaatioteknologian ammattilaisia, mitkä heidän mielestään tulevat olemaan suurimmat muutokset käyttöliittymissä vuoteen 2000 mennessä verrattuna tilanteeseen vuonna 1986. Ääni oli ylivoimaisesti suosituin vastaus.

Vuonna 1986 ei ollut vielä taattua, että visuaalinen käyttöliittymä tulee voittamaan. Ääni on kuitenkin jäänyt kehityksessä paljon vähemmälle, kuin mitä aikaisemmin oletettiin.

Ääni ei välttämättä ole niin hyvä tapa kommunikoida tietokoneen kanssa kuin ensiajattelemalla luulisi. Tarvitaankin vielä paljon työtä, että ääniselaimista saadaan yhtä käytettäviä kuin visuaalisista selaimista. Luku 2 perustuu pääasiallisesti lähteeseen [Nielsen].

2.1 Hyötyjä

Ääni on hyvin luonnollinen käyttöliittymä, koska se antaa käyttäjälle mahdollisuuden käyttää puhetta ja kuuntelemista. Nämä taidot hän on oppinut jo lapsena.

Kun ääniselain on kannettavassa laitteessa, sitä voi käyttää missä tahansa, kuten kotona, töissä tai matkalla. W3C:n dokumentissa [W3C4] tuodaan esille seikka, että tieto on näin myös suuremman ryhmän käytettävissä, kun ei ole välttämätöntä päästä verkossa olevan tietokoneen ääreen.

Äänikäyttöliittymillä on suuret mahdollisuudet tilanteissa, joissa perinteisen näppäimistö-hiiri-näyttö -yhdistelmän käyttöön ei voi luottaa. Ensinnäkin erilailla vammautuneet käyttäjät eivät välttämättä voi käyttää hiirtä tai näppäimistöä ja kuvien näkeminen näytöllä voi olla hankalaa. Ääni on hyvin tärkeä vuorovaikutustapa näkövammaisen ja tietokoneen välillä.

Toinen tilanne koskee sekä vammautuneita että vammautumattomia käyttäjiä, joilla on silmät ja kädet täynnä töitä. Näin on esimerkiksi autoa ajaessa ja korjatessa monimutkaista laitetta.

2.2 Vuoropuhelun rakenne

Avainasia yleensä selainten vuorovaikutussuunnittelussa ja tärkeintä käytettävyydelle on kysymys siitä, mitä selaimelle täytyy sanoa. Käyttäjälle ei nimittäin ole yleensä merkitystä sillä, antaako hän komennon puhumalla vai kirjoittamalla. Hänen tulee ainoastaan tietää, mitä komentoja käyttäen hän saa haluamansa informaation tietoonsa.

Nielsen kertoo artikkelissaan, että ääniselaimet eivät poista käyttöliittymien suunnittelun olennaista ongelmaa, joka on vuoropuhelun rakenteen määrittäminen. Mitkä komennot tai ominaisuudet ovat käytettävissä, miten käyttäjä voi määrittää haluamansa ja kuinka tietokone viestii palautteen. Ääni antaa vain mahdollisuuden antaa komentoja puhumalla kirjoittamisen sijaan.

2.3 Äänen yksiulotteisuus

On paljon helpompaa ja nopeampaa valita haluttu kohta näytöllä näkyvästä listasta, kuin että lista lausuttaisiin ääneen. Ääni on yksiulotteinen media, eikä sillä ole pysyvyyttä. Näyttö on kaksiulotteinen media, joka yhdistää pysyvyyden (voi katsoa niin pitkään kuin haluaa) ja valinnaisen päivityksen (yhden kohdan esim. lomakkeesta voi muuttaa koskematta muihin osiin).

Tulevaisuudessa käytämme ehkä kolmiulotteisia käyttöliittymiä, vaikkakaan kolmiulotteisuus ei aina ole kaksiulotteista parempi vaihtoehto. Visuaaliset käyttöliittymät voivat joka tapauksessa välittää paljon enemmän informaatiota kuin auditiiviset kaikissa niissä olosuhteissa, joissa käyttäjällä on näyttö käytössä ja hän pystyy sitä katsomaan.

2.4 Puheentunnistus ja puhesynteesi

Puheentunnistus ja puhesynteesi ovat tärkeitä osa-alueita ääniselainten toiminnassa. Edellinen tunnistaa ihmisen puheen tietokoneen ymmärtämään muotoon ja jälkimmäinen muuttaa bittivirran puheeksi.

Teoksessa "Kieliteknologia Suomessa" [Miettinen] väitetään puheentunnistuksen olevan nykyisin puheenkäsittelyn kehittämisen tärkeimpiä haasteita ja yksi vaikeimmista tutkimuksen kohteena olevista ongelmista. Yksinkertaisimmillaan puheentunnistus on silloin, kun yksi puhuja lausuu sanoja erillään ja nämä luokitellaan suppean sanaston puitteissa Tämä hallitaankin jo melko hyvin. Vaikeimmillaan puheentunnistus on, kun puhujajoukko ja kielen sanasto ovat rajoittamattomia.

Puhesynteesi eli keinotekoinen puheen tuottaminen perustuu ihmisen puheentuottojärjestelmän ja -prosessin laskennalliseen mallintamiseen [Dutoit]. Puhesynteesiä suorittavaa laitetta kutsutaan puhesyntetisaattoriksi (engl. Text-To-Speech synthetisizer). Laitetta ohjataan millä tahansa kielellisellä viestillä, jolloin se automaattisesti tuottaa tekstistä vastaavan keinotekoisen signaalin.

2.5 Navigointi

Kun käyttää sovellusta esimerkiksi puhelimella, on hankalaa ottaa luuri korvalta ja painaa näppäintä. Siksi on järkevää käyttää äänisyötettä navigoinnissa.

Yksinkertaisimmillaan käyttäjä voisi sanoa "seuraa" kuullessaan linkin, jota hän haluaa seurata. Käyttäjä voisi myös keskeyttää selaimen pyytääkseen lyhyen listan oleellisista linkeistä.

Esimerkiksi käyttäjä voisi kommunikoida selaimen kanssa seuraavasti halutessaan kuulla yritystä koskevia uutisia:

Käyttäjä: Linkit?

Selain: Linkit ovat:

1 yritysinfo

2 uutiset

3 tilaus

4 tuotteiden haku

Sano numero, jonka haluat valita.

Käyttäjä: 2

Selain: Haetaan uutiset...

Kehittyneempi ääniselain antaisi käyttäjälle mahdollisuuden sanoa muutaman sanan esittääkseen, mistä linkeistä hän on kiinnostunut [W3C9]. Esimerkiksi Haluan tehdä tilauksen. Selain vertaisi syötettä yhteensopivuussääntöjen avulla olemassaoleviin vaihtoehtoihin löytääkseen oikean linkin.

3 WWW-SIVUJEN TOTEUTTAMISEN YLEISIä PERIAATTEITA

Maailmanlaajuista tietoverkkoa WWW:tä on kuvailtu visuaaliseksi mediaksi, jota se tavalliselle käyttäjälle onkin. WWW:tä voisi kuitenkin pikemminkin kutsua informaatiomediaksi. Luku 3 perustuu lähteeseen [Bartlett].

3.1 Informaatiomedia

WWW-suunnittelijat usein rajoittavat yleisöään keskittymällä suunnittelussa visuaaliseen puoleen. Tällöin myös informaation laatu heikkenee, eikä WWW-suunnittelija pääse hyödyntämään tehokasta mediaa niin hyvin kuin olisi mahdollista.

Jotta WWW:stä saisi kaikki sen tarjoamat mahdollisuudet käyttöön, on pyrittävä luomaan sivuja, jotka eivät vain näytä hyviltä nykyajan selaimissa, vaan ovat käytettäviä myös vanhoilla selaimilla ja erilaisilla tämän vuosisadan verkkoyhteyslaitteilla (engl. network access devices). Tähän päämäärään pääsyn helpottamiseksi on luotu maailmanlaajuinen käytettävyysmuotoilu (engl. Universally Accessible Design). Kunnolla rakennettu WWW-dokumentti on käytettävä WWW-dokumentti.

3.2 Suunnittelusta

Bartlett muistuttaa dokumentissaan, että joitain poikkeuksia lukuunottamatta sivuja ei koskaan pitäisi suunnitella vain tietyntyyppisille selaimille, vaan kaikentyyppisen ajateltavissa olevan tiedon käsittelyyn. Kuten todettua, kaikilla käyttäjillä ei ole pääsyä WWW:hen nykyään vallalla olevien visuaalisten selainten avulla useista eri syistä. Siksi on ystävällistä käyttäjää kohtaan ajatella häntä jo suunnittelutyön alkuvaiheessa.

Ääniselaimia varten tehtäviä WWW-sivuja suunniteltaessa on hyvä ottaa huomioon käytettävyys ja äänityylilomakkeet. Äänityylilomakkeiden käytöllä saadaan toteutettua maailmanlaajuista käytettävyysmuotoilua. Luvussa 4 perehdytään ääniselainten käytettävyyttä koskeviin XHTML:n suosituksiin. Luvussa 5 tutustutaan äänityylitiedostojen ominaisuuksiin.

4 ÄäNISELAINTEN KäYTETTäVYYTTä KOSKEVAT XHTML:N MääRITYKSET

W3C on määrittänyt suosituksia WWW:n sisällön käytettävyydelle julkaisussaan [W3C8] ja antanut näille suosituksille prioriteettiarvot yhdestä kolmeen. Ensimmäinen prioriteetti on suositus, joka WWW-suunnittelijan täytyy toteuttaa. Toisen prioriteetin kohdat tulisi toteuttaa ja kolmannen prioriteetin kohdat voi ottaa huomioon suunniteltaessa WWW-sivuja. Alaluvuissa on esitelty vain ne kohdat W3C:n suosituksista, jotka koskevat ääniselaimia.

4.1 Vaihtoehtoinen sisällys mediatyypeille

W3C:n suositus 1 [W3C8] koskee vastaavaa vaihtoehtoa auditiiviselle ja visuaaliselle sisällölle. Kohdan 1.1 mukaan muille kuin tekstielementeille täytyy toteuttaa myös tekstivaihtoehto. Näihin elementteihin kuuluvat kuvat, graafiset esitykset, kuvakartta-alueet, animaatiot, appletit ja ohjelmaobjektit, ASCII-taide, kehykset, luettelomerkkeinä käytettävät kuvat, graafiset painikkeet sekä videot (Prioriteetti 1).

Mediatyypeille, joita ei tueta, tulisi olla siis vaihtoehtoinen sisällys. Alt-attribuutti antaa mahdollisuuden määritellä tekstin vaihtoehtona kuvalle. Jos käyttäjäagentti ei voi näyttää kuvaa, näkyy kuvan paikalla alt-attribuutilla määritelty teksti.

Ääniselaimille alt-teksti on ratkaisevan tärkeä, koska kuvia ei voi äänen avulla esittää ollenkaan. Erityisesti, kun kuvaa käytetään osana linkkiä, vaihtoehtoinen tapa pitää olla käytettävissä. Vain silloin ääniselain voi tarkasti esittää sivun käyttäjälle hyödyllisellä tavalla.

On olemassa monta erilaista mahdollisuutta vaihtoehtoisen sisällön määrittämiseen. Esimerkiksi dokumentissa [Bartlett] esitetään seuraavat tavat:

Yksi tapa esityksen tärkeimpien visuaalisten elementtien kuvailuun ilman tekstiä on äänikuvaus (engl. auditory description). Kuvaus on joko valmiiksi nauhoitettua ihmisääntä tai synteettistä ääntä, joka on generoitu lennossa. W3C:n dokumentissa [W3C8] kerrotaan, että äänikuvaus synkronoidaan esityksen kanssa ja se sisältää tietoa tapahtumista, kehon kielestä, grafiikasta ja kohtausten vaihtumisista.

4.2 Merkkaus, tyylitiedostot ja taulukot

W3C suosittelee käyttämään merkkausta ja tyylitiedostoja asianmukaisesti [W3C8].

Kohdassa 3.5 todetaan käytä otsikkoelementtejä välittämään dokumentin rakennetta ja käytä niitä määrittelyn mukaisesti (Prioriteetti 2) sekä kohdassa 3.6 merkitse listat ja lista-alkiot asianmukaisesti (Prioriteetti 2).

Suosituksen 5 mukaan tulee luoda sulavasti muuntuvia taulukoita. Kohdassa 5.1 todetaan määritä rivi- ja sarakeotsikot tietotaulukoille (Prioriteetti 1) sekä kohdassa 5.5. tee yhteenvedot taulukoille (Prioriteetti 3).

Tyypillinen WWW:stä löytyvä dokumentti on melko pitkä. Informaation etsiminen kuuntelemalla WWW-sivua kestää kauemmin kuin sen selaaminen visuaalisesti varsinkin, kun useimmat sivut on suunniteltu visuaaliseen käyttöön.

Useimmat ääniselaimet antavat mahdollisuuden sivujen lyhentämiseen tuottamalla yhden tai useamman jäsennyksen sivun sisällöstä perustuen dokumentin semanttiseen tulkintaan.

Mahdollisia ja käytössäolevia lyhentämistekniikoita ovat seuraavat [Bartlett]:

4.3 Suunnittele laiteriippumattomasti

W3C suosittelee [W3C8] kohdassa 9.2 varmista, että kaikki elementit, joilla on oma käyttöliittymä, toimivat myös riippumatta käytettävästä laitteesta (Prioriteetti 3).

Kohdassa 9.4 W3C kehottaa luomaan loogisen sarkainjärjestyksen linkeille, objekteille ja taulukon ohjailuun (Prioriteetti 3).

Laiteriippumattomuus on nykypäivänä hyvin oleellista, koska sovellusten käyttö ei rajoitu ainoastaan verkossa oleviin suuriin pöytäkoneisiin. Juuri laitteiden moninaisuuden takia ei sarkainjärjestys ole aivan yhdentekevä, vaan sen on oltava looginen käyttää myös ilman hiirtä.

4.4 Toteuta selvä navigointijärjestelmä

W3C:n suosituksessa 13 [W3C8] puututaan navigointiin.

Kohdassa 13.1 pyydetään määrittelemään selvästi jokaisen linkin kohde (Prioriteetti 2).

Kohdassa 13.2 todetaan kirjoita sivulle metatietoa, josta selviää sivujen semanttinen tieto (Prioriteetti 2).

Kohdassa 13.3 neuvotaan antamaan tietoa sivuston yleisestä ulkoasusta (esim. sivustokartta tai sisällysluettelo) (Prioriteetti 2).

Kohdassa 13.4 ohjataan käytä navigaatiojärjestelmää johdonmukaisesti (Prioriteetti 2).

Kohdassa 13.9 pyydetään antamaan tietoa dokumenttikokoelmista (esim. monia sivuja käsittävät dokumentit); (Prioriteetti 3).

Navigointi ei ole niin helppoa ääniselaimella kuin se on visuaalisella selaimella. Visuaalisen selaimen linkit ovat katsottavissa yhdellä silmäyksellä ja sivulta näkee mahdollisesti myös, onko kyseinen aihealue jaettu useammalle sivulle. Näistä asioista olisi ääniselaimen käyttäjänkin hyvä olla tietoinen.

4.5 Varmista, että dokumentit ovat selviä ja yksinkertaisia

W3C:n suosituksessa 14 [W3C8] muistutetaan käytön helppoudesta.

Kohdassa 14.1 todetaan käytä selvintä ja yksinkertaisinta kieltä, joka soveltuu sivujen sisältöön (Prioriteetti 1).

Kohdassa 14.3 muistutetaan luo esitystyyli, joka on yhdenmukainen läpi sivuston (Prioriteetti 3).

Yksinkertaisen kielen käyttö ääniselaimille tarkoitetuilla sivuilla auttaa käyttäjää ymmärtämään paremmin kuulemansa. Käyttäjähän ei tässä tapauksessa pysty kuulemaan jotain tiettyä kohtaa sivusta uudelleen muuten kuin kuuntelemalla sivun alusta asti uudelleen.

Yhdenmukaisuus helpottaa selaimen käyttöä myös visuaalisessa selaimessa, mutta erityisen tärkeää se on äänisivujen suunnittelussa.

5 ÄäNITYYLITIEDOSTOT JA NIIDEN OMINAISUUDET

Äänityylitiedostot (Aural Style Sheets) ovat osa tyylitiedostojen toisen tason (CSS, Level 2) määrittelyä. Ne mahdollistavat suunnilleen samanlaisen dokumenttien tyylien muokkaustason puhutulle tekstille kuin näytetylle tai tulostetulle tekstille [Bartlett].

Ääniesityksen tyylitiedosto-ominaisuuksia voidaan käyttää visuaalisten ominaisuuksien kanssa (yhdistetty media, engl. mixed media) tai äänivaihtoehtona visuaaliseen esitykseen [W3C2].

Äänityylitiedostojen käyttö antaa sivujen suunnittelijalle mahdollisuuden täsmentää puhutun tekstin ominaisuuksia, kuten äänen voimakkuutta, tasoa, nopeutta, painotusta ja taukoja sekä ilmaista, kuinka tietyt sanonnat, akronyymit, pilkutus tai numerot pitäisi ääntää. Hyvin tehdyt äänityylitiedostot voivat parantaa WWW-dokumentin käytettävyyttä ääniselaimessa hyvin paljon [Bartlett]. Alaluvut esimerkkeineen perustuvat pääasiassa lähteeseen [W3C2].

5.1 Äänenvoimakkuus

Äänenvoimakkuus volume voi saada esimerkiksi arvoja silent, x-soft (sama kuin '0'), soft ('25'), medium ('50'), loud ('75') ja x-loud ('100'). Käyttäjäagenttien pitäisi sallia kuuntelijan asettaa arvot, jotka vastaavat arvoja '0' ja '100'.

Yksikään asetus ei ole yleisesti sopiva, sillä kelvolliset arvot riippuvat käytettävistä laitteista (kuten kaiutin ja kuulokkeet), ympäristöstä (esimerkiksi auto, kotiteatteri ja kirjasto) ja henkilökohtaisista mieltymyksistä. Samaa tyylitiedostoa voidaan käyttää kaikissa tapauksissa, sillä käyttäjä voi asettaa '0'- ja '100'-pisteet haluamalleen äänenvoimakkuuden tasolle.

Äänityylitiedostossa äänenvoimakkuuden asettaminen voidaan toteuttaa esimerkiksi h2-otsikolle ja listamäärittelylle seuraavasti [W3C6]:

h2 { 
    volume: loud  
        } 
li, dt, dd { 
    volume: silent 
    }

5.2 Ääntäminen

Ääntämisominaisuus speak määrittää, lausutaanko teksti ääneen vai ei. Lisäksi sillä voidaan määrittää, millä tavalla teksti lausutaan. Mahdollisia arvoja ovat none, normal ja spell-out.

None estää ääneen lausumisen niin, ettei elementti tarvitse aikaa lausumiseen. Spell-out luettelee sanan kirjain kirjaimelta (käytännöllinen akronyymeissä ja lyhenteissä).

On huomattava ero tapauksissa, joissa volume on silent tai speak on none. Edellisessä tapauksessa kuluu sama aika kuin sanan ääneen lausumisessa, mutta jälkimmäiseen ei kulu aikaa ollenkaan.

Äänityylitiedostossa ääntämisominaisuuden asettaminen voidaan toteuttaa esimerkiksi h2-otsikolle ja listamäärittelylle seuraavasti [W3C6]:

h2 { 
    speak: spell-out  
        } 
li, dt, dd { 
    speak: normal 
    }

5.3 Tauot

Tauoissa on vaihtoehtoina tauko ennen (pause-before), tauko jälkeen (pause-after) ja tauko (pause). Ominaisuudet tauko ennen ja tauko jälkeen määrittävät tauon ennen (tai jälkeen) elementin sisällön lausumista. Tauko asetetaan elementin sisään.

Äänityylitiedostossa taukojen asettaminen voidaan toteuttaa esimerkiksi h2-otsikolle ja listamäärittelylle seuraavasti [W3C6]:

h2 { 
    pause-before: <1s>  // Yhden sekunnin tauko.
        } 
li, dt, dd { 
    pause: <700ms>        // Tauko 700 millisekuntia.
    }

5.4 Tekstin lisäys

Elementtien ympärille voi lisätä selittävää tai rajaavaa tekstiä. Tekstiä voi lisätä ennen (cue-before) elementtiä tai sen jälkeen (cue-after). Cue-ominaisuus on lyhennys cue-before ja cue-after -ominaisuuksien asettamiselle.

Esimerkiksi suunnittelija haluaa mahdollisesti laittaa tekstiä ennen hyperlinkkiä ja sen jälkeen. Tällöin linkki

<a href="ajo.html">Ajo-ohje</a>

voidaan lausua Saadaksesi ajo-ohjeen paina 1. Tällöin siis sanat Saadaksesi ja paina 1 lausutaan a-elementin lisäksi [W3C9].

Äänityylitiedostossa lisättävien tekstien asettaminen voidaan toteuttaa esimerkiksi h2-otsikolle ja listamäärittelylle seuraavasti [W3C6]:

h2 { 
   cue-before: url("saa.au");
   cue-after: url("paina.au")  
        } 
li, dt, dd { 
   cue-after: url("beeb.au") 
    }

5.5 Yhdistely

Yhdistelyominaisuus määrittelee taustalla soitettavan äänen, kun elementin sisältöä lausutaan. mix-avainsana tarkoittaa, että jos elementti on perinyt jo jonkun muun äänen, tämä ääni yhdistetään siihen.

Äänityylitiedostossa yhdistelyominaisuuden asettaminen voidaan toteuttaa esimerkiksi h2-otsikolle ja listamäärittelylle seuraavasti:

h2 { 
        play-during: url("violins.aiff") 
} 
li, dt, dd { 
   play-during: url("harp.wav" mix)         
}

5.6 Tilaa koskevat ominaisuudet

Avaruudellinen (tilaa koskeva) ääni on tärkeä tyylillinen ominaisuus ääniesityksessä. Se mahdollistaa useiden eri äänien erottamisen toisistaan, kuten todellisessa elämässäkin tapahtuu. Ihmiset esimerkiksi harvoin seisovat samassa pisteessä huonetta, jolloin paikka vaikuttaa äänen kuulemiseen.

Azimuth-ominaisuus määrittää horisontaalisen äänen suunnan ilmaisten, tuleeko ääni edestä, takaa, vasemmalta, oikealta vai jostain näiden välistä. Elevation-ominaisuus määrittää vertikaalisesti äänen suunnan, joka voi tulla ylhäältä, alhaalta tai niiden välistä.

Äänityylitiedostossa azimuth- ja elevation-ominaisuuksien asettaminen voidaan toteuttaa esimerkiksi h2-otsikolle ja listamäärittelylle seuraavasti:

h2 { 
        azimuth:'180deg'        // Ääni tulee takaa. 
         } 
li, dt, dd { 
   azimuth: left        // Ääni tulee vasemmalta.         }

h2 { 
        elevation:'0deg'        // Ääni tulee samasta
        }               // tasosta. 
        li, dt, dd { 
   elevation: '-90deg'  // Ääni tulee alhaalta.       
}

5.7 Ääntä kuvaavat ominaisuudet

Ääntä kuvaavia ominaisuuksia ovat puheen nopeus, ääniperhe, taso, viritysalue, painotus ja kirkkaus.

Puheen nopeudelle speech-rate on määritelty todella hidas arvo x-slow, joka on 80 sanaa minuutissa. Todella nopea arvo x-fast on 500 sanaa minuutissa. Arvoja voi määritellä itse haluamalleen nopeudelle edellä mainitulta arvoväliltä.

Ääniperheitä voice-family on kahdenlaisia: yleisiä ja erityisiä. Yleisen äänen arvoina voivat olla miehen male, naisen female tai lapsen child ääni, jonka lisäksi voi määrittää omia ääniä.

Puheen taso pitch määrittää puheäänen keskimääräisen tason (frekvenssin). Keskimääräinen taso riippuu ääniperheestä. Esimerkiksi keskimääräinen miesäänen taso on noin 120 Hz, mutta naisäänen noin 210 Hz.

Viritysalue pitch-range määrittää vaihtelun keskimääräisestä puheen tasosta.

Painotus stress määrittää paikallisten huippujen korkeuden äänen sävelkulussa. Arvojen merkitys riippuu puhuttavasta kielestä.

Kirkas ääni kantaa pitkälle suuressa tilassa. Mitä suurempi arvo äänen kirkkaudelle richness annetaan, sitä pidemmälle se kantaa.

Äänityylitiedostossa ääntä kuvaavien ominaisuuksien asettaminen voidaan toteuttaa esimerkiksi h2-otsikolle ja listamäärittelylle seuraavasti:

h2 { 
        speech-rate: <80>     // 80 sanaa minuutissa. 
         } 
li, dt, dd { 
   speech-rate: fast        // 300 sanaa minuutissa.        }
h2 { 
        voice-family: romeo, male   // Romeoksi määritelty
        }                   // miesääni. 
        li, dt, dd { 
  voice-family: tom, child  // Tomiksi määritelty 
     }                  // lapsen ääni.
h2 { 
        pitch: <210>          // Normaali naisääni 
         }                  // 210 Hz.
li, dt, dd { 
   pitch: low               // Matala frekvenssi.       }
h2 { 
        pitch-range: <0>          // Monotoninen ääni
        }                    
        li, dt, dd { 
  pitch-range: <80>           // Eloisa ääni. 
     }  
h2 { 
        stress: <50>          // Normaali arvo  
         }                  // englannin kielessä.
h2 { 
        richness: <20>            // Pehmeä ääni
        }                    
        li, dt, dd { 
   richness: <80>         // Kantava ääni. 
     }

5.8 Välimerkit ja numerot

Välimerkkien käsittelemiseen on kaksi erilaista tapaa speak-punctuation -ominaisuuden avulla. Välimerkit voidaan lausua ääneen tai niiden paikalla pidetään luonnollinen tauko.

Äänityylitiedostossa välimerkkien lausuminen voidaan määrittää esimerkiksi h2-otsikolle ja listamäärittelylle seuraavasti:

h2 { 
        speak-punktuation: code // Välimerkit lausutaan. 
         } 

li, dt, dd { 
   speak-punktuation: none  // Ei lausuta. 
        }

Numeraalit voidaan lausua speak-numeral -ominaisuuden avulla joko perusluku kerrallaan ("12" lausutaan "yksi, kaksi"; digits) tai kokonaisena numerona ("12" lausutaan "kaksitoista"; continuous).

Äänityylitiedostossa numeraalien lausuminen voidaan määrittää esimerkiksi h2-otsikolle ja listamäärittelylle seuraavasti:

h2 { 
        speak-numeral: digits       // Yksi kerrallaan. 
         } 
li, dt, dd { 
   speak-numeral: continuous    // Kokonaisena numerona. 
     } 

5.9 Otsikoiden lausuminen

Taulukossa tietosolujen ja otsikkosolujen välille on tehtävä selvä ero. Speak-header -ominaisuus määrittelee, lausutaanko otsikko ennen joka solua always vai vain silloin, kun otsikko on eri kuin edellisellä solulla once [W3C7] [W3C6].

Otsikoiden lausuminen voidaan määritellä esimerkiksi h2-otsikolle ja listamäärittelylle seuraavasti:

h2 { 
        speak-header: once      // Eri kuin edellisellä. 
         } 
li, dt, dd { 
speak-header: always        // Ennen joka solua. 
     }

5.10 Esimerkki äänityylitiedoston käytöstä

Äänityylitiedostoon voidaan siis kerätä kaikki halutut tyylit yhteen. Mediatyyppi, jolle tyylit halutaan kohdistaa, ilmoitetaan @media-elementillä ja mediatyypin nimellä. Ääniselaimille tarkoitettu mediatyyppi on aural [W3C5].

Seuraava esimerkki on mukailtu Lahtosen [Lahtonen] äänityylitiedostosta [W3C1].

@media aural {               // Mediatyyppi on aural.
 h1, h2, h3, h4, h5, h6 {   // Otsikkkojen tyyli.
voice-family: paul, male;   // Ääniperhe on mies, 
                        // Paul,
stress: 20;                 // painotus on 20 ja
richness: 90;               // kirkkaus on 90.
 }
  h1 { 
pitch: x-low;   // Puheen nopeus on 
// erittäin hidas.
pitch-range: 95;            // Viritysalue on laaja.
cue-before: url("ping.au")  // Ennen URL:ia soi 
 }                      // ääni.
 h3 { 
pitch: low;                 // Puheen nopeus on 
pitch-range: 75;            // hidas. 
 } 
 h4 { 
pitch: medium;          // Puheen nopeus on 
pitch-range: 65;            // normaali.
 } 
 a:link {               
voice-family: betty, female;    // Linkit sanotaan 
pitch-range: 85;            // bettyksi nimetyllä 
pitch: x-high;          // naisäänellä.
 } 
} 

6 ÄäNISELAIMIA

IBM:n Via Voice ja Philipsin Free Speech Viva ovat kaupallisia ääniselaimia. Simply Web 2000 sen sijaan on vapaasti käytettävissä. Luvussa 6.4 luetellaan muita ääntä käyttäviä selaimia.

6.1 IBM:n Via Voice

IBM on kehittänyt neljä eritasoista versiota Windows-käyttöjärjestelmälle Via Voice -ääniselaimesta perusmallista aina tehokäyttäjän versioon [IBM1, IBM2]. Parhaalla versiolla eli Pro USB Editionilla voi surffata Internetin suosituissa sovelluksissa dynaamisen navigoinnin avulla. URL-osoitteesta tarvitsee vain sanoa muutama ensimmäinen sana. IBM:llä on Via Voice -selain myös Mac-käyttöjärjestelmälle nimeltään OS X Edition [IBM3].

Via Voice tukee Microsoftin Windows 98 Second edition ja Windows 2000 -käyttöjärjestelmiä. Näille laitteistovaatimuksina ovat Intel Pentium 300 MHz -prosessori ja 256 KT toisen tason välimuistia. Myös Windows Me on tuettu. Se tarvitsee Intel Pentium III -prosessorin ja 256 KT toisen tason välimuistia. Näiden lisäksi Windowsin 98 ja Me -järjestelmät tarvitsevat 64 MB ja Windows 2000 96 MB RAM-muistia.

Kaikissa järjestelmissä tarvitaan vielä USB-portti USB-mikrofonille, 510 MB vapaata levytilaa ja vähintään nelinkertaisen nopeuden CD-ROM -asema [IBM4]. Mac-käyttöjärjestelmässä on suurinpiirtein samat laitteistovaatimukset [IBM5].

6.2 Philipsin FreeSpeech Viva

Philipsin FreeSpeech Viva on ensimmäinen suomenkielelle kehitetty luonnollisen puheen tunnistusohjelma. Suomen lisäksi Vivaa voi käyttää englannin, ruotsin, saksan ja ranskan kielillä [Philips2].

FreeSpeech Viva tukee Microsoftin Windows 98, NT 4.0 ja 2000-käyttöjärjestelmiä. Laitesuosituksena on Intel Pentium III 350 MHz ja 160 MT RAM-muistia, Windows NT 4.0 -järjestelmässä sekä 2000-järjestelmässä 192 MT RAM-muistia. Lisäksi tarvitaan Sound Blaster tai siihen yhteensopiva äänikortti, CD-ROM -asema ja 200 MT levytilaa sekä 80 MT levytilaa jokaista kieltä kohti [Philips1].

6.3 EconoNetin Simply Web 2000

Simply Web 2000 on ilmainen ääniselain. Siinä on kehittyneitä ominaisuuksia mahdollistamassa sokeiden käyttäjien helpon navigoinnin monimutkaisilla sivuilla.

Simply Web käyttää WWW-sovelluksenaan Internet Explorerin versiota 4.01 tai sitä uudempaa. Simply Web 2000 -ääniselaimen kotisivulla [EconoNet] kehotetaan käyttämään versiota 5.0, koska se tarjoaa ylivoimaisen vasteajan sivujen esittämiseen verrattuna vanhempiin versioihin.

6.4 Muita ääntä tukevia selaimia

Seuraavat järjestelmät mahdollistavat navigoinnin äänen avulla:

7 YHTEENVETO

Jakob Nielsen [Nielsen] uskoo, että äänikäyttöliittymät ovat parhaimmillaan yhtenä käyttöliittymän osana, mutta eivät välttämättä ainoana käyttöliittymänä. On nopeampaa ja helpompaa käyttää sekä hiirtä että ääntä kuin vain toista näistä.

Ääniselaimet lisäävät WWW-sivujen käytettävyyttä sellaistenkin käyttäjien ulottuville, jotka eivät voi käyttää visuaalista selainta. Koska ääniselaimia kuitenkin kehitetään vastaamaan tulevaisuuden haasteisiin, luo se vankan pohjan visuaalisen ja auditiivisen selaimen paremmalle yhteistyölle. Ehkä joskus ääntä, hiirtä ja näppäimistöä käytetään saumattomasti yhdessä selattaessa WWW-sivuja millä tahansa selaimella missä tahansa ympäristössä.

LäHTEET

[Bartlett] Bartlett Kynn, "Web Authoring Strategies for Voice Browsers", HTML Writers Guild, Cambridge, Massachussets, saatavilla HTML-muodossa <http://www.hwg.org/opcenter/w3c/voicebrowsers.html>, 1998 .

[Dutoit] Dutoit Thierry, "A Short Introduction to Text-To-Speech Synthesis", TTS Research Team, TCTS Lab, The MBROLA Project, saatavilla HTML-muodossa <http://tcts.fpms.ac.be/synthesis/introtts.html>, 1999.

[Econonet] EconoNet, "Simply Web 2000 Home Page", saatavilla HTML-muodossa <http://www.econointl.com/sw/>, viitattu 23.1.2002.

[IBM1] IBM, "Via Voice for Windows Release 9", saatavilla HTML-muodossa <http://www-4.ibm.com/software/speech/desktop/w9.html>, viitattu 23.1.2002.

[IBM2] IBM, "Via Voice for Windows Pro USB Edition Release 9", saatavilla HTML-muodossa <http://www-4.ibm.com/software/speech/desktop/w9-pro.html>, viitattu 23.1.2002.

[IBM3] IBM, "Via Voice for Mac OS X Edition", saatavilla HTML-muodossa <http://www-4.ibm.com/software/speech/mac/osx/>, viitattu 29.1.2002.

[IBM4] IBM, "System Requirements Release 9 Via Voice for Windows Pro USB Edition", saatavilla HTML-muodossa <http://www-4.ibm.com/software/speech/desktop/w9-pro-sr.html>, viitattu 23.1.2002.

[IBM5] IBM, "System Requirements Via Voice for Mac OS X Edition", saatavilla HTML-muodossa <http://www-4.ibm.com/software/speech/mac/osx/macx-sr.html>, viitattu 29.1.2002.

[Lahtonen] Lahtonen Tommi, "aural.css", saatavilla CSS-muodossa <http://appro.mit.jyu.fi/2000/syksy/tietoverkot/luennot/luento9/aural.css>, Jyväskylän yliopisto, Tietotekniikan laitos, 2000.

[Miettinen] Miettinen Manne toim., Kieliteknologia Suomessa, Helsinki, saatavilla HTML-muodossa <http://www.csc.fi/kieliteknologia/raportti/>, CSC-Tieteellinen laskenta Oy, Yliopistopaino, 1998.

[Nielsen] Nielsen Jakob, "Will Voice Interfaces Replace Screens?", saatavilla HTML-muodossa <http://www.developer.ibm.com/library/articles/nielsen1.html>, viitattu 19.1.2002.

[Philips1] Philips, "FreeSpeech Viva - PUHU TIETOKONEELLESI!", saatavilla HTML-muodossa <http://www.speech.philips.com/pc/pages/pc_frameset.htm?pc_121_fi.htm>, viitattu 23.1.2002.

[Philips2] Philips, "FreeSpeech Viva, Ominaisuudet", saatavilla HTML-muodossa <http://www.speech.philips.com/pc/pages/pc_frameset.htm?pc_121_fi.htm>, viitattu 23.1.2002.

[W3C1] W3C, "Accessibility Features of CSS", saatavilla HTML-muodossa <http://www.w3.org/TR/CSS-access>, 1999.

[W3C2] W3C, "Aural Style Sheets", saatavilla HTML-muodossa <http://www.w3.org/TR/REC-CSS2/aural.html>, 1998.

[W3C3] W3C, "Alternative Web Browsing - Voice Browsers", saatavilla HTML-muodossa <http://www.w3.org/WAI/References/Browsing>, viitattu 29.1.2002.

[W3C4] W3C, "Introduction and Overview of W3C Speech Interface framework", saatavilla HTML-muodossa <http://www.w3.org/TR/voice-intro/>, 2000.

[W3C5] W3C, "Media Types", saatavilla HTML-muodossa <http://www.w3.org/TR/REC-CSS2/media.html>, 1998.

[W3C6] W3C, "Property Index", saatavilla HTML-muodossa <http://www.w3.org/TR/REC-CSS2/propidx.html>, 1998.

[W3C7] W3C, "Tables - 17.7.1 Speaking Headers: the 'Speak-Header' Property", saatavilla HTML-muodossa <http://www.w3.org/TR/REC-CSS2/ tables.html>, 1998.

[W3C8] W3C, "Techniques for Web Content Accessibility Guidelines 1.0", saatavilla HTML-muodossa <http://www.w3.org/TR/WAI-WEBCONTENT-TECHS/>, 2000.

[W3C9] W3C, "Voice Browsers", saatavilla HTML-muodossa <http://www.w3.org/TR/NOTE-voice>, 1998.

[W3C10] W3C, "XHTML 1.0: The Extensible HyperText Markup Language", saatavilla HTML-muodossa <http://www.w3.org/TR/xhtml1/>, 2000.

LIITTEET

Liite 1. Käytetyt termit

Applet eli sovelma on WWW-sivulle liitetty ohjelma [W3C7].

ASCII-taide (engl. ASCII art) on kirjaimista ja merkeistä yhdistämällä luotu kuva. Esim. =) [W3C7].

Laiteriippumaton (engl. device independent) Käyttäjien täytyy voida olla yhteydessä käyttäjäagenttiin käyttämällä tuettuja syöte- ja vastelaitteita, joita he tarvitsevat tai haluavat käyttää [W3C7].

Kuvakartta (engl. image map) on kuva, joka on jaettu eri tapahtuman sisältäviin alueisiin. Valitsemalla aktiivisen alueen saa kyseisen tapahtuman aikaan [W3C7].

Käyttäjäagentti (engl. user agent) on ohjelma, jolla pääsee käsiksi WWW:n sisältöön. Näihin kuuluvat mm. graafiset selaimet, tekstiselaimet, ääniselaimet, matkapuhelimet ja multimediasoittimet [W3C7].

WWW-suunnittelija on ihminen, joka suunnittelee tai laatii WWW-sivuja [W3C7].

XHTML on määrittelykieli nykyisille ja tuleville dokumenttityypeille, jotka toistavat, ottavat osia ja laajentavat HTML 4:ää. XHTML:n dokumenttityypit perustuvat XML:ään ja niiden on suunniteltu toimivan XML:ään perustuvien käyttäjäagenttien kanssa [W3C10].

Liite 2. Käytetyt lyhenteet

CSS Cascading Style Sheet

HTML HyperText Markup Language

W3C World Wide Web Consortium

WWW Word Wide Web

XHTML Extensible HyperText Markup Language

XML Extensible Markup Language