ASR-i lühiajalugu: automaatne kõnetuvastus

See on esimene postitus sarjast, mis käsitleb kõne kõnesituvastust - põhitehnoloogiat, mis teeb Descripti võimalikuks. Uurime valdkonna praegust olukorda, kuhu see suundub - ja selle osamaksega, kus see on olnud.

Descript on uhke, et on osa uue loomingulise tarkvara põlvkonnast, mille võimaldavad hiljutised edusammud automaatse kõnetuvastuse (ASR) alal. See on põnev aeg: tehnoloogia ületas hiljuti piiri, mille tõttu ta müüb oma pikaajalist lubadust märkimisväärseks kasulikkuseks ja see läheb ainult paremaks.

See hetk on juba pikka aega saabunud. Kõnetuvastuse tehnoloogia on arenenud juba üle poole sajandi, läbides mitu intensiivse lubaduse ja pettumuse perioodi. Mis siis muutus, et muuta ASR ärirakendustes elujõuliseks? Ja mida need süsteemid täpselt saavutada võiksid, juba ammu enne seda, kui keegi meist oli Siri kohta kuulnud?

Kõnetuvastuse lugu räägib sama palju erinevate lähenemisviiside rakendamisest kui ka toore tehnoloogia arendamisest, ehkki need kaks on omavahel lahutamatult seotud. Aastakümnete jooksul kavandasid teadlased hulgaliselt viise keele lahkamiseks: helide, struktuuri ja statistika abil.

Varased päevad

Inimlik huvi kõne äratundmise ja sünteesimise vastu pärineb sadadest aastatest (vähemalt!) - kuid alles 20. sajandi keskpaigas ehitasid meie esivanemad midagi äratuntavat kui ASR.

1961 - IBM Shoebox

Varasemate projektide hulgas oli “digituvastus” nimega Audrey, mille lõid Bell Laboratoriesi teadlased 1952. aastal. Audrey tundis kõnetulemusi numbriliste numbrite tuvastamiseks, otsides heli sõrmejälgi, mida nimetatakse formantideks1 - helide destilleeritud essentsid.

1960. aastatel arendas IBM välja Shoebox - süsteemi, mis tundis ära numbrid ja aritmeetilised käsud, näiteks “pluss” ja “kokku”. Veelgi parem, kui Shoebox saaks edastada matemaatikaülesande lisamismasinale, mis arvutaks välja ja prindiks vastuse².

Vahepeal ehitasid Jaapani teadlased riistvara, mis tundis kõne koostisosi nagu vokaalid; muud süsteemid võiksid kõne struktuuri hinnata, et teada saada, kuhu mõni sõna võiks lõppeda. Ja Inglismaa ülikoolikolledži meeskond suutis foneemide, keele diskreetsete helide1 analüüsimisel ära tunda 4 täishääliku ja 9 kaashääliku.

Kuid kuigi väli astus sammu edasi, ei olnud ilmtingimata selge, kuhu tee kulgeb. Ja siis: katastroof.

Oktoober 1969 - Ameerika akustikaühingu ajakiri

Augustamine sügavkülmas

Pöördepunkt saabus John R. Pierce'i poolt 1969. aastal kirjutatud kirja vormis.

Pierce oli juba ammu end sisse seadnud rahvusvahelise tuntuse inseneriks; muude saavutuste hulgas lõi ta sõna transistor (inseneriteadustes laialt levinud) ja aitas käivitada kõigi aegade esimese kommunikatsioonisatelliidi Echo I. 1969. aastaks oli ta Bell Labsi tegevjuht, kes oli palju investeerinud kõnetuvastuse arendamisse.

Pierce avaldas oma mures avaldatud kirjas³, mis avaldati ajakirjas The Acoustical Society of America. Tsiteerides II maailmasõja ja Sputniku tagajärjel tekkinud lopsakat rahastamiskeskkonda ja nende vastutuse puudumist, tunnistas Pierce väljakut teadusliku ranguse puudumise tõttu, kinnitades, et käimas on liiga palju metsikuid katseid:

„Me kõik usume, et kõneteadus on võimalik, hoolimata teadlastena käituvate inimeste ja teadusele sarnaste tulemuste vähesusest.“ - J. R. Pierce, 1969

Pierce pani oma tööandja raha sinna, kus oli suu: ta saatis tagasi Belli ASR-i programme, mida ei ennistata enne, kui ta 1971. aastal tagasi astus.

Edusammud jätkuvad

Õnneks oli mujal rohkem optimismi. 1970. aastate alguses rahastas USA kaitseministeeriumi ARPA (amet, mida nüüd tuntakse kui DARPA) viieaastast programmi Speech Understanding Research. See viis mitme uue ASR-süsteemi loomiseni, millest edukaim oli Carnegie Melloni ülikooli Harpy, mis suutis 1976. aastaks ära tunda veidi üle 1000 sõna.

Samal ajal tõstsid IBMi ja AT & T's Bell Laboratories jõupingutused tehnoloogiat võimalike ärirakenduste poole. IBM seadis esmatähtsaks kõne transkriptsiooni kontorikorrespondentsi kontekstis ja Bell oli seotud käskude ja juhtimisstsenaariumidega: häälvalimise eelkäijatega ja automatiseeritud telefonipuudega, mida me täna teame¹.

Vaatamata sellele edusammudele oli ASR 1970. aastate lõpuks veel pikk tee elujõuliseks kõige muu jaoks kui väga spetsiifilised kasutusjuhud.

See valutab ka mu pead.

80-ndad: Markovid ja palju muud

Peamine pöördepunkt tuli varjatud Markovi mudelite (HMM) populariseerimisega 1980ndate keskel. See lähenemisviis kujutas endast olulist nihet „mallidelt ja spektraalse kauguse mõõtmiselt põhinevate lihtsate mustrituvastusmeetodite juurest kõnetöötluse statistilisele meetodile” ⁴ -, mis tähendas täpsuse hüpet.

Suur osa kõnetuvastussüsteemide täiustustest pärast 1960. aastate lõppu tuleneb selle statistilise lähenemisviisi võimsusest koos HMM-ide rakendamiseks vajaliku arvutitehnoloogia arenguga.⁵

HMM-id viisid tööstuse tormi kätte - kuid need polnud üleöö edukad. Jim Baker rakendas neid kõnetuvastuses esmakordselt 1970. aastate alguses CMU-s ja mudeleid ise kirjeldas Leonard E. Baum 60ndatel. Alles 1980. aastal, kui Jack Ferguson pidas Kaitseanalüüsi Instituudis sarja valgustavaid loenguid, hakkas see tehnika laiemalt levima.

HMM-ide edu kinnitas Frederick Jelineki tööd IBM-i Watsoni uurimiskeskuses, kes oli 1970. aastate algusest alates propageerinud statistiliste mudelite kasutamist kõne tõlgendamiseks, selle asemel, et proovida saada arvuteid jäljendama seda, kuidas inimesed keelt seedivad: tähenduse kaudu, süntaks ja grammatika (üldine lähenemisviis sel ajal). Nagu Jelinek hiljem ütles: “Lennukid ei klapi oma tiibu.” ⁹

Need andmepõhised lähenemisviisid hõlbustasid ka edusamme, millel oli sama palju pistmist tööstuse koostöö ja vastutusega kui üksikute eureka-hetkedega. Statistiliste mudelite kasvava populaarsuse tõttu hakkas ASR-i väli koondama testide komplekti, mis annaks standardiseeritud võrdlusaluse. Seda julgustas veelgi jagatud andmekogumite väljaandmine: suured andmekorpused, mida teadlased said kasutada oma mudelite koolitamiseks ja katsetamiseks.

Teisisõnu: lõpuks oli olemas (ebatäiuslik) viis edu mõõtmiseks ja võrdlemiseks.

November 1990, Infoworld

Tarbijate saadavus - 90ndad

Paremaks ja halvemaks tutvustasid 90ndad tarbijatele automaatset kõnetuvastust kujul, mida me tänapäeval tunneme. Draakoni diktaat käivitati 1990. aastal hämmastava 9000 dollari eest, pakkudes 80 000 sõnaga sõnastikku ja funktsioone, nagu loomulik keeletöötlus (vt ülaltoodud Infoworldi artiklit).

Need tööriistad olid aeganõudvad (artiklis väidetakse vastupidist, kuid Dragon sai tuntuks tänu sellele, et nad ajendasid kasutajaid dikteerimistarkvara oma hääle jaoks koolitama). Ja see nõudis, et kasutajad räägiksid vaevaliselt: Draakon tundis minutis vaid 30–40 sõna; inimesed räägivad sellest tavaliselt neli korda kiiremini.

Kuid see töötas piisavalt hästi, et Dragon saaks kasvada sadade töötajatega ja tervishoiu, seaduste ning muu valdkonna klientideks. 1997. aastaks tutvustas ettevõte Dragon NaturallySpeaking, mis võis sõnu hõivata sujuvamas tempos - ja 150 dollari juures palju madalamat hinnasilti⁸.

Isegi nii on võinud olla nii palju irve kui rõõmuhüüdeid: kui ASR-i ümber on tänapäeval tarbijate skeptitsism, peaks osa krediidist minema nende varasemate toodete liiga entusiastlikule turustamisele. Kuid ilma tööstuse pioneeride James ja Janet Bakeri (kes asutasid Dragon Systems 1982. aastal) pingutusteta võis ASR-i tootmine võtta palju kauem aega.

November 1993, ajakiri IEEE

Kus kõnetuvastus - järg

25 aastat pärast J. R. Pierce'i paberväljaande avaldamist avaldas IEEE järelmeetme pealkirjaga „Kuhu kõnetuvastus: järgmised 25 aastat⁵“, mille autorid olid Bell Laboratories (sama asutus, kus Pierce töötas) kaks vanemat töötajat.

Viimane artikkel annab ülevaate tööstuse olukorrast umbes 1993. aastal, kui paber ilmus - ja on omamoodi ümberlükkamine originaali pessimismile. Selle kaasavõtmiste hulgas:

  • Pierce'i kirja põhiküsimus oli tema eeldus, et kõnetuvastuse kasulikuks muutmiseks peavad arvutid mõistma, mida sõnad tähendavad. Tolle aja tehnoloogiat arvestades oli see täiesti teostamatu.
  • Teatud mõttes oli Pierce'il õigus: 1993. aastaks oli arvutitel keelest puudulik arusaam - ja 2018. aastal on neil ikka veel kurikuulsad tähendused.
  • Pierce'i viga seisnes selles, et ta ei osanud ette näha hulgaliselt kõnetuvastuse viise, isegi kui arvuti ei tea, mida sõnad tegelikult tähendavad.

Whhereli järk lõpeb prognoosiga, ennustades, kuhu suundub ASR pärast 1993. aastat. Jagu on varjatud nätskete hekkidega (“Me ennustame enesekindlalt, et vähemalt üks neist kaheksast ennustusest osutub valeks”) - kuid see on sama intrigeeriv. Nende kaheksa ennustuse hulgas:

  • "Aastaks 2000 saab rohkem inimesi kaugteavet hääldialoogide kaudu, kui tippides käsud arvuti klaviatuuridele, et pääseda juurde kaugandmebaasidele."
  • „Inimesed õpivad oma kõneharjumusi muutma kõnetuvastusseadmete kasutamiseks, just nagu nad on oma kõnekäitumist muutnud, et jätta sõnumid automaatvastajasse. Ehkki nad õpivad seda tehnoloogiat kasutama, kurdavad inimesed alati kõnetuvastajate üle. ”

Tume hobune

Selle sarja eelseisva osamaksetena uurime viimaseid arenguid ja automaatse kõnetuvastuse hetkeseisu. Spoileri hoiatus: närvivõrgud on mänginud peaosa.

Kuid närvivõrgud on tegelikult sama vanad kui enamik siin kirjeldatud lähenemisviise - need võeti kasutusele 1950ndatel¹! Alles tänapäevase arvutusvõimsuse (koos palju suuremate andmekogumitega) muutisid nad maastikku.

Kuid me jõuame endast kaugemale. Olge kursis meie järgmise automaatse kõnetuvastuse postitusega, järgides kirjeldust keskkonnas, Twitteris või Facebookis.

Ajaskaala Juang & Rabiner¹ kaudu

Märkus: ASR-i ajalugu on täis rohkem panustajaid ja uuendusi, kui me selles tükis suudame üksikasjalikult kirjeldada; oleme katnud mõned peamised verstapostid ja lisanud allpool lingid edasiseks lugemiseks. Kui oleme millestki elulisest ilma jäänud, andke meile sellest teada!

Lisalugemist

Selle tüki kirjutamisel oli abiks allikad, millest mõned lähevad palju üksikasjalikumalt:

  1. Automaatne kõnetuvastus - tehnoloogia arengu lühiajalugu. B.H. Juang & Lawrence R. Rabiner. Kui olete huvitatud ASR-i laiemast ajaloost, on see suurepärane ressurss.
  2. Shoebox - IBMi ajaloo eksponaadid

3. Kuhu kõnetuvastus? - J. R. Pierce

4. Esmakordne: varjatud Markovi mudel - Lawrence R. Rabiner

5. Kus kõnetuvastus: järgmised 25 aastat - D.B. Roe ja J.G. Wilpon

6. Kõne ja hääletuvastuse ajaskaala - Vikipeedia

7. Kõnetuvastus - Vikipeedia

8. Fortune artikkel Dragon Naturally Speakingi kohta, 1998 - Shaifali Puri

9. Frederick Jelinek, kes andis masinatele inimese kõne võtme, suri 77-aastaselt - Steve Lohr

10. Viiskümmend aastat kõnes ja kõnelejate äratundmises - Sadaoki Furui

Tänu Armeet Fariale ja Adam Janinile Remeetingust, kes pakkusid väärtuslikku ajaloolist konteksti.