Ymmärtäminen äänentunnistuksesta

Kokeile Instrumenttia Ongelmien Poistamiseksi





Kuvittele, että istut rento sohvalla ja vain tilaat tietokoneen, kannettavan tietokoneen tai matkapuhelimen yksinkertaisten tehtävien suorittamiseen, kuten kirjeen kirjoittaminen tai muutaman komennon suorittaminen. Onko se mahdollista?

Tietysti se on, siellä puheentunnistus tulee kuvaan.




Määritelmän mukaan se on ihmisen puheen tunnistamisen prosessi ja dekoodasi sen tekstimuotoon.

Periaate

Perusperiaate äänentunnistus liittyy siihen, että minkä tahansa ihmisen puhe tai sanat aiheuttavat tärinää ilmassa, joka tunnetaan nimellä ääniaallot. Nämä jatkuvat tai analogiset aallot digitoidaan ja käsitellään ja dekoodataan sitten sopiviksi sanoiksi ja sitten sopiviksi lauseiksi.



äänentunnistus

Puheentunnistusjärjestelmän komponentit

Joten mistä puheentunnistusjärjestelmä koostuu?

Puheentunnistusjärjestelmän komponentit

  • Puheensieppauslaite : Se koostuu mikrofonista, joka muuntaa ääniaaltosignaalit sähköisiksi signaaleiksi, ja analogisesta digitaalimuuntimeksi, joka ottaa näytteet ja digitoi analogiset signaalit saadakseen erilliset tiedot, jotka tietokone voi ymmärtää.
  • Digitaalinen signaalimoduuli tai prosessori : Se suorittaa käsittelemättömän puhesignaalin, kuten taajuusalueen muunnoksen, palauttamalla vain vaaditut tiedot jne.
  • Esikäsitelty signaalin tallennus : Esikäsitelty puhe tallennetaan muistiin suorittamaan puheentunnistuksen lisätehtäviä.
  • Viite puhekuviot : Tietokone tai järjestelmä koostuu ennalta määritetyistä puhemalleista tai malleista, jotka on jo tallennettu muistiin ja joita käytetään vertailun viitteenä.
  • Kuvion sovitusalgoritmi : Tuntematonta puhesignaalia verrataan referenssipuhekuvioon todellisten sanojen tai sanamallin määrittämiseksi.
Järjestelmän toiminta

Katsotaan nyt, kuinka koko järjestelmä todella toimii.


Järjestelmän toiminta

  • Puheen voidaan nähdä olevan akustinen aaltomuoto, ts. Signaali, joka kuljettaa viesti-informaatiota. Normaali ihminen, jolla on rajoitettu artikulaattoreiden (puhe) liike, voi tuottaa puhetta keskimäärin 10 ääntä sekunnissa. Keskimääräinen tiedonsiirtonopeus on noin 50-60 bittiä sekunnissa. Se tarkoittaa, että puhesignaalissa tarvitaan vain 50 bittiä sekunnissa. Mikrofoni muuntaa tämän akustisen aaltomuodon analogisiksi sähköisiksi signaaleiksi. Analogia-digitaalimuunnin muuntaa tämän analogisen signaalin digitaalisiksi näytteiksi mittaamalla tarkasti aallon erillisin välein.
  • Digitalisoitu signaali koostuu jaksollisten signaalien virrasta, joka on näytteistetty 16000 kertaa sekunnissa, eikä se sovellu todellisen suorittamiseen puheentunnistus prosessia, koska kuviota ei voida helposti löytää. Todellisen informaation purkamiseksi signaali aikatasossa muunnetaan signaaliksi taajuusalueella. Tämän tekee digitaalinen signaaliprosessori FFT-tekniikkaa käyttäen. Digitaalisessa signaalissa komponentti 1/100 väleinthsekunnin ajan analysoidaan ja kunkin tällaisen komponentin taajuusspektri lasketaan. Toisin sanoen digitoitu signaali on jaettu pieniin osiin taajuuksien amplitudeja.
  • Jokainen segmentti tai taajuuskaavio edustaa ihmisten tekemiä erilaisia ​​ääniä. Tietokone suorittaa tuntemattomien segmenttien sovittamisen tietyn kielen tallennettujen foneettisten ominaisuuksien kanssa. Tämä kuvion sovitus tapahtuu kolmella tavalla:

Akustisen foneettisen lähestymistavan käyttö : Akustisessa foneettisessa lähestymistavassa käytetään yleensä piilotettua Markov-mallia. Tämä malli kehittää ei-deterministisen todennäköisyysmallin puheen tunnistamiseen. Tämä malli koostuu kahdesta muuttujasta - tietokoneen muistiin tallennettujen foneemien piilotetut tilat ja digitaalisen signaalin näkyvä taajuussegmentti. Jokaisella foneemalla on oma todennäköisyytensä ja segmentti sovitetaan foneemiin todennäköisyyden mukaan ja sovitetut foneemit kerätään sitten yhteen muodostamaan oikeat sanat kielen tallennettujen kielioppisääntöjen mukaisesti.

Käyttämällä mallin tunnistustapaa : Kuvion tunnistusmenetelmässä järjestelmää koulutetaan tietyllä puhemallilla mille tahansa kielelle ja tuntematonta puhekuviota verrataan referenssipuhekuvioon määrittelemällä signaalien välinen etäisyys aikaeristystekniikalla.

Tekoälyn käyttäminen : Tekoäly-lähestymistapa perustuu perustietolähteiden, kuten spektrimittausten perusteella puhuttujen äänien, oikeiden merkityksellisten ja syntaktisten sanojen, hyödyntämiseen.

Tekijät, joista puheentunnistusjärjestelmä riippuu

Puheentunnistusjärjestelmä riippuu seuraavista tekijöistä:

  • Eristetyt sanat : Peräkkäisten lausuttujen sanojen välillä on oltava tauko, koska jatkuvat sanat voivat olla päällekkäisiä, mikä vaikeuttaa järjestelmän ymmärtämistä, kun sana alkaa tai päättyy. Siksi peräkkäisten sanojen välillä on oltava hiljaisuus.
  • Yksi kaiutin : Monet puhujat samanaikaisesti yrittävät puhujat voivat aiheuttaa signaalien päällekkäisyyksiä ja keskeytyksiä. Suurin osa käytetyistä puheentunnistusjärjestelmistä on kaiuttimesta riippuvia järjestelmiä.
  • Sanaston koko : Kieliä, joilla on suuri sanasto, on vaikea ottaa huomioon mallin sovituksessa kuin niitä, joilla on pieni sanasto, koska epäselvät sanat ovat pienemmät mahdollisuudet jälkimmäisessä.
Puheentunnistusjärjestelmä Windows 7: ssä

Haluaisin suositella seuraavia vaiheita kaikille henkilöille, jotka käyttävät Windows 7: tä puheentunnistusjärjestelmässä

  • Avaa Ohjauspaneeli Käynnistä-valikosta tai napsauttamalla kuvaketta.
  • Valitse Helppokäyttöisyys ja napsauta sitten Puheentunnistus.
  • Napsauta sitten Määritä mikrofoni ja valitse työpöydän mikrofoni käytettävissä olevista vaihtoehdoista.
  • Ota seuraavaksi puheopastus ja noudata annettuja ohjeita.
  • Sen jälkeen kouluta tietokonetta parempien vaihtoehtojen saamiseksi, jotta tietokone tallentaa tietyn puhesignaalin kuvion. Tämä tapahtuu napsauttamalla vaihtoehtoa 'kouluta tietokoneesi ymmärtämään sinua paremmin' ja seuraa sitten ohjeita.
  • Käynnistä nyt puheentunnistuskuvake ja aloita sanelemaan puhetta tietokoneelle. Voit myös lisätä omat sanasi tietokonesanakirjaan.
Käytännölliset puheentunnistusjärjestelmät: HM2007: n käyttö

Käytännön puheentunnistusjärjestelmä voidaan rakentaa puheentunnistus-IC: llä HM2007 . HM2007 on 48-nastainen IC, joka tarjoaa puheentunnistustoiminnon. Se toimii kahdessa tilassa: manuaalitilassa tai suorittimen tilassa. Kummassakin tilassa IC koulutetaan ensin tunnistamaan sanat, kun käyttäjä sanoo jokaisen sanan vastaavaa numeroa varten, joka on painettu näppäintä. IC tallentaa kukin sanasignaalin sanaa vastaavaan muistipaikkaan. IC: n data on liitetty mikrokontrolleriin, mistä se näkyy nestekidenäytössä.

Käytännön puheentunnistusjärjestelmät

Normaalisti käytämme manuaalista tilaa HM2007-käyttöön.

  • HM2007 koostuu RDY-nastasta, joka on aktiivinen matala tappi, joka osoittaa, että IC on valmis harjoittelua varten.
  • Äänitulo annetaan mikrofonin kautta, joka on kytketty mikropiirin MICIN-nastaan.
  • IC on liitetty näppäimistöön, jota käytetään kutakin sanaa vastaavan numerosyötön aikaansaamiseksi. IC toimii kahdessa toiminnossa - Clear ja Train. Kun Train-näppäintä painetaan näppäimistöllä, IC aloittaa harjoitusprosessin.
  • Käyttäjä painaa numeronäppäintä ennen toimintopainikkeen ”Juna” painamista ja sanoo tarvittavan sanan mikrofonille.
  • IC lähettää korkean signaalin ME (Memory Enable) -tapille, joka on kytketty vastaavaan SRAM: n ME-nastaan. Painettua numeroa vastaava 8-bittinen datasignaali tallennetaan SRAM-muistiin (ulkoinen RAM) ulkoisen väylän kautta.
  • Kun puhesyöttö on havaittu, RDY-nasta on logiikkakorkealla ja IC siirtyy tunnistustilaan, jossa se aloittaa tunnistamisprosessin.
  • Prosessin tulos annetaan tietoväylän kautta DEN (Data Enable) -tappi korkealla.
  • 8-bittinen data voidaan sitten antaa mikro-ohjaimelle sarjarajapintaprosessorin kautta tai ensin lukita salvan IC 74HC573 avulla.
  • Mikrokontrolleri on liitetty nestekidenäyttöön ja se on ohjelmoitu siten, että vastaava sana näkyy näytöllä.

Ainoa varotoimenpide, joka on noudatettava, on olla käyttämättä homonyymejä (sanat, joilla on samanlainen ääni) ja huolehtia myös äänen herätteestä.

Joten, tämä on kaikki miten puheentunnistusjärjestelmä toimii. Muita syötteitä voidaan lisätä.

Kuvahyvitys

  • Puheentunnistusjärjestelmä Gstatic
  • Puheaaltomuodon manipulointi Dadisp

Puheentunnistusjärjestelmän komponentit puheen johdossa ja puhujien tunnistamisessa - Richard D. Peacocke ja Daryl H. Graf