Parannettu ominaisuusparametrien erottaminen puhesignaaleista koneoppimisalgoritmin avulla(2)
May 30, 2023
3.7. Tietojoukko Tietojoukon keruu- ja generointiprosessit suoritettiin seuraavasti. Tässä tutkimuksessa mallikoulutukseen käytettiin aineistoa, jossa oli 120 tuntia ääntä. Aineisto sisältää puheäänitallenteita, jotka koostuvat enintään 15 sanan pituisista lauseista, joiden kokonaispituus on noin 120 tuntia.

Aavikon ginseng
Lisäksi aineisto sisältää suuren määrän erilaista tekstiä käytettäväksi kielimallin kehittämisessä. Yli 90 650 lausumaa, 415 780 sanaa ja 65 810 ainutlaatuista sanaa, jotka sisältyivät tekstikorpukseen, kerättiin, mikä johti noin 120 tuntia litteroitua puhedataa. Jaamme tietojoukon koulutus-, validointi- ja testisarjoiksi. Tietojoukon tilastot
on raportoitu taulukossa 3.
Taulukko 3. Tietojoukon tekniset tiedot.

Jaoimme tietojoukon kolmeen kansioon, jotka vastaavat koulutus-, validointi- ja testijoukkoja. Jokainen kansio sisältää äänitallenteita ja transkriptioita. Ääni- ja vastaavat transkriptiotiedostojen nimet ovat samat, paitsi että äänitallenteet tallennetaan WAV-tiedostoina, kun taas transkriptiot tallennetaan TXT-tiedostoina UTF{0}}-koodauksella. Kaikki transkriptiot on esitetty latinalaisilla aakkosilla, jotka koostuvat 29 kirjaimesta ja heittomerkkisymbolista. Ylisovituksen estämiseksi sovelsimme tiedon lisäystekniikoita, jotka perustuvat nopeuden häiriöihin ja spektrin parantamiseen.

Cistanche deserticola
4. Ehdotettu menetelmä
Ohjelmoijien tärkeä tehtävä puheentunnistusjärjestelmiä kehitettäessä on optimaalisen menetelmän luominen puhesignaalien parametriseen ilmaisuun [45]. Tämä menetelmä mahdollistaa äänten ja puhuttujen sanojen erinomaisen erottelun varmistaen samalla, että kaiuttimet eivät ole herkkiä ääntämistapoille ja akustisen ympäristön muutoksille. Useimmat sanantunnistuksen virheet johtuvat signaalin korkeuden muutoksesta, joka johtuu mikrofonin siirtymisestä tai ääntämisen äänenkorkeuden erosta [46]. Toinen yleinen virheiden syy on spektrin muodon satunnaiset epälineaariset muodonmuutokset, joita esiintyy aina puhujan puhesignaalissa [47,48]. Siksi yksi tärkeimmistä tehtävistä tehokkaiden puheentunnistusjärjestelmien luomisessa on sellaisen esityksen valinta, joka on riittävä analysoitavan signaalin sisällölle sekä tuntematon puhujien äänelle ja erilaisille akustisille ympäristöille.

Cistanche-lisä lähellä minua - Muistin parantaminen
Ominaisuusparametrien poimimiseen käytetyllä järjestelmällä on tyypillisesti seuraavat vaatimukset. Tietosisällön eli ominaisuusparametrien joukon tulee varmistaa tunnistettavien puheelementtien luotettava tunnistaminen. Lisäksi äänenvoimakkuus eli äänisignaalin maksimikompressio ja parametrien ei-statistinen korrelaatio tulee minimoida. Myös riippumattomuus puhujasta on saavutettava, eli puhujan ominaisuuksiin liittyvä informaatio poistetaan mahdollisimman paljon merkkivektorista. Lopuksi on esitettävä homogeenisuus, joka viittaa parametreihin, joilla on sama keskimääräinen varianssi, ja kykyä käyttää yksinkertaisia mittareita merkistöjen välisen affiniteetin määrittämiseen [49]. Aina ei kuitenkaan ole mahdollista täyttää kaikkia vaatimuksia samanaikaisesti, koska ne ovat ristiriitaisia. Puheelementtien parametrisen kuvauksen tulee olla riittävän yksityiskohtainen erottaakseen ne luotettavasti ja olla mahdollisimman lakoninen.

Teräsmies yrtit cistanche
Käytännössä mikrofonista tuleva puhesignaali digitoidaan näytteenottotaajuudella 8-22 kHz. Numeeriset sarjaarvot on jaettu 10-30 ms:n pituisiin puhefragmentteihin (kehyksiin), jotka vastaavat kvasistinaarisia puheosia. Jokaisesta kehyksestä lasketaan piirteiden vektori, jota käytetään myöhemmin puheentunnistuksen akustisella tasolla. Tällä hetkellä on saatavilla laaja valikoima menetelmiä signaalien parametriseen esittämiseen perustuen autokorrelaatioanalyysiin, laitteiston lineaariseen suodatukseen, spektrianalyysiin ja LPC:hen. Yleisin lähestymistapa puheen parametrointiin on signaalifragmenttien spektrianalyysi ja niiden kestraalikertoimien laskenta.
MFCC:itä on käytetty puhesignaalin informatiivisina ominaisuuksina [41]. Näitä ominaisuuksia käytetään laajasti puheentunnistuksessa, ja ne perustuvat kahteen pääkonseptiin: cepstral- ja Mel-asteikot. Algoritmin tärkeimmät edut ovat sen korkea tuttuus ja puheen helppous. MFCC-ominaisuudet on erotettu tallennetuista puhesignaaleista. MFCC-algoritmi käyttää äänitteen ja spektrinvaihtoalgoritmien tuloksia. Klassinen algoritmi, jota käytetään MFCC:iden laskemiseen, on kuvattu kuvassa 5.

Kuva 5. Klassinen malli MFCC:iden laskentaan.
Tämä tutkimus esittelee nopean menetelmän funktioparametrien poimimiseksi puhesignaalista. Ehdotettu algoritmi MFCC:iden nopeaan laskemiseen on esitetty kuvassa 6.

Kuva 6. Ehdotettu viitekehys MFCC:n laskentaan.
Tarkastellaan ehdotetun algoritmin suoritussekvenssiä funktioparametrien nopeaan erottamiseen puhesignaalista
4.1. Jako kehyksiin
Esisuodatuksen jälkeen puhesignaali jaetaan 16 ms:n kehyksiin. Jokainen kehys (lukuun ottamatta ensimmäistä) sisältää edellisen kehyksen viimeiset 10 ms. Tämä prosessi jatkuu signaalin loppuun asti. Koska tässä tutkimuksessa puhesignaalin näytteenottotaajuus on 16 kHz, kehyksen pituus on N=256 ja offset-pituus M=160. Päällekkäisyys on 62,5 prosenttia kehyksen pituudesta. Yleensä suositellaan 50–75 prosentin peittävyyttä kehyksen pituudesta.
4.2. Hanning-ikkuna ja laskevat arvot
Käytettiin Hanningin ikkunan kokoa 1D. Hanning-ikkunaa kutsutaan myös korotetuksi kosiniikkunaksi. Hanning-ikkunaa voidaan pitää kolmen suorakaiteen muotoisen aikaikkunan taajuusspektrin summana. Se voi käyttää sivukeiloja kumoamaan toisensa poistaen korkeataajuiset häiriöt ja energiavuodot. Hanning-ikkunat ovat erittäin hyödyllisiä ikkunatoimintoja.

Cistanche-lisä lähellä minua - Muistin parantaminen
Napsauta tästä nähdäksesi Cistanche Muistia parantavia ja Alzheimerin tautia estäviä tuotteita
【Kysy lisää】 Sähköposti:cindy.xue@wecistanche.com / Whats App: 0086 18599088692 / Wechat: 18599088692
Painolaatikkoa käytetään vähentämään vääristymiä ja tasoittamaan yksittäisiä kehyksiä. Tässä tutkimuksessa tutkittava kelluva signaali koostuu tiheästä sävelestä. Tasaisen sävyn voimakkuuden määrää puhtaan äänen voimakkuus taajuudella f, joka suodatetaan Hanning-ikkunan läpi.
Tämän ikkunan kriittinen puoli on, että se asettaa kehysten reunat nollaan. Tässä tapauksessa lyhyet energiat voidaan laskea kulkiessaan ikkunan läpi ja ne voidaan siirtää sekvenssistä, jota käytetään alimman amplitudienergian laskemiseen. Tavoitteena on poistaa matalan energian signaalit signaalista laskemalla signaalin energia samalla tasaamalla signaalia tästä ikkunasta. Tämä prosessi vaatii seuraavan signaalienergiayhtälön:

missä En on tulosignaalin fragmentin energia ja xi on signaalin arvo.
Ikkunaprosessin lisäksi (11) signaali käsitellään seuraavassa vaiheessa, mikä vähentää merkittävästi prosessoriin tulevien arvojen määrää. Kuvassa 7 on esitetty rinnakkaiskäsittelyalgoritmi.
Ikkunan koko edustaa näytteiden määrää ja kestoa. Se on analyysin pääparametri. Ikkunan koko riippuu perustaajuudesta, intensiteetistä ja signaalin muutoksista.

Kuva 7. Hanning-ikkuna-algoritmi hiljaisten osien poistamiseen. 4.3. STFT (Short-Time Fourier Transform) -kytkimet Korkean tai matalan korkeuden merkityksestä on olemassa intuitiivinen käsitys. STFT on Fourier-muunnos, jota käytetään signaalin paikallisten osien sinimuotoisen taajuuden ja vaihesisällön määrittämiseen sen muuttuessa ajan myötä. Käytännössä STFT-laskenta käsittää pidemmän ajan signaalin jakamisen lyhyimmiksi samanpituisiksi segmenteiksi, jota seuraa erillinen Fourier-muunnoslaskenta jokaisessa lyhyemmässä segmentissä. Tämä paljastaa kunkin lyhyemmän segmentin Fourier-spektrin. Diskreettiaikaiset signaalit ovat käytetään käytännössä. Vastaava aika-taajuusmuunnos on diskreetti Fourier-muunnos, joka kuvaa signaalin Xn pituutta edustavana N:n kertoimen kompleksiarvon taajuusaluetta. STFT, joka kuvaa taajuuskomponenttien kehitystä ajan kuluessa, on yksi laajimmin käytetyistä puheen analysoinnin ja käsittelyn työkaluista [50]. Kuten itse spektrin, yksi STFT:n etu on, että sen parametreilla on fyysiset ja intuitiiviset tulkinnat. STFT visualisoidaan tyypillisesti käyttämällä log-spektrejä 20log10 (X(h, k)). Tällaisia 2D-logispektrejä voidaan sitten tarkastella spektrogrammina tunnetun lämpökartan avulla. Algoritmin kolmannessa vaiheessa STFT-spektrikytkentäproseduuria sovelletaan kehyksiin, jotka kulkevat painoikkunan läpi. Signaalin STFT saadaan avaamalla ikkunat ja määrittämällä kunkin ikkunan DFT. Erityisesti tulosignaalin Xn- ja Wn-ikkunoiden muunnos määritetään seuraavasti:

jossa k-indeksi vastaa taajuusarvoja ja wn on ikkunafunktio, joka on yleensä Hanning-ikkuna tai Gaussin ikkuna, joka on keskitetty nollan ympärille.
4.4 Mel Transform
Neljännessä vaiheessa taajuuskaistalle siirrettävä signaali jaetaan kolmiomaisten fifilterien avulla alueisiin. Fifilter-rajat lasketaan liidun taajuudella. Siirtyminen liitutaajuuden fifieldiin perustuu seuraavaan yhtälöön:

missä f on taajuusalue.
Käänteinen kytkin määritetään seuraavasti:

Tarkastellaan NN:tä fifilterien (yleensä käytetään 26 fifilteriä) ja flflow-määränä, niin korkeana kuin tutkittava taajuusalue. Tämä alue siirretään Mel-asteikolle ja jaetaan NN tasaisesti jakautuneisiin leikkausalueisiin. Lineaariset taajuudelle sopivat rajat määritetään fikentän sisällä, kun taas fisuodatuksen perusteella saadut painotuskertoimet on merkitty H:lla. Tämän jälkeen fifilterit kohdistetaan Fourier-muunnoksen avulla saatujen kertoimien neliömoduuliin. Saadut arvot ovat logaritmisia seuraavasta lausekkeesta johtuen:

Yksittäisen arvon hajottelualgoritmi toteutetaan MFCC:n laskennan viimeisessä vaiheessa.
5. Kokeelliset tulokset
Totesimme ja testasimme ehdotetun menetelmän Visual Studio 2019 C plus plus -sovelluksessa PC:llä, jossa on 4,90 GHz:n prosessori, 32 Gt RAM-muistia ja kaksi Nvidia GeForce 2080Ti -grafiikkasuoritinta taulukon 4 mukaisesti. Järjestelmää testattiin eri laiteympäristöissä. arvioida signaalin piirteiden erotusmenetelmän suorituskykyä. Kokeissa algoritmin toiminnan aikana (kuva 8), kun signaalin pintojen järjestys oli n=15, arvojen lukumäärä pieneni 40-50 prosenttia ja käsittelyaika piteni 1. 2-taittaa. Tämän seurauksena tämä algoritmi osoitti huomattavasti korkeampaa tehokkuutta. Lisäksi tämä algoritmi mahdollisti hiljaisten alueiden erottamisen ja poistamisen Hanning-ikkunan läpi kulkemisen aikana.
Muistin kaistanleveyden tuhlaamisen välttämiseksi on käytettävissä useita mahdollisia keinoja. Ehdotamme uutta ratkaisua, joka lisää laskentatehoa sovittamalla signaalikehysten koon välimuistin lohkokokoon. Tämän tyyppinen optimointi voi merkittävästi vaikuttaa yleiseen rinnakkaiskäsittelyn suorituskykyyn. Sitä voidaan kuitenkin käyttää digitaalisessa signaalinkäsittelyssä jakamalla signaali kehyksiin moniytimisprosessorien toteutuksilla. Käytännössä valinta tehdään kuitenkin yleensä pienessä mittakaavassa, joka vastaa välimuistin päämuistiin yhdistävän dataväylän leveyttä ja sen lohkon kokoa. Menetelmämme toteuttaa näiden muistien optimaalisen käytön rinnakkaislaskennassa. Välimuistin organisoinnilla on olennainen rooli rinnakkaiskäsittelyalgoritmeissa datan jakamisessa virroiksi. Erityisesti vektorimatriisiefektien läsnäoloa digitaalisessa signaalinkäsittelyssä ja niiden virtojen kokoa tulisi säätää välimuistilohkojen koon mukaan. Tämä voidaan saavuttaa käyttämällä ehdotettua menetelmää, kuten kuvassa 9 on esitetty.
Taulukko 4. Kokeellisen järjestelyn yksityiskohtaiset spesifikaatiot.


kuva 8. (a) Ensimmäinen saapuva signaali ja (b) signaalin ilmestyminen ehdotetun algoritmin soveltamisen jälkeen.

Kuva 9. Rinnakkaislaskentarakenne RK3288-prosessoreilla.
Tässä osiossa keskustelemme kvantitatiivisesta analyysistä eri järjestelmien suorituskyvyn vertaamiseksi. Vertasimme menetelmäämme tunnettuihin puheentunnistusalgoritmeihin, jotka perustuvat syväoppimisen lähestymistapoihin. Arviointimittarit ovat välttämättömiä erilaisten puheentunnistusstrategioiden laskennassa ja eri lähestymistapojen suorituskyvyn arvioinnissa. Vaikka käytimme vertailuna muiden tutkimusten tuloksia, emme ole varmoja, pitävätkö ne paikkansa, koska näiden menetelmien lähdekoodit ja tietojoukot eivät ole julkisesti saatavilla todellisen suorituskyvyn tarkistamiseksi. Kuva 10 esittää tuloksen hiljaisten osien siirtämisestä puhesignaalin fragmentin kulkiessa Hanning-ikkunan läpi ehdotetun nopean algoritmin perusteella. Analyysista saadut nopeustulokset on esitetty taulukossa 5.

Kuva 10. KNN-algoritmin k-arvo (ominaisuuden valinnalla).
Taulukko 5. Ehdotetun menetelmän kokeelliset tulokset.

Alue on määritetty, jotta löydettäisiin se lähialueen aste, joka antaa parhaan tarkkuusarvon KNN-algoritmissa. Määritelty alue kattaa 1–25. Kuvassa 10 käytettiin KNN-algoritmin kuvaajaa piirteiden valinnalla. Graafia tarkasteltaessa, kun naapuruston arvo oli alussa 1, harjoitustarkkuus oli paljon suurempi kuin testin tarkkuus. Korrelaatiolla valituilla ominaisuuksilla luodussa KNN-algoritmissa mallin tarkkuus määritettiin koulutusaineistossa 99,15 prosenttia ja testiaineistossa 97,35 prosenttia.
Sanavirhesuhdetta (WER) tai merkkivirhesuhdetta käytetään tyypillisesti arvioimaan puhesignaalista piirteiden poimimisen tarkkuutta. Nämä ovat objektiivisia matriiseja, joista on apua tunnistustekniikoiden tasapuolisessa vertailussa. Aiemmissa tutkimuksissamme [51–56] laskimme mittareita, kuten F-mitta (FM), tarkkuus ja muistaminen. FM on painotettu keskiarvo, joka tasapainottaa mittaukset tarkkuus- ja palautusnopeuden välillä. Tarkkuus on oikein ennustettujen positiivisten havaintojen lukumäärän suhde ennustettujen positiivisten havaintojen kokonaismäärään. Muistutus on oikein ennustettujen positiivisten havaintojen lukumäärän suhde todellisen luokan havaintojen kokonaismäärään, kuten kohdassa (9) on esitetty. Seuraavia yhtälöitä voidaan käyttää piirteiden erotusmenetelmien keskimääräisen tarkkuuden ja palautusnopeuden laskemiseen:

missä TP tarkoittaa todellisten positiivisten lukumäärää, FP tarkoittaa väärien positiivisten lukumäärää ja FN tarkoittaa väärien negatiivisten lukumäärää.
FM lasketaan käyttämällä (10), ottaen huomioon sekä tarkkuus että palautus.

Ehdotetun menetelmän keskimääräinen FM, muistaminen ja tarkkuus oli 98,4 prosenttia. Väärä tunnistus tapahtui 1,6 prosentissa tapauksista mikrofonin signaalien ei-toivotun kohinan vuoksi. Mallin tarkkuusalue oli välillä 0 - 1, ja metrien estimointipisteet saavuttivat parhaat arvonsa arvolla 1. Arvio menetelmästämme ja muista äskettäin julkaistuista puhepiirteiden erotusmenetelmistä on esitetty taulukossa 6. Sama luku ominaisuuksia käytettiin oikeudenmukaiseen vertailuun. Jokaisesta ryhmästä analysoitiin yhteensä 325 puhenäytettä henkilöiltä, joilla oli samanlainen tausta. Tarkkuuden parantamiseksi tutkittiin myös eri kehyspituuksien vaikutuksia MFCC:n fifilter-pankkien lukumäärän mukaan ja eri kehyspituuksia LPC:n järjestyksessä.
Taulukko 6. Puheen piirteiden poiminnan kvantitatiiviset tarkkuustulokset.

Kuten aiemmin mainittiin, WER on yleisin puheentunnistuksen suorituskyvyn mitta. Se lasketaan vertaamalla referenssitranskriptiota puheentunnistimen ulostuloon. Tämän vertailun perusteella on mahdollista laskea virheiden määrä, jotka tyypillisesti kuuluvat kolmeen kategoriaan: (1) lisäykset, kun sanaa ei ole automaattisen puheentunnistuksen (ASR) lähdössä olevassa viitteessä, (2) poistot, kun sana puuttuu ASR-lähdöstä, ja (3) korvaukset, kun sana sekoitetaan toiseen sanaan. WER voidaan laskea seuraavasti.

missä S on virheellisesti tunnistettujen sanojen substituutioiden lukumäärä, D on deleetioiden lukumäärä, I on lisäysten lukumäärä ja N on viitetranskription sanojen lukumäärä. Suurin ongelma tämän pistemäärän laskemisessa on kahden sanan sekvenssien välinen kohdistus. Tämä voidaan määrittää dynaamisen ohjelmoinnin avulla käyttämällä Levenshtein-etäisyyttä [67].
Taulukon 6 perusteella suoritimme tilastollisen analyysin vertailtujen menetelmien keskimääräisen tarkkuuden osoittamiseksi käyttämällä WER-arviointimetriikkaa, kuten kuvassa 11 on esitetty. Parannettu ominaisuuspoimija tuotti noin 98,4 prosentin tarkkuuden, kun taas muut lähestymistavat antoivat tarkkuuden välillä 78 prosenttia ja 96 prosenttia. Käytimme vertailuun asiaankuuluvissa papereissa annettuja tuloksia; Näiden arvojen tarkkuutta ei kuitenkaan ole helppo todentaa, koska näiden menetelmien lähdekoodit ja tietojoukot eivät ole julkisesti saatavilla niiden todellisen suorituskyvyn vahvistamiseksi. Kuitenkin standardikohtausten tapauksessa ehdotetun menetelmän osoitettiin kokeellisesti tarjoavan erinomaisen puhepiirteiden erottelutarkkuuden vähentämällä laskenta-aikaa, vaikka puhedata olisi kohinaista tai huonolaatuista.

Kuva 11. Kvantitatiiviset tulokset puhesignaalin piirteiden erotusmenetelmistä pystysuunnassa käytettäviä kuvaajia käyttäen.
Lisäksi arvioimme valittujen menetelmien vääriä positiivisia tuloksia. Kuten kuvasta 12 voidaan havaita, ehdotetussa lähestymistavassa oli vähiten virheitä. Lisäksi erittäin tehokas rinnakkaislaskentamenetelmä vähensi merkittävästi äänisignaalin ominaisuuden valinta- ja erotusvirheitä. Yliasennus oli yksi tärkeimmistä ongelmista koulutuksen aikana ja lähes kaikki koneoppimismallit kärsivät siitä. Yritimme vähentää yliasennusriskiä käyttämällä ominaisuuden valintatekniikkaa, jonka tarkoituksena on sen sijaan luokitella olemassa olevien ominaisuuksien tärkeys tietojoukossa ja hylätä vähemmän tärkeät (uusia ominaisuuksia ei luoda).

Kuva 12. Näkyvät tulokset väärien positiivisten puhesignaalien erotuskokeista.
Taulukossa 7 on esitetty puheentunnistusympäristöissä käytettyjen menetelmien suorituskykytulokset eri ominaisuuksien perusteella. Ehdottamamme lähestymistapa ei kärsi ei-toivotusta ja tarpeettomasta taustamelusta, eikä siihen vaikuta huonolaatuiset ihmisäänet, kuten käheät äänet, kurkkukipujen aiheuttamat äänet tai edes ihmisten äänet, joilla on täydellinen äänihäviö. Menetelmällämme pyritään voittamaan riittämättömät äänityslaitteet, taustamelu, vaikeita aksentteja ja murteita sekä erilaisia äänenkorkeusasteita koskevat ongelmat. Normaalissa ympäristössä parhaat tulokset puheominaisuuksien haasteiden tarkkaan havaitsemiseen ja poimimiseen saatiin ehdotetulla menetelmällä lyhyemmällä käsittelyajalla.
Taulukko 7. Katsaus puheominaisuuksien havaitsemiseen ja poimimiseen eri ominaisuuksien avulla.

Puheentunnistusmenetelmien tulokset luokiteltiin voimakkaiksi, normaaleiksi tai heikoiksi seitsemään kategoriaan. Tehokas kriteeri osoittaa, että algoritmi voi voittaa kaikenlaiset haasteet. Sitä vastoin normaali kriteeri osoittaa, että algoritmi saattaa epäonnistua tietyissä tapauksissa, koska sanarajoja ei ole määritelty etukäteen. Lopuksi heikko kriteeri viittaa siihen, että algoritmi on epäluotettava taustamelun tai tärinän alla.
6. Rajoitukset
On vaikea päätellä, että tähän mennessä ehdotetuissa menetelmissä ei ole puutteita. Ehdottamamme menetelmä voi myös aiheuttaa virheitä erilaisista meluympäristöistä johtuen. Tämän ongelman ratkaisemiseksi pyrimme vähentämään tietojoukon ominaisuuksien määrää luomalla uusia ominaisuuksia olemassa olevista ominaisuuksista [69]. Koska yliasennus oli yksi tärkeimmistä kysymyksistä eri mallien harjoittelussa kilpailun aikana, harjoitustietojen rikastaminen lisäämällä tietonäytteitä eri resursseista voisi olla mahdollinen ratkaisu tulosten parantamiseen. Huolimatta edellä mainituista ongelmista, kokeelliset tulokset paljastivat, että menetelmämme oli erittäin vankka ja tehokas puheen piirteiden poimintatehtävissä, keskimääräisellä tarkkuudella 98,4 prosenttia ja FM:llä 99,5 prosenttia.
7. Päätelmät
Puheentunnistusjärjestelmiin on ehdotettu uutta korkean suorituskyvyn rinnakkaislaskentaa, jossa käytetään koneoppimismenetelmää. Rajoitetun laskentaresurssin omaavien koneiden kiihtyvyysongelmat voidaan ratkaista hajautettujen järjestelmien avulla. Signaalintunnistusjärjestelmien laskentanopeutta voidaan lisätä ja moniytimien alustojen suorituskykyä parantaa luomalla ja käyttämällä tehokkaita ja nopeita algoritmeja. Tulokset osoittavat, että ehdotettu malli lyhentää käsittelyaikaa ja parantaa ominaisuuksien poiminnan tarkkuutta 98,4 prosenttia käyttämällä tehokkaasti MFCC:itä. On havaittu, että piirteiden valinnalla erotetut ominaisuudet, joilla on alhainen korrelaatioarvo, ovat myös tehokkaita mallin onnistumisessa. Esikäsitellyille tiedoille tehtiin tilastollinen analyysi ja tiedoista tuotettiin merkityksellistä tietoa K-lähimpien naapureiden (KNN) koneoppimisalgoritmilla.
Tulevat tutkimukset keskittyvät menetelmämme tarkkuuden parantamiseen käyttämällä syväoppimismenetelmiä ja optimoimalla moniytimisprosessorien välimuistia puhesignaalien havaitsemiseksi ja poimimiseksi ilman merkittävää laadun heikkenemistä. Lisäksi aiomme rakentaa rinnakkaiskäsittelyyn perustuvan spektrianalyysimallin, jolla on vankka analyysisuorituskyky ja joka mahdollistaa sulautettujen laitteiden perustamisen vähäisillä laskentaresursseilla käyttämällä Taris-puheaineistoja [70] 3D CNN- ja 3D U-Net -ympäristössä [71– 75]
Viitteet
1. Meng, YJ; Liu, WJ; Zhang, RZ; Du, HS Speech Feature Parametrien erottaminen ja tunnistus interpoloinnin perusteella. Appl. Mech. Mater. 2014, 602–605, 2118–2123. [CrossRef] 2. Musaev, M.; Rakhimov, M. Nopeutettu koulutus konvoluutiohermoverkkoihin. 2020 International Conference on Information Science and Communications Technologies (ICISCT) julkaisussa, Tashkent, Uzbekistan, 4.–6.11.2020; s. 1–5. [CrossRef] 3. Ye, F.; Yang, J. Deep Neural Network Model for Speaker Identifiction. Appl. Sci. 2021, 11, 3603. [CrossRef] 4. Musaev, M.; Rakhimov, M. Menetelmä päämuistilohkon yhdistämiseksi välimuistiin puhesignaalin rinnakkaiskäsittelyssä. Proceedings of the 2019 International Conference on Information Science and Communications Technologies (ICISCT), Karachi, Pakistan, 9.–10.3.2019; s. 1–4. [CrossRef] 5. Jiang, N.; Liu, T. Parannettu puheen segmentointi- ja klusterointialgoritmi, joka perustuu SOM- ja k-keskiarvoihin. Matematiikka. Probl. Eng. 2020, 2020, 3608286. [CrossRef] 6. Hu, W.; Yang, Z.; Chen, C.; Sun, B.; Xie, Q. Tärinäsegmentointimenetelmä numeerisen ohjausrevolverin monitoimijärjestelmälle. Signaalikuvan videoprosessi. 2021, 16, 489–496. [CrossRef]
7. Popescu, TD; Aiordachioaie, D. Vierintälaakerien vian havaitseminen käyttämällä värinäsignaalien optimaalista segmentointia. Mech. Syst. Signaaliprosessi. 2019, 116, 370–391. [CrossRef] 8. Shihab, MSH; Aditya, S.; Setu, JH; Imtiaz-Ud-Din, KM; Efat, MIA Hybridi GRU-CNN-ominaisuuden erotustekniikka kaiuttimien tunnistamiseen. Proceedings of the 2020 23rd International Conference on Computer and Information Technology (ICCIT), Dhaka, Bangladesh, 19.–21. joulukuuta 2020; s. 1–6. [CrossRef] 9. Korkmaz, O.; Atasoy, A. Tunteiden tunnistus puhesignaalista käyttämällä mel-frekvenssi cepstral kertoimia. In Proceedings of the 9th International Conference on Electrical and Electronics Engineering (ELECO), Bursa, Turkki, 26.–28.11.2015; s. 1254–1257. 10. Ayvaz, U.; Gürüler, H.; Khan, F.; Ahmed, N.; Whangbo, T.; Abdusalomov, A. Automaattinen kaiuttimen tunnistus käyttämällä Mel-Frequency Cepstral -kertoimia koneoppimisen avulla. CMC-tietokone. Mater. Contin. 2022, 71, 5511–5521. 11. Al-Qaderi, M.; Lahamer, E.; Rad, A. Kaksitasoinen kaiuttimen tunnistusjärjestelmä heterogeenisten luokittimien ja täydentävien ominaisuuksien yhteistyön avulla. Anturit 2021, 21, 5097. [CrossRef] 12. Batur Dinler, Ö.; Aydin, N. Optimaalinen ominaisuusparametrijoukko, joka perustuu portitetun toistuvan yksikön toistuviin hermoverkkoihin puhesegmenttien havaitsemiseksi. Appl. Sci. 2020, 10, 1273. [CrossRef] 13. Kim, H.; Shin, JW Dual-Mic Speech Enhancement perustuu TF-GSC:hen vuodonvaimennus ja signaalin palautus. Appl. Sci. 2021, 11, 2816. [CrossRef] 14. Lee, S.-J.; Kwon, H.-Y. Esikäsittelystrategia puhedatan kohinan poistamiseksi puhesegmentin tunnistukseen perustuvasta. Appl. Sci. 2020, 10, 7385. [CrossRef] 15. Rusnac, A.-L.; Grigore, O. CNN Arkkitehtuurit ja piirteiden erotusmenetelmät EEG:n kuvitteelliselle puheentunnistukselle. Sensors 2022, 22, 4679. [CrossRef] [PubMed] 16. Wafa, R.; Khan, MQ; Malik, F.; Abdusalomov, AB; Cho, YI; Odarchenko, R. Ketterän metodologian vaikutus hankkeen menestykseen, ja henkilökunnan työsoveltuvuuden ohjaava rooli Pakistanin IT-alalla. Appl. Sci. 2022, 12, 10698. [CrossRef] 17. Aggarwal, A.; Srivastava, A.; Agarwal, A.; Chahal, N.; Singh, D.; Alnuaim, AA; Alhadlaq, A.; Lee, H.-N. Kaksisuuntainen ominaisuuspoiminta puheen tunteiden tunnistamiseen syväoppimisen avulla. Sensors 2022, 22, 2378. [CrossRef] [PubMed] 18. Marini, M.; Vanello, N.; Fanucci, L. Kaiuttimista riippuvien ominaisuuksien erotusparametrien optimointi dysartriasta kärsivien henkilöiden automaattisen puheentunnistuksen suorituskyvyn parantamiseksi. Sensors 2021, 21, 6460. [CrossRef] 19. Tiwari, S.; Jain, A.; Sharma, AK; Almustafa, KM Fonokardiogrammin signaaliin perustuva moniluokkainen sydändiagnostiikkapäätösten tukijärjestelmä. IEEE Access 2021, 9, 110710–110722. [CrossRef] 20. Mohtaj, S.; Schmitt, V.; Möller, S. Ominaisuuden poistamiseen perustuva malli vihapuheen tunnistamiseen. arXiv 2022, arXiv: 2201.04227. 21. Kuldoshbay, A.; Abdusalomov, A.; Mukhiddinov, M.; Baratov, N.; Makhmudov, F.; Cho, YI CNN:ssä käytettyjen ultraäänikuvien automaattisen luokitusmenetelmän parannus. Int. J. Wavelets Multiresolution Inf. Käsitellä asiaa. 2022, 20, 2150054. 22. Passricha, V.; Aggarwal, RK Syvän CNN:n ja kaksisuuntaisen LSTM:n hybridi automaattiseen puheentunnistukseen. J. Intell. Syst. 2020, 29, 1261–1274. [CrossRef] 23. Mukhamadiyev, A.; Khujayarov, I.; Djuraev, O.; Cho, J. Automaattinen puheentunnistusmenetelmä, joka perustuu uzbekistanin kielen syvään oppimiseen. Sensors 2022, 22, 3683. [CrossRef] [PubMed] 24. Li, F.; Liu, M.; Zhao, Y.; Kong, L.; Dong, L.; Liu, X.; Hui, M. Sydämen äänen piirteiden erottaminen ja luokittelu käyttämällä 1D-konvoluutiohermoverkkoja. EURASIP J. Adv. Signaaliprosessi. 2019, 2019, 59. [CrossRef] 25. Chang, L.-C.; Hung, J.-W. Alustava tutkimus voimakkaista puheominaisuuksien erottamisesta, joka perustuu tilojen todennäköisyyden maksimointiin syväakustisissa malleissa. Appl. Syst. Innov. 2022, 5, 71. [CrossRef] 26. Ramírez, J.; Górriz, JM; Segura, JC äänitoiminnan tunnistus. Perusteet ja puheentunnistusjärjestelmän kestävyys. Vankka puheentunnistus ja -ymmärtäminen; Grimm, M., Kroschel, K., toim.; I-TECH Education and Publishing: Lontoo, Iso-Britannia, 2007; s. 1–22. 27. Oi, S. DNN:hen perustuva vankka puheominaisuuden erottaminen ja signaalikohinan poistomenetelmä, jossa käytetään parannettua keskimääräistä ennustetta sisältävää LMS-suodatinta puheentunnistusta varten. J. Converg. Inf. Technol. 2021, 11, 1–6. [CrossRef] 28. Abbaschian, BJ; Sierra-Sosa, D.; Elmaghraby, A. Syväoppimistekniikat puheen tunteiden tunnistamiseen tietokannoista malleihin. Anturit 2021, 21, 1249. [CrossRef] 29. Rakhimov, M.; Mamadjanov, D.; Mukhiddinov, A. Suorituskykyinen rinnakkaislähestymistapa kuvankäsittelyyn hajautetussa tietojenkäsittelyssä. Vuoden 2020 IEEE 14th International Conference on Application of Information and Communication Technologies (AICT) -julkaisussa Uzbekistan, Tashkent, 7.–9.10.2020; s. 1–5. [CrossRef] 30. Abdusalomov, A.; Mukhiddinov, M.; Djuraev, O.; Khamdamov, U.; Whangbo, TK Paikallisesti mukautuvaan kynnykseen perustuva automaattinen merkittävien objektien erottaminen kosketusgrafiikan luomiseksi. Appl. Sci. 2020, 10, 3350. [CrossRef] 31. Abdusalomov, A.; Whangbo, TK Parannus etualan tunnistusmenetelmään käyttämällä varjonpoistotekniikkaa sisäympäristöissä. Int. J. Wavelets Multiresolution Inf. Käsitellä asiaa. 2017, 15, 1750039. [CrossRef] 32. Abdusalomov, A.; Whangbo, TK Liikkuvien objektien varjojen havaitseminen ja poistaminen sisävideovirtojen geometria- ja väritietojen avulla. Appl. Sci. 2019, 9, 5165. [CrossRef] 33. Mery, D. Computer Vision for X-ray Testing; Springer International Publishing: Cham, Sveitsi, 2015; s. 271, ISBN 978-3319207469. 34. Mark, S. Puhekuvat kalibroivat uudelleen puheen ja havainnon rajat. Kymmeneltä. Percept. Psychophys. 2016, 78, 1496–1511. [CrossRef] 35. Mudgal, E.; Mukuntharaj, S.; Modak, MU; Rao, YS Malliin perustuva reaaliaikainen puheentunnistus käyttämällä digitaalisia suodattimia DSP-TMS320F28335:ssä. Vuoden 2018 neljännen kansainvälisen Computing Communication Control and Automation -konferenssin (ICCUBEA) julkaisuissa Pune, Intia, 16.–18. elokuuta 2018; s. 1–6. [CrossRef]






