Keeawayt
- Meta käyttää tekoälyä tehdäkseen ohjelmia, jotka voivat ilmaista tunteita puheessa.
- Yhtiön tekoälytiimi sanoi, että se on edistynyt ilmeikkäiden ääntelyjen, kuten naurun, haukottelun, itkujen ja "spontaanien chat-keskustelun" mallintamisessa reaaliajassa.
- AI:ta käytetään myös puheentunnistuksen parantamiseen.
Tekoälyn (AI) ansiosta saatat pian pystyä keskustelemaan luonnollisemmin tietokoneesi kanssa.
Meta sanoi edistyneensä merkittävästi pyrkimyksissään luoda realistisempia tekoälyn luomia puhejärjestelmiä. Yrityksen tekoälytiimi sanoi, että se on edistynyt kyvyssä mallintaa ilmeikkäitä ääniä, kuten naurua, haukottelua ja itkua, "spontaanien keskustelun" lisäksi reaaliajassa.
"Jokaisessa keskustelussa ihmiset vaihtavat täpötäynnä ei-verbaalisia signaaleja, kuten intonaatioita, tunneilmaisua, taukoja, aksentteja, rytmejä - jotka kaikki ovat tärkeitä ihmisten vuorovaikutuksessa", tiimi kirjoitti äskettäisessä blogiviestissä.. "Mutta nykypäivän tekoälyjärjestelmät eivät pysty sieppaamaan näitä täyteläisiä, ilmeikkäitä signaaleja, koska ne oppivat vain kirjoitetusta tekstistä, joka vangitsee sen, mitä sanomme, mutta ei sitä, miten sanomme."
Älykkäämpi puhe
Blogiviestissä Meta AI:n tiimi sanoi, että he pyrkivät voittamaan perinteisten tekoälyjärjestelmien rajoitukset, jotka eivät ymmärrä ei-verbaalisia signaaleja puheessa, kuten intonaatioita, tunneilmaisuja, taukoja, aksentteja ja rytmejä.. Järjestelmiä pidätetään, koska ne voivat oppia vain kirjoitetusta tekstistä.
Mutta Metan työ eroaa aiemmista yrityksistä, koska sen tekoälymallit voivat käyttää luonnollisen kielen käsittelymalleja puhutun kielen täyden luonteen vangitsemiseen. Meta-tutkijat sanovat, että uudet mallit voivat antaa tekoälyjärjestelmien välittää tunteita, joita ne haluavat välittää, kuten tylsyyttä tai ironiaa.
"Lähitulevaisuudessa keskitymme tekstittömien tekniikoiden soveltamiseen hyödyllisten loppupään sovellusten rakentamiseen ilman resurssiintensiivisiä tekstitunnisteita tai automaattisia puheentunnistusjärjestelmiä (ASR), kuten kysymyksiin vastaamista (esim. sää?"), tiimi kirjoitti blogikirjoituksessaan. "Uskomme, että puheen prosodia voi auttaa paremmin jäsentämään lausetta, mikä puolestaan helpottaa tarkoituksen ymmärtämistä ja parantaa kysymykseen vastaamisen suorituskykyä."
AI tehostaa ymmärtämistä
Tietokoneet eivät vain parane merkityksen välittämisessä, vaan tekoälyä käytetään myös puheentunnistuksen parantamiseen.
Tietokonetutkijat ovat työskennelleet tietokoneen puheentunnistuksen parissa ainakin vuodesta 1952 lähtien, jolloin kolme Bell Labsin tutkijaa loi järjestelmän, joka pystyi tunnistamaan yksittäiset numerot, AI Dynamicsin teknologiajohtaja Ryan Monsurate sanoi sähköpostissa. Lifewire. 1990-luvulle mennessä puheentunnistusjärjestelmiä oli saatavilla kaupallisesti, mutta niiden virheprosentti oli silti riittävän korkea estääkseen niiden käytön erittäin erityisten sovellusalueiden, kuten terveydenhuollon, ulkopuolella.
"Nyt kun syväoppimismallit ovat mahdollistaneet yhdistelmämallit (kuten Microsoftin mallit) saavuttamaan yli-inhimillisen suorituskyvyn puheentunnistuksessa, meillä on tekniikka, joka mahdollistaa puhujasta riippumattoman verbaalisen viestinnän tietokoneiden kanssa laajassa mittakaavassa", Monsurate sanoi. "Seuraava vaihe sisältää kustannusten alentamisen, jotta kaikki Siriä tai Googlen tekoälyassistentteja käyttävät voivat käyttää tämän tason puheentunnistusta."
Tekoäly on hyödyllinen puheentunnistuksessa, koska se voi kehittyä ajan myötä oppimisen myötä, Ariel Utnik, tekoälypuheyhtiön Verbit.ai:n tulojen johtaja ja johtaja, kertoi Lifewirelle sähköpostihaastattelussa. Esimerkiksi Verbit väittää, että sen sisäinen tekoälytekniikka havaitsee ja suodattaa pois taustamelun ja kaiut sekä litteroi kaiuttimet korostuksesta riippumatta luodakseen yksityiskohtaisia, ammattimaisia transkriptioita ja tekstityksiä live- ja tallennetusta videosta ja äänestä.
Mutta Utnik sanoi, että useimmat nykyiset puheentunnistusalustat ovat vain 75-80 % tarkkoja.
"Tekoäly ei koskaan korvaa ihmisiä täysin, koska kirjoittajien, oikolukijoiden ja toimittajien henkilökohtainen arvostelu on välttämätöntä korkealaatuisen ja huipputarkkuuden varmistamiseksi", hän lisäsi.
Parempaa äänentunnistusta voitaisiin käyttää myös hakkereiden estämiseen, Sanjay Gupta, äänentunnistusyhtiö Mitek Systemsin tuote- ja yrityskehityksen johtaja, sanoi sähköpostissa. Tutkimukset osoittavat, että kahden vuoden sisällä 20 prosentissa kaikista onnistuneista tilin h altuunottohyökkäyksistä käytetään synteettistä äänen lisäystä, hän lisäsi.
"Tämä tarkoittaa, että kun syväväärennösteknologia kehittyy, meidän on samanaikaisesti luotava edistynyt tietoturva, joka voi torjua näitä taktiikoita sekä kuva- ja videoväärennöksiä", Gupta sanoi. "Puheen huijauksen torjunta vaatii elävyyden havaitsemistekniikkaa, joka pystyy erottamaan elävän äänen äänitetystä, synteettisestä tai tietokoneella luodusta versiosta."
Korjaus 2022-05-04: Ryan Monsuraten nimen kirjoitusasu korjattu kappaleessa 9.