Miten tekoäly voisi tehdä tietokoneen puheesta luonnollisempaa

Sisällysluettelo:

Miten tekoäly voisi tehdä tietokoneen puheesta luonnollisempaa
Miten tekoäly voisi tehdä tietokoneen puheesta luonnollisempaa
Anonim

Keeawayt

  • Yritykset kilpailevat löytääkseen tapoja saada tietokoneella tuotettu puhe kuulostaa realistisemm alta.
  • NVIDIA julkaisi äskettäin työkaluja, jotka voivat tallentaa luonnollisen puheen äänen antamalla sinun harjoitella tekoälyä omalla äänelläsi.
  • Intonaatio, tunteet ja musikaalisuus ovat ominaisuuksia, jotka tietokoneäänistä vielä puuttuvat, eräs asiantuntija sanoo.
Image
Image

Tietokoneella luotu puhe saattaa pian kuulostaa paljon inhimillisemmältä.

Tietokoneen osien valmistaja NVIDIA julkisti äskettäin työkalut, jotka voivat tallentaa luonnollisen puheen äänen antamalla sinun harjoitella tekoälyä äänelläsi. Ohjelmisto voi myös välittää yhden puhujan sanat toisen henkilön äänellä. Se on osa kasvavaa pyrkimystä tehdä tietokonepuheesta realistisempaa.

"Kehittynyt ääniälyteknologia mahdollistaa käyttäjien puhumisen luonnollisesti, yhdistäen monet kyselyt yhdeksi lauseeksi ja poistavat tarpeen toistaa jatkuvasti alkuperäisen kyselyn yksityiskohtia", Michael Zagorsek, puheentunnistusyrityksen SoundHoundin operatiivinen johtaja, kertoi Lifewirelle sähköpostihaastattelussa.

"Useiden kielten lisääminen, jotka ovat nyt saatavilla useimmissa puheälyälyalustoissa, tekee digitaalisista ääniavustajista saatavilla useammilla maantieteellisillä alueilla ja useammalle väestölle", hän lisäsi.

Robospeech Rising

Amazonin Alexa ja Applen Siri kuulostavat paljon paremm alta kuin jopa kymmenen vuoden takainen tietokonepuhe, mutta niitä ei erehdytä piakkoin pitämään aidoista ihmisäänistä.

NVIDIAn tekstistä puheeksi -tutkimusryhmä kehitti RAD-TTS-mallin, jotta keinotekoinen puhe kuulostaa luonnollisemm alta. Järjestelmän avulla ihmiset voivat opettaa tekstistä puheeksi (TTS) -mallia äänellään, mukaan lukien tahdistus, tonaliteetti, sointi ja muut tekijät.

Yhtiö käytti uutta malliaan rakentaakseen keskustelukuvioisemman ääniselostuksen I Am AI -videosarjaansa.

"Tämän käyttöliittymän avulla videotuottajamme voi tallentaa itsensä lukevansa videon käsikirjoitusta ja sitten käyttää tekoälymallia muuntaakseen puheensa naispuolisen kertojan ääneksi. Käyttämällä tätä peruskerrontaa tuottaja voi ohjata tekoälyä kuin ääninäyttelijä säätelee syntetisoitua puhetta korostaakseen tiettyjä sanoja ja muokkaa kerronnan tahdistusta, jotta se ilmaisee paremmin videon sävyn", NVIDIA kirjoitti verkkosivuillaan.

Vaikempaa kuin kuulostaa

Tietokoneella luodun puheen saaminen kuulostamaan luonnolliselta on hankala ongelma, asiantuntijat sanovat.

"Sinun täytyy tallentaa satoja tunteja jonkun ääntä luodaksesi siitä tietokoneversion", Nazim Ragimov, tekstistä puheeksi -ohjelmistoyhtiön Kukarella toimitusjohtaja, kertoi Lifewirelle sähköpostihaastattelussa. "Ja tallennuksen tulee olla korkealaatuista, äänitetty ammattistudiossa. Mitä enemmän tuntia laadukasta puhetta ladataan ja käsitellään, sitä parempi tulos."

Tekstistä puheeksi -toimintoa voidaan käyttää peleissä, äänivammaisten henkilöiden auttamiseksi tai käyttäjien auttamiseksi kääntämään kielten välillä omalla äänellään.

Intonaatio, tunteet ja musikaalisuus ovat ominaisuuksia, jotka tietokoneäänistä vielä puuttuvat, Ragimov sanoi.

Jos tekoäly voi lisätä nämä puuttuvat linkit, tietokoneella luotu puhe on "ei erottumaton todellisten näyttelijöiden äänistä", hän lisäsi. "Se on työn alla. Muut äänet voivat kilpailla radiojuontajien kanssa. Pian näet ääniä, jotka voivat laulaa ja lukea äänikirjoja."

Puhetekniikka on tulossa suositummaksi monissa yrityksissä.

"Autoteollisuus on hiljattain ottanut puheälyn käyttöön keinona luoda turvallisempia ja yhdistetympiä ajokokemuksia", Zagorsek sanoi.

"Sittemmin ääniavustajat ovat yleistyneet yhä enemmän, kun brändit etsivät tapoja parantaa asiakaskokemuksia ja vastata tarpeisiin helpompien, turvallisempien, kätevämpien, tehokkaampien ja hygieenisempien menetelmien vuorovaikutukseen tuotteidensa ja palveluidensa kanssa."

Yleensä puhe-AI muuntaa kyselyt vastauksiksi kaksivaiheisessa prosessissa, joka alkaa transkriptoimalla puhe tekstiksi automaattisen puheentunnistuksen (ASR) avulla ja syöttämällä tekstin sitten luonnollisen kielen ymmärtämismalliin (NLU).

Image
Image

SoundHoundin lähestymistapa yhdistää nämä kaksi vaihetta yhdeksi prosessiksi puheen seuraamiseksi reaaliajassa. Yhtiö väittää, että tämän tekniikan avulla puheavustajat voivat ymmärtää käyttäjän kyselyiden merkityksen jopa ennen kuin henkilö on lopettanut puhumisen.

Tulevat edistysaskeleet tietokonepuheessa, mukaan lukien useiden liitettävyysvaihtoehtojen saatavuus vain sulautetusta (ei vaadi pilviyhteyttä) hybridiin (sulautettu plus pilvi) ja vain pilvi "antaa enemmän valinnanvaraa yrityksille eri toimialoilla kustannusten, yksityisyyden ja prosessointitehon saatavuuden suhteen", Zagoresk sanoi.

NVIDIA sanoi, että sen uutisten tekoälymallit ylittävät selostustyön.

"Tekstistä puheeksi -toimintoa voidaan käyttää pelaamisessa, äänivammaisten henkilöiden auttamiseksi tai käyttäjien auttamiseksi kääntämään kielten välillä omalla äänellään", yhtiö kirjoitti. "Se voi jopa luoda uudelleen ikonisten laulajien esitykset, jotka sopivat paitsi kappaleen melodiaan myös laulun takana olevaan tunneilmaisuun."

Suositeltava: