Pian et ehkä tiedä puhuvasi tietokoneelle

Sisällysluettelo:

Pian et ehkä tiedä puhuvasi tietokoneelle
Pian et ehkä tiedä puhuvasi tietokoneelle
Anonim

Keeawayt

  • Päivä lähestyy kovaa vauhtia, jolloin et pysty erottamaan tietokoneella tuotettua puhetta todellisesta.
  • Google julkisti äskettäin LaMDA:n, mallin, joka voisi mahdollistaa luonnollisemman keskustelun.
  • Ihmisk altaisen puheen tuottaminen vaatii myös v altavia määriä prosessointitehoa.
Image
Image

Tällä hetkellä on helppo tunnistaa, kun puhut tietokoneelle, mutta tilanne saattaa pian muuttua tekoälyn viimeaikaisten edistysten ansiosta.

Google julkisti äskettäin LaMDA:n, kokeellisen mallin, jonka yritys väittää voivan parantaa sen keskustelukykyisten tekoälyapulaisten kykyä ja mahdollistaa luonnollisemman keskustelun. LaMDA pyrkii lopulta keskustelemaan normaalisti melkein mistä tahansa ilman minkäänlaista aiempaa koulutusta.

Se on yksi kasvava määrä tekoälyprojekteja, jotka voivat saada sinut miettimään, puhutko ihmiselle.

"Arvioni on, että seuraavien 12 kuukauden aikana käyttäjät alkavat altistua näille uusille, tunteellisemmille äänille ja alkavat tottua niihin." James Kaplan, MeetKain toimitusjohtaja, keskusteleva tekoäly virtuaalinen ääniassistentti ja haku moottori, sanoi sähköpostihaastattelussa.

"Kun tämä tapahtuu, tämän päivän syntetisoitu puhe kuulostaa käyttäjille sam alta kuin 2000-luvun alun puhe kuulostaa meille tänään."

Voice Assistants with character

Googlen LaMDA perustuu Transformeriin, Google Researchin kehittämään hermoverkkoarkkitehtuuriin. Toisin kuin muut kielimallit, Googlen LaMDA koulutettiin todelliseen dialogiin.

Osa luonnolliselta kuulostavan tekoälypuheen tekemisen haastetta on keskustelujen avoin luonne, Googlen Eli Collins kirjoitti blogikirjoituksessaan.

Image
Image

"Ystävän kanssa keskustelu TV-ohjelmasta voi kehittyä keskusteluksi maasta, jossa ohjelma kuvattiin, ennen kuin ryhdytään keskusteluun maan parhaista paikallisista ruuista", hän lisäsi.

Asiat etenevät nopeasti robotin puheen myötä. Keskustelevaan tekoälyyn sijoittavan Tsingyuan Venturesin toimitusjohtaja Eric Rosenblum sanoi, että jotkut tietokoneavusteisen puheen perustavanlaatuisimmista ongelmista on käytännössä ratkaistu.

Esimerkiksi puheen ymmärtämisen tarkkuus on jo erittäin korkea palveluissa, kuten Otter.ai-ohjelmistolla tehdyissä transkriptioissa tai DeepScriben tekemissä lääketieteellisissä muistiinpanoissa.

"Seuraava raja on kuitenkin paljon vaikeampi", hän lisäsi.

"Kontekstin ymmärtämisen säilyttäminen, mikä on ongelma, joka ylittää luonnollisen kielen käsittelyn, ja empatian, kuten ihmisten kanssa vuorovaikutuksessa olevien tietokoneiden, on ymmärrettävä turhautumista, vihaa, kärsimättömyyttä jne. Molempia asioita käsitellään parhaillaan, mutta molemmat ovat melko kaukana tyydyttävistä."

Neuraaliverkot ovat avain

Yritykset käyttävät todentuntuisten äänten tuottamiseksi teknologiaa, kuten syviä hermoverkkoja, koneoppimisen muotoa, joka luokittelee tiedot kerrosten kautta. sanoi sähköpostihaastattelussa.

"Nämä kerrokset tarkentavat signaalia ja lajittelevat sen monimutkaisempiin luokitteluihin", hän lisäsi. "Tuloksena on synteettistä puhetta, joka kuulostaa järjettömältä ihmiseltä."

Toinen kehitteillä oleva tekniikka on Prosody Transfer, joka sisältää yhden tekstistä puheeksi -äänen äänen yhdistämisen toisen puhetyyliin, Muldoon sanoi. Mukana on myös siirto-oppimista, mikä vähentää uuden neuronaalisen tekstistä puheeksi -äänen tuottamiseen tarvittavan harjoitusdatan määrää.

Kaplan sanoi, että ihmisen k altaisen puheen tuottaminen vaatii myös v altavia määriä prosessointitehoa. Yritykset kehittävät hermokiihdytinsiruja, jotka ovat mukautettuja moduuleja, jotka toimivat yhdessä tavallisten prosessorien kanssa.

"Seuraava vaihe tässä on näiden sirujen sijoittaminen pienempiin laitteistoihin, kuten tällä hetkellä kameroille tehdään jo silloin, kun näön tekoäly tarvitaan", hän lisäsi. "Ei kestä kauan, kun tämän tyyppinen laskentaominaisuus on saatavilla itse kuulokkeissa."

Tekoälypohjaisen puheen kehittämisen haaste on, että jokainen puhuu eri tavalla, joten tietokoneiden on yleensä vaikea ymmärtää meitä.

"Ajattele Georgia vs. Boston vs. North Dakota aksentteja ja sitä, onko englanti ensisijainen kielesi", Monica Dema, joka työskentelee puhehaun analytiikan parissa MDincillä, sanoi sähköpostissa. "Globaalisti ajateltuna tämän tekeminen on kallista kaikille Saksan, Kiinan ja Intian alueille, mutta se ei tarkoita, etteikö sitä voisi tehdä tai ei voida tehdä."

Suositeltava: