Pian et ehkä tiedä puhuvasi tietokoneelle

2025 Kirjoittaja: Abigail Brown | [email protected]. Viimeksi muokattu: 2025-01-24 12:09

Keeawayt

Päivä lähestyy kovaa vauhtia, jolloin et pysty erottamaan tietokoneella tuotettua puhetta todellisesta.
Google julkisti äskettäin LaMDA:n, mallin, joka voisi mahdollistaa luonnollisemman keskustelun.
Ihmisk altaisen puheen tuottaminen vaatii myös v altavia määriä prosessointitehoa.

Tällä hetkellä on helppo tunnistaa, kun puhut tietokoneelle, mutta tilanne saattaa pian muuttua tekoälyn viimeaikaisten edistysten ansiosta.

Google julkisti äskettäin LaMDA:n, kokeellisen mallin, jonka yritys väittää voivan parantaa sen keskustelukykyisten tekoälyapulaisten kykyä ja mahdollistaa luonnollisemman keskustelun. LaMDA pyrkii lopulta keskustelemaan normaalisti melkein mistä tahansa ilman minkäänlaista aiempaa koulutusta.

Se on yksi kasvava määrä tekoälyprojekteja, jotka voivat saada sinut miettimään, puhutko ihmiselle.

"Arvioni on, että seuraavien 12 kuukauden aikana käyttäjät alkavat altistua näille uusille, tunteellisemmille äänille ja alkavat tottua niihin." James Kaplan, MeetKain toimitusjohtaja, keskusteleva tekoäly virtuaalinen ääniassistentti ja haku moottori, sanoi sähköpostihaastattelussa.

"Kun tämä tapahtuu, tämän päivän syntetisoitu puhe kuulostaa käyttäjille sam alta kuin 2000-luvun alun puhe kuulostaa meille tänään."

Voice Assistants with character

Googlen LaMDA perustuu Transformeriin, Google Researchin kehittämään hermoverkkoarkkitehtuuriin. Toisin kuin muut kielimallit, Googlen LaMDA koulutettiin todelliseen dialogiin.

Osa luonnolliselta kuulostavan tekoälypuheen tekemisen haastetta on keskustelujen avoin luonne, Googlen Eli Collins kirjoitti blogikirjoituksessaan.

"Ystävän kanssa keskustelu TV-ohjelmasta voi kehittyä keskusteluksi maasta, jossa ohjelma kuvattiin, ennen kuin ryhdytään keskusteluun maan parhaista paikallisista ruuista", hän lisäsi.

Asiat etenevät nopeasti robotin puheen myötä. Keskustelevaan tekoälyyn sijoittavan Tsingyuan Venturesin toimitusjohtaja Eric Rosenblum sanoi, että jotkut tietokoneavusteisen puheen perustavanlaatuisimmista ongelmista on käytännössä ratkaistu.

Esimerkiksi puheen ymmärtämisen tarkkuus on jo erittäin korkea palveluissa, kuten Otter.ai-ohjelmistolla tehdyissä transkriptioissa tai DeepScriben tekemissä lääketieteellisissä muistiinpanoissa.

"Seuraava raja on kuitenkin paljon vaikeampi", hän lisäsi.

"Kontekstin ymmärtämisen säilyttäminen, mikä on ongelma, joka ylittää luonnollisen kielen käsittelyn, ja empatian, kuten ihmisten kanssa vuorovaikutuksessa olevien tietokoneiden, on ymmärrettävä turhautumista, vihaa, kärsimättömyyttä jne. Molempia asioita käsitellään parhaillaan, mutta molemmat ovat melko kaukana tyydyttävistä."

Neuraaliverkot ovat avain

Yritykset käyttävät todentuntuisten äänten tuottamiseksi teknologiaa, kuten syviä hermoverkkoja, koneoppimisen muotoa, joka luokittelee tiedot kerrosten kautta. sanoi sähköpostihaastattelussa.

"Nämä kerrokset tarkentavat signaalia ja lajittelevat sen monimutkaisempiin luokitteluihin", hän lisäsi. "Tuloksena on synteettistä puhetta, joka kuulostaa järjettömältä ihmiseltä."

Toinen kehitteillä oleva tekniikka on Prosody Transfer, joka sisältää yhden tekstistä puheeksi -äänen äänen yhdistämisen toisen puhetyyliin, Muldoon sanoi. Mukana on myös siirto-oppimista, mikä vähentää uuden neuronaalisen tekstistä puheeksi -äänen tuottamiseen tarvittavan harjoitusdatan määrää.

Kaplan sanoi, että ihmisen k altaisen puheen tuottaminen vaatii myös v altavia määriä prosessointitehoa. Yritykset kehittävät hermokiihdytinsiruja, jotka ovat mukautettuja moduuleja, jotka toimivat yhdessä tavallisten prosessorien kanssa.

"Seuraava vaihe tässä on näiden sirujen sijoittaminen pienempiin laitteistoihin, kuten tällä hetkellä kameroille tehdään jo silloin, kun näön tekoäly tarvitaan", hän lisäsi. "Ei kestä kauan, kun tämän tyyppinen laskentaominaisuus on saatavilla itse kuulokkeissa."

Tekoälypohjaisen puheen kehittämisen haaste on, että jokainen puhuu eri tavalla, joten tietokoneiden on yleensä vaikea ymmärtää meitä.

"Ajattele Georgia vs. Boston vs. North Dakota aksentteja ja sitä, onko englanti ensisijainen kielesi", Monica Dema, joka työskentelee puhehaun analytiikan parissa MDincillä, sanoi sähköpostissa. "Globaalisti ajateltuna tämän tekeminen on kallista kaikille Saksan, Kiinan ja Intian alueille, mutta se ei tarkoita, etteikö sitä voisi tehdä tai ei voida tehdä."

Suositeltava:

Sisällysluettelo:

Keeawayt

Voice Assistants with character

Neuraaliverkot ovat avain

Suositeltava:

Kuinka ladata Netflix-elokuvia kannettavalle tietokoneelle

Kopioiminen ja liittäminen kannettavalle tietokoneelle

Kuinka pingat tietokoneelle tai verkkosivustolle

Asioita kotiteatterista, jota et ehkä tiedä

Parhaat iPhone-eleet, joista et ehkä tiedä

Vuoden 2022 3 parasta älyjääkaappia

Mikä on laiteohjain?

Vuoden 2022 6 parasta pyörivää kannettavaa laukkua

Vuoden 2022 5 parasta autokoodinlukijaa

Vuoden 2022 6 parasta CB-radiota

HP VH240a FHD-näytön katsaus: HD budjettiin

PlayStation 4 Pro -arvostelu: PlayStation 4 kohtaa 4K-grafiikan

Käyttöjä ja esimerkkejä funktioista Excelissä ja Google Sheetsissa

Xbox One X -arvostelu: Konsolimaailman nykyinen huippukoira

Canon PowerShot G7 X Mark II -katsaus: Kompakti mutta tehokas

Media Castingin käyttäminen Microsoft Edge for Windowsissa

Subwooferit eivät vain ärsytä naapureita

Twitterin uusi Privacy Boost on vasta alkua

Xboxin Clarity Boost on terävä, mutta ei taikuutta

Näytön tallentaminen Windows 11:ssä