Keeawayt
- Tutkijat sanovat voivansa opettaa tekoälyä leikkaamaan videoita katsomalla ja kuuntelemalla.
- Tekoälyjärjestelmä oppii edustamaan dataa visuaalisen ja äänidatan yhteisten käsitteiden kaappaamiseksi.
-
Se on osa pyrkimystä opettaa tekoälyä ymmärtämään käsitteitä, joilla ihmisillä ei ole vaikeuksia oppia, mutta joita tietokoneiden on vaikea ymmärtää.
Uusi tekoälyjärjestelmä (AI) voisi katsoa ja kuunnella videoitasi ja merkitä tapahtumia.
MIT-tutkijat ovat kehittäneet tekniikan, joka opettaa tekoälyä tallentamaan videon ja äänen välillä yhteisiä toimintoja. Heidän menetelmänsä voi esimerkiksi ymmärtää, että videolla olevan vauvan itku liittyy äänileikkeen puhuttuun sanaan "itku". Se on osa pyrkimystä opettaa tekoälyä ymmärtämään käsitteitä, joita ihmisillä ei ole vaikeuksia oppia, mutta joita tietokoneiden on vaikea käsittää.
"Yleinen oppimisparadigma, ohjattu oppiminen, toimii hyvin, kun sinulla on hyvin kuvatut ja täydelliset tietojoukot", tekoälyasiantuntija Phil Winder kertoi Lifewirelle sähköpostihaastattelussa. "Valitettavasti tietojoukot ovat harvoin täydellisiä, koska todellisella maailmalla on huono tapa esittää uusia tilanteita."
Älykkäämpi AI
Tietokoneiden on vaikea keksiä jokapäiväisiä skenaarioita, koska niiden on murskattava dataa äänen ja kuvien sijaan ihmisten tavoin. Kun kone "näkee" valokuvan, sen on koodattava se tietoihin, joita se voi käyttää suorittaessaan tehtävää, kuten kuvan luokittelua. Tekoäly voi juuttua, kun tulot tulevat useissa muodoissa, kuten videoita, äänileikkeitä ja kuvia.
"Tässä suurin haaste on, kuinka kone voi kohdistaa nämä erilaiset tavat? Ihmisinä tämä on helppoa meille", Alexander Liu, MIT-tutkija ja ensimmäinen aihetta käsittelevän artikkelin kirjoittaja, sanoi. lehdistötiedote. "Näemme auton ja kuulemme ohi ajavan auton äänen, ja tiedämme, että nämä ovat sama asia. Mutta koneoppimisen kann alta se ei ole niin yksinkertaista."
Liun tiimi kehitti tekoälytekniikan, jonka he sanovat oppivan edustamaan dataa visuaalisen ja äänidatan yhteisten käsitteiden kaappaamiseksi. Tämän tiedon avulla heidän koneoppimismallinsa voi tunnistaa, missä videossa tietty toiminto tapahtuu, ja merkitä sen.
Uusi malli ottaa raakadataa, kuten videoita ja niitä vastaavia tekstityksiä, ja koodaa ne poimimalla piirteitä tai havaintoja videon objekteista ja toiminnoista. Sitten se kartoittaa nämä datapisteet ruudukossa, joka tunnetaan upotustilana. Malli klusteroi samanlaiset tiedot yhteen yksittäisiksi pisteiksi ruudukossa; jokaista näistä datapisteistä tai vektoreista edustaa yksittäinen sana.
Esimerkiksi videoleike jongleeraavasta henkilöstä voidaan yhdistää vektoriin, jonka nimi on "jonglööri".
Tutkijat suunnittelivat mallin niin, että siinä voidaan käyttää vain 1 000 sanaa vektoreiden merkitsemiseen. Malli voi päättää, mitkä toiminnot tai käsitteet se haluaa koodata yhdeksi vektoriksi, mutta se voi käyttää vain 1 000 vektoria. Malli valitsee sanat, jotka sen mielestä parhaiten edustavat dataa.
"Jos sioista on video, malli voi määrittää sanan "sika" jollekin 1 000 vektorista. Jos malli sitten kuulee jonkun sanovan sanan "sika" äänileikeessä, sen pitäisi silti käyttää samaa vektoria sen koodaamiseen", Liu selitti.
Omat videosi, purettu
MIT:n kehittämän k altaiset paremmat merkintäjärjestelmät voisivat auttaa vähentämään tekoälyn harhaa, Marian Beszedes, biometriikkayhtiö Innovatricsin tutkimus- ja kehitysjohtaja, kertoi Lifewirelle sähköpostihaastattelussa. Beszedes ehdotti, että tietoteollisuus voi tarkastella tekoälyjärjestelmiä valmistusprosessin näkökulmasta.
"Järjestelmät hyväksyvät raakadataa syötteeksi (raaka-aineet), esikäsittelevät sen, syövät sen, tekevät päätöksiä tai ennusteita ja tuottavat analytiikkaa (valmiita tuotteita), Beszedes sanoi. "Kutsumme tätä prosessivirtaa "datatehtaaksi", ja kuten muutkin valmistusprosessit, siihen tulee kohdistua laadunvalvontaa. Tietoteollisuuden on käsiteltävä tekoälyn harhaa laatuongelmana.
"Kuluttajan näkökulmasta väärin merkityt tiedot vaikeuttavat esimerkiksi tiettyjen kuvien/videoiden etsimistä verkossa", Beszedes lisäsi. "Oikein kehitetyllä tekoälyllä voit tehdä merkinnät automaattisesti, paljon nopeammin ja neutraalimmin kuin manuaalisella merkitsemisellä."
Mutta MIT-mallilla on silti joitain rajoituksia. Ensinnäkin heidän tutkimuksensa keskittyi kahdesta lähteestä kerrallaan saatuihin tietoihin, mutta todellisessa maailmassa ihmiset kohtaavat monenlaista tietoa samanaikaisesti, Liu sanoi
"Ja tiedämme, että 1 000 sanaa toimii tämänk altaisessa tietojoukossa, mutta emme tiedä, voidaanko se yleistää todelliseksi ongelmaksi", Liu lisäsi.
MIT-tutkijat sanovat, että heidän uusi tekniikkansa on parempi kuin monet samanlaiset mallit. Jos tekoäly voidaan kouluttaa ymmärtämään videoita, saatat lopulta pystyä ohittamaan ystäväsi lomavideoiden katsomisen ja saada sen sijaan tietokoneella luodun raportin.