AI voi nyt ymmärtää videosi katsomalla niitä

2025 Kirjoittaja: Abigail Brown | [email protected]. Viimeksi muokattu: 2025-01-24 12:08

Keeawayt

Tutkijat sanovat voivansa opettaa tekoälyä leikkaamaan videoita katsomalla ja kuuntelemalla.
Tekoälyjärjestelmä oppii edustamaan dataa visuaalisen ja äänidatan yhteisten käsitteiden kaappaamiseksi.
Se on osa pyrkimystä opettaa tekoälyä ymmärtämään käsitteitä, joilla ihmisillä ei ole vaikeuksia oppia, mutta joita tietokoneiden on vaikea ymmärtää.

Uusi tekoälyjärjestelmä (AI) voisi katsoa ja kuunnella videoitasi ja merkitä tapahtumia.

MIT-tutkijat ovat kehittäneet tekniikan, joka opettaa tekoälyä tallentamaan videon ja äänen välillä yhteisiä toimintoja. Heidän menetelmänsä voi esimerkiksi ymmärtää, että videolla olevan vauvan itku liittyy äänileikkeen puhuttuun sanaan "itku". Se on osa pyrkimystä opettaa tekoälyä ymmärtämään käsitteitä, joita ihmisillä ei ole vaikeuksia oppia, mutta joita tietokoneiden on vaikea käsittää.

"Yleinen oppimisparadigma, ohjattu oppiminen, toimii hyvin, kun sinulla on hyvin kuvatut ja täydelliset tietojoukot", tekoälyasiantuntija Phil Winder kertoi Lifewirelle sähköpostihaastattelussa. "Valitettavasti tietojoukot ovat harvoin täydellisiä, koska todellisella maailmalla on huono tapa esittää uusia tilanteita."

Älykkäämpi AI

Tietokoneiden on vaikea keksiä jokapäiväisiä skenaarioita, koska niiden on murskattava dataa äänen ja kuvien sijaan ihmisten tavoin. Kun kone "näkee" valokuvan, sen on koodattava se tietoihin, joita se voi käyttää suorittaessaan tehtävää, kuten kuvan luokittelua. Tekoäly voi juuttua, kun tulot tulevat useissa muodoissa, kuten videoita, äänileikkeitä ja kuvia.

"Tässä suurin haaste on, kuinka kone voi kohdistaa nämä erilaiset tavat? Ihmisinä tämä on helppoa meille", Alexander Liu, MIT-tutkija ja ensimmäinen aihetta käsittelevän artikkelin kirjoittaja, sanoi. lehdistötiedote. "Näemme auton ja kuulemme ohi ajavan auton äänen, ja tiedämme, että nämä ovat sama asia. Mutta koneoppimisen kann alta se ei ole niin yksinkertaista."

Liun tiimi kehitti tekoälytekniikan, jonka he sanovat oppivan edustamaan dataa visuaalisen ja äänidatan yhteisten käsitteiden kaappaamiseksi. Tämän tiedon avulla heidän koneoppimismallinsa voi tunnistaa, missä videossa tietty toiminto tapahtuu, ja merkitä sen.

Uusi malli ottaa raakadataa, kuten videoita ja niitä vastaavia tekstityksiä, ja koodaa ne poimimalla piirteitä tai havaintoja videon objekteista ja toiminnoista. Sitten se kartoittaa nämä datapisteet ruudukossa, joka tunnetaan upotustilana. Malli klusteroi samanlaiset tiedot yhteen yksittäisiksi pisteiksi ruudukossa; jokaista näistä datapisteistä tai vektoreista edustaa yksittäinen sana.

Esimerkiksi videoleike jongleeraavasta henkilöstä voidaan yhdistää vektoriin, jonka nimi on "jonglööri".

Tutkijat suunnittelivat mallin niin, että siinä voidaan käyttää vain 1 000 sanaa vektoreiden merkitsemiseen. Malli voi päättää, mitkä toiminnot tai käsitteet se haluaa koodata yhdeksi vektoriksi, mutta se voi käyttää vain 1 000 vektoria. Malli valitsee sanat, jotka sen mielestä parhaiten edustavat dataa.

"Jos sioista on video, malli voi määrittää sanan "sika" jollekin 1 000 vektorista. Jos malli sitten kuulee jonkun sanovan sanan "sika" äänileikeessä, sen pitäisi silti käyttää samaa vektoria sen koodaamiseen", Liu selitti.

Omat videosi, purettu

MIT:n kehittämän k altaiset paremmat merkintäjärjestelmät voisivat auttaa vähentämään tekoälyn harhaa, Marian Beszedes, biometriikkayhtiö Innovatricsin tutkimus- ja kehitysjohtaja, kertoi Lifewirelle sähköpostihaastattelussa. Beszedes ehdotti, että tietoteollisuus voi tarkastella tekoälyjärjestelmiä valmistusprosessin näkökulmasta.

"Järjestelmät hyväksyvät raakadataa syötteeksi (raaka-aineet), esikäsittelevät sen, syövät sen, tekevät päätöksiä tai ennusteita ja tuottavat analytiikkaa (valmiita tuotteita), Beszedes sanoi. "Kutsumme tätä prosessivirtaa "datatehtaaksi", ja kuten muutkin valmistusprosessit, siihen tulee kohdistua laadunvalvontaa. Tietoteollisuuden on käsiteltävä tekoälyn harhaa laatuongelmana.

"Kuluttajan näkökulmasta väärin merkityt tiedot vaikeuttavat esimerkiksi tiettyjen kuvien/videoiden etsimistä verkossa", Beszedes lisäsi. "Oikein kehitetyllä tekoälyllä voit tehdä merkinnät automaattisesti, paljon nopeammin ja neutraalimmin kuin manuaalisella merkitsemisellä."

Mutta MIT-mallilla on silti joitain rajoituksia. Ensinnäkin heidän tutkimuksensa keskittyi kahdesta lähteestä kerrallaan saatuihin tietoihin, mutta todellisessa maailmassa ihmiset kohtaavat monenlaista tietoa samanaikaisesti, Liu sanoi

"Ja tiedämme, että 1 000 sanaa toimii tämänk altaisessa tietojoukossa, mutta emme tiedä, voidaanko se yleistää todelliseksi ongelmaksi", Liu lisäsi.

MIT-tutkijat sanovat, että heidän uusi tekniikkansa on parempi kuin monet samanlaiset mallit. Jos tekoäly voidaan kouluttaa ymmärtämään videoita, saatat lopulta pystyä ohittamaan ystäväsi lomavideoiden katsomisen ja saada sen sijaan tietokoneella luodun raportin.

Suositeltava:

AI voi nyt ymmärtää videosi katsomalla niitä

Sisällysluettelo:

Keeawayt

Älykkäämpi AI

Omat videosi, purettu

Suositeltava:

IPhone 14 voisi lisätä uusia satelliittiominaisuuksia, mutta ihmiset eivät ehkä koskaan käytä niitä

5G-nopeus: Kuinka ymmärtää numerot

Virtuaalivaatteet kukoistavat, vaikka et voi käyttää niitä

Kuinka uusi tekniikka voi auttaa niitä, jotka tarvitsevat vettä

IOS 14 voi sisältää leikkeitä, jotta voit käyttää sovelluksia lataamatta niitä

Mitä tietää Instagramin ei-aktiivisista tai poistetuista tilikäytännöistä

Opera vs. Google Chrome

Vuoden 2022 6 parasta oopperalaajennusta

Android-puhelimen liittäminen Roku-televisioon

Speedtest.net-verkkosivuston tarkistus

Miksi Stadia ja xCloud verkkosovelluksina voisivat toimia

Miksi Echo Frames voisi olla yksityisyyden painajainen

Kuinka sammuttaa Apple CarPlay

Parhaat tulostinsovellukset Androidille

Miksi Instagram suunnitteli aloitusnäytönsä uudelleen

Epson SureColor P800 -arvostelu: Massiiviset, kauniit ja edulliset tulosteet

Epson PowerLite 1795F -projektorikatsaus: High-tech-miniprojektori, joka on suunniteltu liikematkoille

Epson Expression Premium XP-7100 Review: Terävä teksti, kauniit valokuvat ja kaksipuolinen skanneri

Epson Workforce WF-7720 Review: 13" x 19" -muoto korkealla hinnalla

6 parasta verkkokauppiasta television ostoksille vuonna 2022