Kompjuteri që ju kupton kur flisni vetëm nga lëvizjet e buzëve

10:59 / E shtunë, 07 Janar 2017

 

Inteligjenca artificiale po hyn në fushën leximimt të buzëve. Projekti nga DeepMind i Google dhe Universiteti i Oksfordit aplikuarn mësimin e thellë për një numër të madh të programeve të BBC për të krijuar një sistem buzë-lexues që i lë larg profesionistët.

 

Sistemi i inteligjencës artificiale (IA) është trajnuar duke përdorur 5000 orë prej gjashtë programeve të ndryshme televizive, duke përfshirë Newsnight, BBC Breakfast dhe Question Time. Në total, videot përmbanin 118,000 fjali, shkruan revista shkencore Newscientist.

Së pari hulumtuesit nga Universiteti i Oksfordit dhe DeepMind trajnuan IA për shfaqjet e transmetuara nga janari 2010 deri në dhjetor 2015. Pastaj ata testuan performancën e saj në programet e transmetuara në mes të marsit dhe shtatorit 2016.

Vetëm duke shikuar në buzët e çdo folësi, sistemi deshifroi saktë fraza të tërë, me shembuj, përfshirë “Ne e dimë se do të jemi qindra gazetarëve këtu” dhe “Sipas shifrave të fundit nga Zyra e Statistikave Kombëtare”.

Këtu është një klip nga databaza pa titra:

Dhe këtu është i njëjtë klip me titra të ofruara nga sistemi i IA:

IA tejkaloi shumë një profesionist buzë-lexues i cili u përpoq që të deshifroj 200 klipe të zgjedhura rastësisht prej të dhënave.

Profesionisti ishte i saktë vetëm në 12.4 për qind e fjalëve. Por IA ishe e saktë në 46.8 për qind të të gjitha fjalëve prej marsit deri në shtator të të dhënave pa asnjë gabim. Dhe shumë nga gabimet e saj ishin rrëshqitje të vogla, si për shembull mungesa e një “s” në fund të një fjale. Me këto rezultate, sistemi gjithashtu tejkalon të gjitha sistemet e tjera automatike per buzë-lexim.

“Është një hap i madh për zhvillimin e sistemeve plotësisht automatike për buzë-lexim”, thotë Ziheng Zhou në Universitetin e Oulu në Finlandë. “Pa këtë grup të madh të të dhënave, është shumë e vështirë për ne për të verifikuar teknologjitë e reja si kjo”.

Dy javë më parë, një sistem i ngjashëm i mësimit të thellë, i quajtur LipNet – poashtu i zhvilluar në Universitetin e Oksfordit – tejkaloi njerëzit në një buzë-lexim të të dhënave të njohur si GRID. Por GRID përmban vetëm një fjalor prej 51 fjalëve të veçanta, ndërsa të dhënat e BBC përmbajnë rreth 17,500 fjalë të veçanta, duke e bërë atë një sfidë shumë më të madhe.

Përveç kësaj, gramatika nga të dhënat e caktuara në BBC vjen nga një shumëllojshmëri e gjerë e fjalëve të vërteta të njeriut, ndërsa gramatika me 33.000 fjali tek GRID ndjek të njëjtin model dhe kështu është shumë më e lehtë që të parashikohet.

Grupi i DeepMind dhe Oksford thotë se do të nxjerrë në public të dhënat e saj nga BBC, si një burim i trajnimit. Yannis Assael, i cili është duke punuar në LipNet, thotë se ai i gëzohet faktit që do të përdorë ato.

Foto Lajm

Materialet dhe informacionet në këtë portal nuk mund të kopjohen, të shtypen, ose të përdoren për qëllime komerciale, pa miratimin e grupit medial. Çdo kopjim dhe publikim i paautorizuar paraqet shkelje të të drejtave të autorit dhe të pronës intelektuale dhe si i tillë sanksionohet me dispozitat ligjore në fuqi.

E-Mail: info@gazetainfopress.com, Tel: +386 49 102 742, +377 44 587 400