Zer da BerbaTek?
Hizkuntza, ahots eta multimedia teknologien inguruko ikerketa proiektua da; teknologia horiek bereziki euskararako landu dira. Bost kideko kontsortzioak eroan du aurrera proiektua (Elhuyar Fundazioko I+G taldea, Euskal Herriko Unibertsitateko IXA eta Aholab ikerketa-taldeak, Vicomtech zentro teknologikoa eta Tecnalia fundazioa) eta hiru urte iraun du, 2009tik 2011ra.
Zein da helburu nagusia?
Euskararendako hizkuntza, ahots eta multimedia-teknologiak ikertzea eta garatzea, etorkizuneko mundu mugikor, beti konektatu eta informazioz betean gure hizkuntzak presentzia izan dezan. Interneteko bilatzaileak, ahotsez emandako aginduei kasu egiten dieten telefono mugikorrak, itzulpen automatikoa, web semantikoa... Horiek guztiak dira teknologia horien adibide. Baina, orokorrean, horrelakoak ingelesa eta beste hizkuntza handietarako soilik egoten dira garatuta. Euskarak etorkizunean bizirik irautea nahi badugu, derrigorrezkoa da horrelakoetan ere egotea, baina konpainia handiek ez dute interesik euskara horietan txertatzeko, edo, izango balute, ez dute euskara horietara egokitzeko kostua euren gain hartu nahi.
Hiru urte hauetan zeintzuk izan dira ikerketa-lerroak?
Hiru urte iraun badu ere, ez da lehen aldia kontsortzioko bost kideok elkarrekin ikertzen duguna. Lehenago AnHitz proiektuan aritu ginen 2006-2008 artean, eta aurretik Hizking XXI proiektuan 2002-2004 artean. Erakunde asko dira, nor bere espezialitatearekin, eta ikerketa-lerroak ugariak izan dira: testu-analizatzaileak, corpusak, ahotsaren sintesia, ingurune birtualak, hiztegiak automatikoki eraikitzea, itzulpen automatikoa, web semantikoa, galderak erantzuteko sistemak, avatarrak, ontologiak, ahotsaren ezagutza, bilatzaile eleanitzak, elkarrizketa sistemak, ahotsen transformazioa, laburpen automatikoa, corpusak webetik automatikoki eraikitzea, ariketa eta adibideak testuetatik automatikoki sortzea, testuen subjektibotasuna eta polaritatea aztertzea, dokumentu eleanitzak semantikoki erlazionatzea... Denak aipatzea ezinezkoa da, zehaztasun gehiago BerbaTek proiektuaren webguneko ikerketa-lerroen atalean ikus daiteke, baita www.zientzia.net/artikuluak/berbatek-euskarazko-hizkuntza-teknologiak-martxan/ orrian ere.
Joan den astean horren gaineko emaitzak aurkeztu dituzue. Gustura egindako lanarekin?
Bai, pozik egoteko moduan gaudela uste dut. Egindako lanari esker, euskarak asko aurreratu du teknologia hauei dagokienez. Arlo batzuetan aurrerapauso handiak eman dira ikerketa mailan; beste arlo batzuk, berriz, erabiltzeko moduan daude, eta aplikazioak egin ere egin ditugu. Aplikazio horietako batzuk webgunearen aplikazioen atalean ikus daitezke.
Hiru demo ere garatu dituzue. Zertan datza bakoitza?
BerbaTek ikerketa-proiektua bada ere, gure nahia ez da ikerketa horiek kaxoi batean ahaztuta gelditzea, landutako teknologia horiek aplikazioa izatea baizik. Horregatik, hiru demo muntatu ditugu hainbat teknologia konbinatuta, zein gauza erabilgarriak egin daitezkeen erakusteko. Eta demoak hizkuntzen industriaren hiru azpisektoreetako bakoitzerako egin ditugu: bat itzulpenen arlorako (itzulpena, interpretazioa, bikoizketa...), beste bat edukien alorrerako (argitaletxeak, komunikabideak...) eta beste bat irakaskuntzaren alorrerako (hizkuntzen irakaskuntza, irakaskuntza arautua, akademiak...).
Itzulpenen arlorako egin dugun demoa dokumentalen bikoizketa automatikoarena da. Filmak automatikoki bikoiztea erronka zaila da, oraingoz (ahots asko, lagunarteko hizkera, abiadura ezberdinak...), baina dokumentalak (edo dokumental mota bat, hizlari bakarrekoa eta off-eko ahotsarekin, non ezpainekin koordinazioa ez den beharrezkoa edo garrantzitsua...) automatikoki bikoizten dituen demo aplikazio bat egin dugu. Gaztelaniaz dagoen dokumental bat eta han esaten denaren transkripzio bat emanik, azpititulu-fitxategi bat sortzen da (transkripzioa, baina esaldi bakoitzaren hasierako eta bukaerako uneekin) eta itzulpen automatiko bidez euskarara itzultzen dira azpitituluok, gero ahots-sintesi bidez euskarazko audioa sortzeko.
Edukien arlorako, zientzia eta teknologiako bilatzaile semantiko multimedia bat egin dugu. Bilatzaile horrek zientzia eta teknologiako WNTerm ontologia espezializatua du oinarri (zientzia eta teknologiaren alorreko kontzeptuak semantikoki erlazionatuta ageri diren sare bat, azpiklaseekin, sinonimoekin eta abar), eta Elhuyarren zientzia eta teknologiazko eduki audiobisualaren gainean bilatzen du. Termino bat bilatzen denean, ontologiaren bidez termino horren sinonimoak, azpiklaseak edo superklaseak dituzten edukiak ere bila daitezke. Gainera, emaitza irudi bat denean, antzeko irudiak ere ematen ditu.
Azkenik, irakaskuntzaren alorrerako, hizkuntzen irakaskuntzako tutore pertsonal baten demoa egin dugu. Tutore hori emozioak adieraz ditzakeen 3Dko pertsonaia bat da, euskaraz mintzatzen dena eta euskaraz ahoz esaten zaiona ulertzen duena. Eta tutoreak hainbat gauzatan lagun gaitzake: automatikoki sortutako gramatika-ariketak (aditzak, deklinabidea...) edo ulermen-ariketak (testu batean hutsuneak betetzea, hainbat aukera emanda) egin ditzakegu, ahoskera ebaluatzen digu, edo idazketarako laguntzak ematen ditu (aditzen jokabidea, zenbakien idazketa, hiztegi-kontsultak...).
Demoak gure webguneko demoen atalean ikus daitezke.
Hizkuntza-teknologietan zer nolako eragina izango du ikerketak?
Ikusi beharko... Gu ikerketara dedikatzen garen erakundeak gara, eta teknologia hauek merkaturatzea gure esparrutik kanpo dago. Hala ere, kasu askotan, teknologia batzuk online jarri ditugu jendeak baliatzeko, eta demoak ere egin eta ezagutarazi ditugu jendeak eta enpresek jakin dezaten zer egin daitekeen teknologia horiekin. Baina horraino irits gaitezke... Orain, enpresek edo erakundeek eman behar dute hurrengo pausua eta apustua egin teknologia hauek erabili eta merkaturatzeko. Guk gustura asko hartuko dugu horretarako edozein proposamen.
Hemendik aurrera zer?
Euskarak hizkuntza, ahots eta multimedia teknologien arloan asko aurreratu badu ere, asko dago oraindik egiteko: hainbat arlotan oraindik agian ez dago beste hizkuntzen mailan, badagoenetan ere ezin gara lo gelditu teknologiok oso azkar eboluzionatzen dutelako, eta arlo berriak sortzen joaten dira, gainera. Lanean jarraituko dugu horren garrantzitsua den alor hauetan euskara atzean geldi ez dadin.