Josu Aztiria: "Guk, euskaratik, geure baliabide teknologiko propioak izatea eta garatzea da inportantea"

Eneko Azkarate Laspiur 2023ko api. 6a, 12:00
Josu Aztiria, Arrasaten, Goienaren egoitzan, oraingo astelehenean.

Elhuyar Fundazioaren barruan sortutako Orai NLP Teknologiak enpresako koordinatzaileak adimen artifizialari buruz dihardu. Alor horretan sortzen diren aukerez, mehatxuez, lorpenez, datorrenaz… GOIENA.EUS-en erabiltzaileen eskura jarri den ahots-sintesiarekin lortutako proiektuaren gainean ere badihardu.

Zer da Orai?

Elhuyar Fundazioaren baitan iaz sortu genuen enpresa da. Elhuyarren urteetako esperientzia baliatuz, adimen artifizialak dakartzan erronkei modu berezituagoan erantzuteko. Elhuyar, gainera, askotan hiztegiarekin-eta lotzen da, eta Oraik bestelako eremuei heldu nahi die, modu espezializatuagoan.

Adimen artifizialaren alorrean ari zarete lanean. Hain justu ere, gaur egun gori-gori dagoen alorra, sortzen dituen aukerengatik.

Duela hiru bat urte izan zen eztanda bat, itzulpen automatikoan egin ziren hobekuntzengatik. Euskaran ere jauzi kualitatibo handia eman zen. Orain sortu diren sistemak, ordea, gauza dira zehaztasun handiarekin hizkuntzak sortzeko. Makinak gauza dira testuak laburtzeko, gai nagusiak ekartzeko, elkarrizketa bat eroateko. Hori guztia herritarrengana heldu da. Kalitatearen aldetik jauzi handia eman da. Bereziki, hizkuntza handietan: ingelesean eta gaztelanian. Euskaran, ez horrenbestekoa.

Zergatik diozu hori?

Bilioika parametro darabiltelako. 150 milioi parametro erabili izan ditugu guk euskaran. Horiekin, hizkuntza xehetasun handiz ulertzeko gauza da makina. Oraingo teknologiak, GPT atzean dagoenak, 180 bilioi dauzka. Eta, bestalde, corpusak, testuak, ere askoz ere gehiago dira ingelesez eta gaztelaniaz. Trilioiak dituzte horiek. Euskarak 300 milioi hitz dauzka, gutxi gorabehera.

"Makinek adibide batzuetatik ikasten dute eta beren modura interpretatzen dute. Gauza batzuk ezin ditugu egiazkotzat jo"

Teknologiaren aurrerapen azkar horrek mesede egiten dio euskara bezalako hizkuntza txiki bati?

Horrelako tresnak masiboki ari gara erabiltzen. Eta gure hizkuntza hor ez badago… Gure premien arabera erabili behar dugu, ze arriskuak ere badituzte. Makinek adibide batzuetatik ikasten dute eta beren modura interpretatzen dute. Gauza batzuk ezin ditugu egiazkotzat jo. Guk geure baliabide teknologiko propioak izatea, garatzea, da inportantea. Bestela, mendekotasun handia sortzen zaigu. Horrek ez du esan nahi, esaterako, Chat GPT euskaraz egotea txarra denik edo Googlek bilaketa euskaraz egiteko aukera ematea txarra denik.

GOIENA.EUS-eko testuak ahots bidez eman ahal izateko, ze teknologia erabili duzue?

Ikasketa sakona edo deep learning deitzen zaiona. Lehenbizi, adibideak sortzen dira corpus jakinetan, oso modu adierazgarrian. Hizlariak hainbat audio-ordu grabatzen ditu. Grabazio horiekin, corpus horiekin, entrenatzen da hainbat algoritmoren bidez. Arkitektura neuronala sortzen da. Azkenean, ahots sintetiko natural bat lortzen da.

GOIENA.EUS-en kasuan, esaldi asko grabatu dituzte hiru kazetarik, ordu asko sartuz.

Bai, hala da. Gaur egun, ordubeteko grabaketekin gauza gara antzeko emaitzak lortzeko.

"Beste proiektu batzuetan aritu gara, baina Goienako ahotsak oso ondo geratu dira. Kalitate handiko emaitza da"

Aitzindaria da GOIENA.EUS, alde horretatik?

Bai, modu horretan eginda eta emaitza horiekin, lehen hedabidea da. Tokikom elkarteko beste hedabide batzuekin ere ari gara antzeko proiektuetan.

Emaitzarekin gustura geratu zarete?

Bai, oso gustura. Beste proiektu batzuetan aritu gara, baina Goienako ahotsak oso ondo geratu dira. Kalitate handiko emaitza da. Jakina, horrek oraindik ere garapenak izan ditzake. Helburua zen kazetariaren ahotsak imitatzea eta albisteak entzuteko sentsazio atsegina lortzea, eta hori lortu da.

Azpitituluak euskaraz sortzeko beste proiektu batean ere ari zarete. Zertan?

Goienarekin, Goineural izeneko proiektu baten. Goiena gaur egun gauza da edozein bideo azpititulatzeko. Baina hobeto dabil hizkera formal batean oinarrituta, albistea irakurria denean. Euskalkiarekin ere ari gara lanean. Arrasateko euskararekin proba batzuk egin ditugu. Aditz-taulak badaude, araututa dago, liburuak daude…

Iraultza izan da Chat GPT. Baita zuendako ere?

Ustekabe atsegina izan da, bai. Emaitza harritzeko modukoa da. Horrek eskatzen digu birkokapen bat. Ezagutzen ditugu erabiltzen dituzten teknikak eta arkitekturak, baina benetako disrupzioa izan da.

Adimen artifiziala ari da aldatzen hainbat lan. Zenbateraino?

Esaten da lan automatizatua ordezkatuko duela adimen artifizialak. Baina lan intelektualean ere eragina izango du. Lan administratiboan, abokatuen hainbat lanetan… Sortuko dira beste lan batzuk, baina beste batzuk ordezkatu ere bai.

"Albiste faltsuak dira arazo. Horiek detektatzea da erronka. Horretan ari gara"

Kazetariaren lana zenbateraino ordezka dezake ahots automatiko batek?

Ondo egindako kazetaritza hor egongo da beti. Kazetariaren sena, testuingurua, gai berriak, ikerketa edo lanketa handiagoa eskatzen dutenak… Baina gauza mekaniko asko, hainbat albiste labur… beharbada, erraz egingo ditu makinak. Hori izango da erabiltzaileak baloratuko duena.

Albiste faltsuak, ustez pertsona ezagun batek egindako adierazpenak, ikusten ari gara adimen artifizialarekin. Horiek antzematea eta saihestea izango da erronka?

Bai. Arazoa dira. Detektatzea da erronka. Horretan ere bagabiltza.

Orain erabiltzaileen eskura Goienak jarri duen ahots sintesiarenak ze bilakaera izan dezake aurrerantzean?

Ahotsarenean, geroz eta hobeto egitea, espresabideari eta naturaltasunari dagokionez. Edo gauza izatea, esaterako, idatzizko erreportaje luze batetik poscasta egiteko. Edo azpitituluak ere askoz hobeto egitea; batez ere, aldaera informaletan edota euskalkietan. Edo hedabide irisgarriagoa izatea. Edo pertsona jakinei eduki mota jakin bat emateko ere aukera sortzea, edukia pertsonalizatzeko. Eta, azkenik, gaur egingo biltzaileetatik harago, eduki jakin batzuk esku-eskura edukitzea, modu azkarrean.

ALBISTEAK ESKUKO TELEFONOAN

Debagoieneko albiste nabarmenenak eta azken ordukoak Whatsapp edo Telegram bidez jaso gura dituzu? Harpidetu zaitez doan!

WHATSAPP: Bidali ALTA 688 69 00 07 telefono zenbakira –Whatsapp bidez–.

TELEGRAM: Batu zaitez @GoienaAlbisteak kanalera.

ASTEBURUETAKO BULETINA

Zure posta elektronikoan asteburuko albiste nabarmenekin osatutako mezua jasoko duzu. Harpidetu zaitez debalde hemen.


Harpidetza aukera guztiak