Euskararen Erreferentzia Corpusa aurkeztu berri du Euskaltzaindiak, euskararen egunean eguneko erabileraren berri izateko eta hizkuntza teknologikoek ekarri dituzten erronka berriei aurre egiteko asmoarekin: "Erreferentzia-corpusa da: alegia, oreka baten bila doana, hizkuntzaren nondik norako zehatzak eta orekatuak bildu nahi dituena, arlo desberdinetako laginak bilduz, egungo euskararen isla emanez. Irekia ere bada, orain arteko materialak bildu dituena eta geroago garrenean ere zabaltzen joango dena, eragile eta material berriekin. Eta, nola ez, kolektiboa da, Euskaltzaindiak Euskal Herriko 68 erakunde pribatu eta publikoekin batera egin duelako, hedabide nagusiekin eta gizarte-eragile askorekin batera".
Hain zuzen, atzo, martxoak 31, egin zuten aurkezpena Bilbon, eta, besteak beste, han izan ziren Urrutiarekin batera Ibone Bengoetxea Eusko Jaurlaritzako lehendakariordea eta Kultura eta Hizkuntza Politikako sailburua, Miriam Urkia euskaltzain oso aretxabaletarra eta Euskaltzaindiaren Hiztegia egitasmoko arduraduna, eta Aitor Maritxalar Akademiaren aholkulari teknologikoa.
Corpusaren nondik-norakoak
Urkiaren hitzetan, "datu-bilduma handi bat" da hizkuntza-corpusa, "egituratua, erabilera errealetan oinarritua eta linguistikoki prozesatua, hizkuntzaren atal baten erakusgarritzat erabiltzen dena", eta erreferentzia-corpusa deritzo, berriz, "hizkuntza baten garai zehatz baten ahalik eta erakusgarririk xeheena –eta aldi berean zabalena– izateko sortu den corpusari". Hala, era horretan, "Euskararen Erreferentzia Corpusa analisi linguistikorako, ikerketa automatikorako edo hizkuntza-ikerketen hipotesiak baliozkotzeko tresna funtsezkoa da", eta erreferente izatea nahi dute "hizkuntza, ikerketa edo literatura helburuetarako" ere: "Gainera, egungo egoera islatzen duen neurrian, hizkuntzaren irakaskuntzan jarduten dutenek, zuzentzaileek... erabilgarri izango dute, lexiko eta gramatika zalantzak argitzeko, eta, jakina, corpus handi horietarako eredu egokiak balioztatzeko ere bai".
Corpusaren lehen bertsio honetan 123.124 dokumentu, 154,21 milioi testu-hitz eta 129.817 lema bildu dituzte, 2000tik 2023ra bitartean euskaraz idatzitako edo ekoiztutako testuetatik hartu dituztenak; hala ere, corpusa "irekia" denez, sustatzaileen asmoa eguneratzen joatea da.
Hemen duzue Euskararen Erreferentzia Corpusa kuxkuxeatzeko aukera.