EROSKI CONSUMER EUSKARAZ

Itzulpen automatikoarekin lotutako 3 urteko proiektu esperimental bat da (2015-2017). Proiektuaren helburua da Matxin ES-EU (gaztelania-euskara) itzultzaile automatikoa, kode irekikoa, elikaduraren arlora egokitzea; zehazki, Eroski/Consumer egitasmora. Epe ertainera, gainerako informazio-kanaletara egokituko dugu (osasuna, maskota, ingurumena eta abar).

Proiektua

Itzultzaile automatikoa
ES > EU

Hiru erakunde daude proiektu berritzaile honen atzean: Eroski Fundazioa, Elhuyar eta UPV/EHUko IXA ikerketa-taldea. Elhuyarrek eta IXA Taldeak sortu dute Matxin; beraz, ES-EU itzulpen automatikoan aitzindari gisa parte hartzen dute proiektuan bi taldeek.

Proiektu honen helburu nagusia da euskarazko edukiak azkarrago lortzea eta kalitate hobekoak izatea, gaztelaniaz sortutako testuak abiapuntutzat hartuta. Horretarako, ezinbestekoa da internautek parte hartzea automatikoki itzulitako testuak editatuz eta zuzenduz. Sistemak informazio guztia gordetzen du; hala, erabiltzaileek zuzendutako akatsetatik ikasiko du, eta gero eta emaitza hobeak emango ditu.

01

Itzultzaile automatikoa


Elhuyarren eta IXA Taldearen teknologia oinarri duen itzultzaile automatiko bat, aukera emango duena Eroski Consumer-en eduki guztia gaztelaniaz eta euskaraz eskuratzeko.

02

Lankidetza proiektua

Proiektu honetan, ezinbestekoa da erabiltzaile euskaldunen lankidetza, consumer.es webguneko ES > EU itzulpen automatikoaren emaitzak hobetzeko. Berariaz horretarako sortutako plataforma bat izango dute erabiltzaileek eskura.

03

Sistema adimenduna

Matxinen itzulpen automatikoak abiapuntutzat hartuz eta erabiltzaileek egindako zuzenketak gehituz, sistemak informazio guztia gordeko du; hala, akatsetatik ikasi, eta emaitza hobeak emango dizkie erabiltzaileei.

Proiektuaren
faseak

2015/2017

01

Fasea

Matxin itzultzailearen emaitzak hobetzea eta proiektuaren oinarri teknologikoa sortzea

2015

Itzulpen automatikoko sistema bat arlo jakin batera egokituta, kalitate hobeko emaitzak eskuratuko dira. Hori helburutzat harturik, zenbait hobekuntza egin dira hiztegian, sistemak elikaduraren arloko hitzak uler eta itzul ditzan. Era berean, Eroski Consumer corpuseko datuak erabili ditugu.

Web-interfaze baten bidez, corpus horrek aukera ematen du Eroski Consumer aldizkariaren eduki guztia corpusen ohiko kontsulta-moduan kontsultatzeko: lemaren, formaren edo kategoriaren arabera bila daitezke hitzak, eta emaitzak testuinguruan erakutsiko dizkigu, informazio gehigarri eta guzti (adibidez, bilaketen estatistikak). Gainera, corpus eleaniztun bat denez (euskara, gaztelania, katalana eta galegoa), aukera ematen du ikusteko bilatzen dugun hitza nola erabili den beste hizkuntza batzuetan.

Une honetan online dagoen Eroski Consumer corpusaren bertsioan, aldizkariaren 1998tik 2015era bitarteko zenbakiak daude; hau da, guztira, 197 zenbaki , eta haietako 3.250 artikulu.

Bestalde, proiektu honetarako oinarri teknologikoa sortu da; Eroski Consumer webgunea aldatu da, erabiltzaileari informazioa hizkuntza batean baino gehiagotan eskaintzeko. Gainera, lankidetzarako plataforma bat diseinatu da, Matxinen itzulpenak zuzentzeko eta hobetzeko; han gordeko da informazio guztia. Hala, pixkana hobetuz joango da sistema automatikoa.

02

Fasea

Itzulpenak lankidetzan zuzentzea

2016

Ahalik eta erabiltzaile gehienek parte hartzea lortu nahi da. Hala, behar beste datu lortuko ditugu egungo sistema automatikoaren kalitatea hobetzeko.

03

Fasea

Etengabe hobetzeko proiektua

2017

Proiektuak aurrera egin ahala, consumer.es-eko elikadurari buruzko edukia elebiduna izatea lortuko dugu. Beraz, zenbat eta erabiltzaile gehiagok parte hartu, orduan eta testu gehiago zuzenduko dira, eta orduan eta informazio gehiago izango da prozesatzeko. Horri esker, itzulpen-sistema hobetu ahal izango dugu. Hala, batetik, etengabe hobetu ahal izango dugu itzulpen automatikoko sistema, eta, bestetik, ikerketa-bide berriak abiatu ahal izango ditugu.