EROSKI CONSUMER EUSKARAZ

Se trata de un proyecto experimental de traducción automática, con tres años de duración (2015-2017). Su objetivo es adaptar el traductor automático ES-EU (español-euskera) Matxin, de código abierto, al ámbito de la alimentación y, más en concreto, al proyecto Eroski/Consumer; y a medio plazo, al resto de los canales informativos (salud, mascotas, medioambiente, etc...).

Proyecto

Traductor automático
ES > EU

Se trata de un proyecto innovador impulsado por tres entidades: Eroski Fundazioa, Elhuyar y el Grupo de investigación IXA de la UPV/EHU. Matxin ha sido creado por Elhuyar y el Grupo IXA, por lo que ambos grupos participan en el proyecto como entidades pioneras en traducción automática ES-EU.

El objetivo principal del proyecto es obtener contenidos en euskera con mayor rapidez y de mejor calidad, a partir de textos creados en castellano. Para ello, será imprescindible la colaboración de los internautas con el fin de editar y corregir los textos que se traduzcan automáticamente. El sistema guarda toda la información, para así poder aprender de los errores corregidos por la comunidad de usuarios y mejorar sus resultados paulatinamente.

01

Traductor automático


Un traductor automático basado en Matxin (creado por Elhuyar y el Grupo IXA), que permitirá obtener todo el contenido de Eroski Consumer en castellano y euskera.

02

Proyecto colaborativo

Un proyecto en el que es imprescindible la colaboración de los usuarios vascoparlantes, con el fin de mejorar los resultados de la traducción automática ES>EU en la web consumer.es. Los usuarios contarán con una plataforma diseñada expresamente para ello.

03

Sistema inteligente

Partiendo de la traducción automática de Matxin y añadiendo las correcciones realizadas por los usuarios, el sistema almacenará la información, con el fin de aprender de sus errores y ofrecer así a los usuarios unos resultados de mayor calidad.

Fases del
proyecto

2015/2017

01

Fase

Mejorar los resultados del traductor Matxin y crear la base tecnológica del proyecto

2015

Mediante la adecuación de un sistema de traducción automática a un ámbito concreto, los resultados que se obtendrán serán de mayor calidad. Con este fin se han introducido algunas mejoras en el diccionario para que el sistema automático entienda y traduzca las palabras propias del ámbito de la alimentación. Asimismo, hemos utilizado los datos del Corpus Eroski Consumer.

Mediante una interfaz web, dicho corpus permite consultar todo el contenido de la revista Eroski Consumer en el modo de consulta habitual en los corpus: se pueden realizar búsquedas por medio del lema, la forma o la categoría de una palabra y ver los resultados dentro de contextos junto a información adicional (por ejemplo, estadísticas de las búsquedas). Además, al tratarse de un corpus multilingüe (euskera, castellano, catalán y gallego), permite ver cómo se ha utilizado la palabra buscada en otros idiomas.

La versión del Corpus Ersoki Consumer que está online en este momento incluye los números de la revista publicados entre 1998 y 2015, es decir, 197 números, con un total de 3.250 artículos.

Por otra parte, se ha creado la base tecnológica para este proyecto; se ha modificado la web de Eroski Consumer para poder ofrecer al usuario información en varios idiomas. Además, se ha diseñado una plataforma colaborativa, en la que se corregirán y mejorarán las traducciones de Matxin y donde se guardará toda la información. De esta forma el sistema automático mejorará de forma paulatina.

02

Fase

Corrección colaborativa de las traducciones

2016

El objetivo es conseguir que participe el mayor número posible de usuarios y así recoger datos suficientes para mejorar la calidad del sistema automático actual.

03

Fase

Proyecto de mejora continua

2017

A medida que el proyecto vaya avanzando, lograremos que el contenido sobre alimentación de consumer.es sea bilingüe en su mayor parte. Así, cuantos más usuarios participen, más texto corregido se podrá obtener y más información se deberá procesar, lo que ayudará a mejorar el sistema de traducción. De ese modo, conseguiremos, por un lado, mejorar continuamente el sistema de traducción automática y, por otro, abrir nuevas vías de investigación.