Proyecto Simetría

Modelos de aprendizaje automático entrenados para mejorar la traducción de contenidos como los de Wikipedia en lenguas poco representadas.

Alcance del proyecto Simetría

Al vivir en un país globalizado con tecnologías de rápido crecimiento, necesitamos contar con otras fuentes de traducción en lugar de confiar únicamente en el traductor humano.

Existen grandes disparidades en el acceso a Wikipedia en los distintos idiomas. En Grey-box creemos que todo el mundo debería poder acceder a la misma calidad de información, independientemente de su lengua materna. Esta información también debe ser equivalente en varias lenguas.

Queremos traducir el contenido de un idioma de la Wikipedia a otro para mejorar el contenido general de la Wikipedia, especialmente en los idiomas poco representados. Por ejemplo, un científico francés local puede tener un gran artículo en la versión francesa de Wikipedia, pero apenas se le menciona en la versión inglesa, o viceversa.

El proyecto Symmetry es una colaboración entre los estudiantes de la Universidad RMIT y Grey-box.

¿Cuántos artículos están disponibles en Wikipedia para cada idioma?

en inglés

en francés

en suajili

en zulú

Solución propuesta

No tenemos que limitarnos a traducir en una sola dirección. El objetivo es construir una comprensión semántica de artículos similares en varios idiomas de Wikipedia y proporcionar traducciones pertinentes para la información que falta – y tal vez incluso identificar la información conflictiva y los prejuicios. Podemos hacer esto para varias lenguas al mismo tiempo, donde cada una de ellas puede contribuir y beneficiarse de la información contenida en las otras lenguas.

Un equipo de estudiantes de máster de la Universidad RMIT (Melbourne, Australia) trabajó en la validación del caso de uso de varios modelos para la traducción, incluyendo modelos preentrenados como T5 y Marian y modelos que requieren entrenamiento como RNN.

El BLEU (Bilingual Evaluation Understudy)considera diferentes traducciones de referencia, cada una de las cuales puede utilizar una elección de palabras distinta para interpretar la misma palabra de origen. La métrica BLEU oscila entre 0 y 1. Por lo tanto, esta métrica se utilizó para medir la precisión.

Cómo funciona

Paso 1

Comparación de la precisión del modelo de traducción (inglés a francés) mediante la puntuación BLEU

ARTÍCULO ORIGINAL DE COVID-19

Los síntomas de la COVID-19 son variables, pero suelen incluir fiebre, tos, dolor de cabeza, fatiga, dificultades respiratorias y pérdida de olfato y gusto. Los síntomas pueden comenzar entre uno y catorce días después de la exposición al virus. Al menos un tercio de las personas infectadas no desarrollan síntomas perceptibles. De las personas que desarrollan síntomas lo suficientemente notables como para ser clasificadas como pacientes, la mayoría (81%) desarrolla síntomas leves o moderados (hasta una neumonía leve), mientras que el 14% desarrolla síntomas graves (disnea, hipoxia o más del 50% de afectación pulmonar en las imágenes) y el 5% sufre síntomas críticos (insuficiencia respiratoria, shock o disfunción multiorgánica). Traducción realizada con la versión gratuita del traductor www.DeepL.com/Translator

T5 (PRECISIÓN: 87%)

Les symptômes de COVID-19 sont variables, mais comprennent souvent la fièvre, la toux, les maux de tête, la fatigue, les difficultés respiratoires et la perte d’odeur et de goût.

Les symptômes peuvent commencer un à quatorze jours après l’exposition au virus.

Au moins un tiers des personnes infectées ne développent pas de symptômes visibles.

Parmi les personnes qui développent des symptômes notables suffisamment pour être classées comme patients, la plupart (81 %) développent des symptômes légers à modérés (jusqu’à une pneumonie légère), alors que 14 % développent des symptômes graves (dyspnée, hypoxie ou participation pulmonaire supérieure à 50 % à l’imagerie) et 5 % souffrent de symptômes critiques

MARIAN (PRECISIÓN: 93%)

Les symptômes de COVID-19 sont variables, mais comprennent souvent la fièvre, la toux, les maux de tête, la fatigue, les difficultés respiratoires et la perte d’odeur et de goût.

Les symptômes peuvent commencer un à quatorze jours après l’exposition au virus.

Au moins un tiers des personnes infectées ne présentent pas de symptômes visibles.

Parmi les personnes qui développent des symptômes visibles suffisamment pour être classées comme patients, la plupart (81%) développent des symptômes légers à modérés (jusqu’à une pneumonie légère), tandis que 14% développent des symptômes sévères (dyspnée, hypoxie, ou plus de 50% d’atteinte pulmonaire sur l’imagerie), et 5% souffrent de symptômes critiques (insuffisance respiratoire, choc ou dysfonctionnement multi-organes).

Paso 2

Comprensión semántica

Comparemos nuestra traducción con el artículo original de Wikipedia en francés e identifiquemos conceptos similares.

Nota: Los códigos de color indican conceptos similares entre la traducción del modelo ML y la traducción al francés de Wikipedia. La versión francesa tiene toda una sección (en rosa) que no se encuentra en su versión inglesa.

Por lo tanto, este proyecto podría utilizarse para sugerir mejoras en la versión francesa de un artículo (añadiendo alguna información que falte), así como para sugerir mejoras en la versión inglesa. El objetivo es crear una simetría de información entre las lenguas.

NUESTRA TRADUCCIÓN

Les symptômes de COVID-19 sont variables, mais comprennent souvent la fièvre, la toux, les maux de tête, la fatigue, les difficultés respiratoires et la perte d’odeur et de goût.

Les symptômes peuvent commencer un à quatorze jours après l’exposition au virus.

Au moins un tiers des personnes infectées ne présentent pas de symptômes visibles.

Parmi les personnes qui développent des symptômes visibles suffisamment pour être classées comme patients, la plupart (81%) développent des symptômes légers à modérés (jusqu’à une pneumonie légère), tandis que 14% développent des symptômes sévères (dyspnée, hypoxie, ou plus de 50% d’atteinte pulmonaire sur l’imagerie), et 5% souffrent de symptômes critiques (insuffisance respiratoire, choc ou dysfonctionnement multi-organes).

VERSIÓN DE WIKIPEDIA (FRANCÉS)

Los síntomas más comunes son fiebre, tos, fatiga y dificultades respiratorias.

En las formas más graves, la aparición del síndrome de dificultad respiratoria aguda puede conducir a la muerte, sobre todo en personas más frágiles por su edad o en casos de comorbilidades. Otra complicación mortal es una respuesta exacerbada del sistema inmunitario innato (shock de citoquinas).

La pérdida brusca del olfato (anosmia), con o sin pérdida del gusto (agueusia), es una manifestación relativamente frecuente y a veces reveladora de la infección por el SRAS-CoV-2.

Se estima que la tasa de formas asintomáticas es de alrededor del 20% de los infectados.

La transmisión de persona a persona se produce principalmente por gotitas respiratorias y por aerosolización, cuando una persona respira en el mismo espacio cerrado o muy cerca de otras personas.

La transmisión aumenta en ambientes interiores poco ventilados y cuando la persona infectada tose, estornuda, habla o canta. La transmisión indirecta a través de superficies contaminadas, aunque es posible, no se ha demostrado formalmente.

El periodo medio de incubación es de 5-6 días, con extremos que van de dos a catorce días.

NUESTRA CONTRIBUCIÓN SUGERIDA

(En cursiva y negrita está el texto añadido de la versión traducida al inglés)

Los síntomas más comunes son fiebre, tos, fatiga, dificultades respiratorias y la pérdida del olfato y el gusto.

La pérdida brusca del olfato (anosmia), con o sin pérdida del gusto (agueusia), es una manifestación relativamente frecuente y a veces reveladora de la infección por el SRAS-CoV-2.

De los que desarrollan síntomas visibles suficientes para ser clasificados como pacientes, la mayoría (81%) desarrollan síntomas de leves a moderados (hasta una neumonía leve).

En las formas más graves, la aparición del síndrome de dificultad respiratoria aguda puede conducir a la muerte, sobre todo en personas más frágiles por su edad o en casos de comorbilidades.

Otra complicación mortal es una respuesta exacerbada del sistema inmunitario innato (shock de citoquinas).

Al menos un tercio (20%) de los infectados no presentan síntomas visibles (forma asintomática).

La transmisión de persona a persona se produce principalmente por gotitas respiratorias y por aerosolización, cuando una persona respira en el mismo espacio cerrado o muy cerca de otras personas.

La transmisión aumenta en ambientes interiores poco ventilados y cuando la persona infectada tose, estornuda, habla o canta. La transmisión indirecta a través de superficies contaminadas, aunque es posible, no se ha demostrado formalmente.

El periodo medio de incubación es de 5-6 días, con extremos que van de dos a catorce días.

¿Cómo contribuye el Proyecto Symmetry a los Objetivos de Desarrollo Sostenible?

El Proyecto Symmetry puede ser utilizado por investigadores, educadores y trabajadores de campo para localizar los materiales educativos, lo que crea programas más inclusivos y personalizables que se adaptan mejor a las necesidades de los alumnos.

El Proyecto Symmetry es un proyecto de investigación EdTech conjunto entre una institución educativa (RMIT University) y una startup tecnológica sin ánimo de lucro (Grey-box), que combina conocimientos y experiencia académica e industrial. El proyecto de investigación se centra en el entrenamiento de modelos de aprendizaje automático preexistentes para mejorar la precisión de las traducciones de idiomas.

El Proyecto Symmetry será beneficioso para los recursos educativos abiertos como Wikipedia, ya que permitirá que la información esté disponible en diferentes idiomas, en lugar de limitar los recursos sólo a los lectores ingleses. Esto promoverá la inclusión social, económica y política de todos los públicos, independientemente de su lengua materna, ya que podrán acceder a la misma calidad de información.

Trabajos relacionados

ProyectoÁrea de interésContribución/ Enlace
Proyecto UNIEdtech, Innovación SocialAumentar la calidad y la cantidad de contenidos digitales a los que se puede acceder sin conexión en las lenguas menos representadas
Raspador web/ CrawlerTecnología educativa, herramientas y plataformasMás contenidos digitales para traducir, poblar y raspar, adaptándose a las necesidades de los educadores

Descubra las oportunidades

en la investigación de EdTech en Grey-box