Project Symmetry

Machine Learning Models trained to improve the translation of content like Wikipedia in under-represented languages.

Scope of Project Symmetry

Living in a globalized country with fast-growing technologies, we need to have other sources for translation rather than just relying on the human translator.

There are great disparities in how Wikipedia can be accessed across various languages. At Grey-box, we believe that everyone should be able to access the same quality of informationregardless of their native language. This information should also be equivalent across various languages.

We want to translate content from one language in Wikipedia to another in order to improve the overall Wikipedia content, especially in underrepresented languages. For example, a local French scientist might have a great article in the French version of Wikipedia but he could be barely mentioned in the English version – or vice versa.

Project Symmetry is a collaboration between RMIT University’s students and Grey-box.

How many articles are available in Wikipedia for each language?

in English

in French

in Swahili

in Zulu

Proposed Solution

We do not have to limit ourselves to translate in only one direction. The goal is to build a semantic understanding of similar articles in various Wikipedia languages and provide relevant translations for missing information – and maybe even identify conflicting information and biases. We can do this for multiple languages at the same time, where each of the languages can contribute and benefit from the information contained in the other languages.

A team of master’s degree students from the RMIT University (Melbourne, Australia) worked on validating the use case of various models for translation, including pre-trained models like T5 and Marian and models that require training like RNN.

BLEU (Bilingual Evaluation Understudy) considers different reference translations, each of which may utilize a distinctive word choice to interpret the same source word. The BLEU metric ranges from 0 to 1. Hence, this metric was used to measure the accuracy.

How It Works

Step 1

Comparing Translation Model Accuracy (English to French) Using the BLEU Score

ORIGINAL COVID-19 ARTICLE

Symptoms of COVID-19 are variable, but often include fever, cough, headache, fatigue, breathing difficulties, and loss of smell and taste. Symptoms may begin one to fourteen days after exposure to the virus. At least a third of people who are infected do not develop noticeable symptoms. Of those people who develop noticeable symptoms enough to be classed as patients, most (81%) develop mild to moderate symptoms (up to mild pneumonia), while 14% develop severe symptoms (dyspnea, hypoxia, or more than 50% lung involvement on imaging), and 5% suffer critical symptoms (respiratory failure, shock, or multiorgan dysfunction).

T5 (ACCURACY: 87%)

Les symptômes de COVID-19 sont variables, mais comprennent souvent la fièvre, la toux, les maux de tête, la fatigue, les difficultés respiratoires et la perte d’odeur et de goût.

Les symptômes peuvent commencer un à quatorze jours après l’exposition au virus.

Au moins un tiers des personnes infectées ne développent pas de symptômes visibles.

Parmi les personnes qui développent des symptômes notables suffisamment pour être classées comme patients, la plupart (81 %) développent des symptômes légers à modérés (jusqu’à une pneumonie légère), alors que 14 % développent des symptômes graves (dyspnée, hypoxie ou participation pulmonaire supérieure à 50 % à l’imagerie) et 5 % souffrent de symptômes critiques

MARIAN (ACCURACY: 93%)

Les symptômes de COVID-19 sont variables, mais comprennent souvent la fièvre, la toux, les maux de tête, la fatigue, les difficultés respiratoires et la perte d’odeur et de goût.

Les symptômes peuvent commencer un à quatorze jours après l’exposition au virus.

Au moins un tiers des personnes infectées ne présentent pas de symptômes visibles.

Parmi les personnes qui développent des symptômes visibles suffisamment pour être classées comme patients, la plupart (81%) développent des symptômes légers à modérés (jusqu’à une pneumonie légère), tandis que 14% développent des symptômes sévères (dyspnée, hypoxie, ou plus de 50% d’atteinte pulmonaire sur l’imagerie), et 5% souffrent de symptômes critiques (insuffisance respiratoire, choc ou dysfonctionnement multi-organes).

Step 2

Semantic Understanding

Let’s compare our translation with the original French Wikipedia article and identify similar concepts.

Note: The color codes indicate similar concepts between the ML model’s translation and the Wikipedia French translation. The French version has a whole section (in pink) that was not found in its English version.

Therefore, this project could be used to suggest improvements to the French version of an article (by adding some missing information) as well as suggest improvement to the English version. The objective here is to create a symmetry of information across languages.

OUR TRANSLATION

Les symptômes de COVID-19 sont variables, mais comprennent souvent la fièvre, la toux, les maux de tête, la fatigue, les difficultés respiratoires et la perte d’odeur et de goût.

Les symptômes peuvent commencer un à quatorze jours après l’exposition au virus.

Au moins un tiers des personnes infectées ne présentent pas de symptômes visibles.

Parmi les personnes qui développent des symptômes visibles suffisamment pour être classées comme patients, la plupart (81%) développent des symptômes légers à modérés (jusqu’à une pneumonie légère), tandis que 14% développent des symptômes sévères (dyspnée, hypoxie, ou plus de 50% d’atteinte pulmonaire sur l’imagerie), et 5% souffrent de symptômes critiques (insuffisance respiratoire, choc ou dysfonctionnement multi-organes).

WIKIPEDIA VERSION (FRENCH)

Les symptômes les plus fréquents sont la fièvre, la toux, la fatigue et la gêne respiratoire.

Dans les formes les plus graves, l’apparition d’un syndrome de détresse respiratoire aiguë peut entraîner la mort, notamment chez les personnes plus fragiles du fait de leur âge ou en cas de comorbidités. Une autre complication mortelle est une réponse exacerbée du système immunitaire inné (choc cytokinique).

Une perte brutale de l’odorat (anosmie), associée ou non à une perte du goût (agueusie), est une manifestation relativement fréquente et parfois révélatrice de l’infection par le SARS-CoV-2.

Le taux de formes asymptomatiques est estimé à près de 20 % des personnes infectées.

La transmission interhumaine se fait surtout par gouttelettes respiratoires et aérosolisation, lorsqu’une personne respire dans un même lieu clos ou à proximité immédiate d’autres personnes.

La transmission augmente en intérieur mal ventilé et lorsque la personne infectée tousse, éternue, parle ou chante. La transmission indirecte par surface contaminée, bien que possible, n’a pas été formellement démontrée.

La période d’incubation est en moyenne de 5 à 6 jours, avec des extrêmes pouvant aller de deux à quatorze jours.

OUR SUGGESTED CONTRIBUTION

(In Italic-bold is the text added from the translated English version)

Les symptômes les plus fréquents sont la fièvre, la toux, la fatigue, la gêne respiratoire et la perte d’odeur et de goût.

Une perte brutale de l’odorat (anosmie), associée ou non à une perte du goût (agueusie), est une manifestation relativement fréquente et parfois révélatrice de l’infection par le SARS-CoV-2.

Parmi les personnes qui développent des symptômes visibles suffisamment pour être classées comme patients, la plupart (81%) développent des symptômes légers à modérés (jusqu’à une pneumonie légère).

Dans les formes les plus graves, l’apparition d’un syndrome de détresse respiratoire aiguë peut entraîner la mort, notamment chez les personnes plus fragiles du fait de leur âge ou en cas de comorbidités.

Une autre complication mortelle est une réponse exacerbée du système immunitaire inné (choc cytokinique).

Au moins un tiers (20%) des personnes infectées ne présentent pas de symptômes visibles (forme asymptomatique).

La transmission interhumaine se fait surtout par gouttelettes respiratoires et aérosolisation, lorsqu’une personne respire dans un même lieu clos ou à proximité immédiate d’autres personnes.

La transmission augmente en intérieur mal ventilé et lorsque la personne infectée tousse, éternue, parle ou chante. La transmission indirecte par surface contaminée, bien que possible, n’a pas été formellement démontrée.

La période d’incubation est en moyenne de 5 à 6 jours, avec des extrêmes pouvant aller de deux à quatorze jours.

How does Project Symmetry contribute to the SDG Goals?

Project Symmetry can be utilized by researchers, educators and field workers to localize educational materials which creates more inclusive and customizable programs that better fit the needs of the learners.

Project Symmetry is a joint EdTech research project between an educational institution (RMIT University) and a nonprofit tech startup (Grey-box), combining academic and industrial knowledge and expertise. The research project focuses on training pre-existing Machine Learning models to improve the accuracy of language translations.

goal17sdg

Project Symmetry helps develop a sustainable and accessible future for all. By utilizing Project Symmetry, the aim is to speed up the translation efforts of Wikipedia content into under-represented languages. This can help lead to higher education and more equality. Project Symmetry will promote social, economic and political inclusion to every audience regardless of their native language as they will be able to access the same quality of information.

Watch Our Presentation on Project Symmetry

Shown At MozFest 2023

Related Work

Project Focus Area Contribution/ Link
UNI Project Edtech, Social Innovation Increase the quality and quantity of digital content to be accessed offline in less represented languages
Web Scraper/ Crawler Edtech, Tools and Platforms More digital content to be translated, populated, and scraped, tailoring to the needs of educators

Discover opportunities

in EdTech research at Grey-box