Projet Symétrie

Modèles d’apprentissage automatique formés pour améliorer la traduction de contenus comme Wikipédia dans des langues sous-représentées.

Portée du projet Symétrie

Dans un pays mondialisé où les technologies se développent rapidement, nous devons disposer d’autres sources de traduction plutôt que de nous en remettre uniquement au traducteur humain.

Il existe de grandes disparités dans la manière d’accéder à Wikipédia dans les différentes langues. Chez Grey-box, nous pensons que chacun doit pouvoir accéder à la même qualité d’information, quelle que soit sa langue maternelle. Ces informations doivent également être équivalentes dans les différentes langues.

Nous voulons traduire le contenu d’une langue de Wikipédia vers une autre afin d’améliorer le contenu global de Wikipédia, en particulier dans les langues sous-représentées. Par exemple, un scientifique français local peut faire l’objet d’un excellent article dans la version française de Wikipédia, mais il peut être à peine mentionné dans la version anglaise – ou vice versa.

Le projet Symétrie est une collaboration entre les étudiants de l’université RMIT et Grey-box.

Combien d’articles sont disponibles dans Wikipédia pour chaque langue ?

en anglais

en français

en swahili

en zoulou

Solution proposée

Nous ne devons pas nous limiter à traduire dans une seule direction. L’objectif est de construire une compréhension sémantique d’articles similaires dans diverses langues de Wikipédia et fournir des traductions pertinentes pour les informations manquantes – et peut-être même identifier les informations contradictoires et les préjugés. Nous pouvons le faire pour plusieurs langues en même temps, où chacune des langues peut contribuer et bénéficier des informations contenues dans les autres langues.

Une équipe d’étudiants en maîtrise de l’Université RMIT (Melbourne, Australie) a travaillé à la validation du cas d’utilisation de divers modèles pour la traduction, y compris des modèles pré-entraînés comme T5 et Marian et des modèles nécessitant un entraînement comme RNN.

Le BLEU (Bilingual Evaluation Understudy) prend en compte différentes traductions de référence, chacune d’entre elles pouvant utiliser un choix de mots distinct pour interpréter le même mot source. La métrique BLEU va de 0 à 1, c’est pourquoi elle a été utilisée pour mesurer la précision.

Comment cela fonctionne

Étape 1

Comparaison de l’exactitude des modèles de traduction (anglais-français) à l’aide du score BLEU

ARTICLE ORIGINAL SUR LE COVID-19

Les symptômes du COVID-19 sont variables, mais comprennent souvent fièvre, toux, maux de tête, fatigue, difficultés respiratoires et perte de l’odorat et du goût. Les symptômes peuvent commencer un à quatorze jours après l’exposition au virus. Au moins un tiers des personnes infectées ne développent pas de symptômes visibles. Parmi les personnes qui présentent des symptômes suffisamment marqués pour être considérées comme des patients, la plupart (81 %) présentent des symptômes légers à modérés (jusqu’à une pneumonie légère), tandis que 14 % présentent des symptômes graves (dyspnée, hypoxie ou plus de 50 % d’atteinte pulmonaire à l’imagerie) et 5 % présentent des symptômes critiques (insuffisance respiratoire, choc ou dysfonctionnement de plusieurs organes). Traduit avec www.DeepL.com/Translator (version gratuite)

T5 (PRÉCISION : 87%)

Les symptômes de COVID-19 sont variables, mais comprennent souvent la fièvre, la toux, les maux de tête, la fatigue, les difficultés respiratoires et la perte d’odeur et de goût.

Les symptômes peuvent commencer un à quatorze jours après l’exposition au virus.

Au moins un tiers des personnes infectées ne développent pas de symptômes visibles.

Parmi les personnes qui développent des symptômes notables suffisamment pour être classées comme patients, la plupart (81 %) développent des symptômes légers à modérés (jusqu’à une pneumonie légère), alors que 14 % développent des symptômes graves (dyspnée, hypoxie ou participation pulmonaire supérieure à 50 % à l’imagerie) et 5 % souffrent de symptômes critiques

MARIAN (PRÉCISION : 93%)

Les symptômes de COVID-19 sont variables, mais comprennent souvent la fièvre, la toux, les maux de tête, la fatigue, les difficultés respiratoires et la perte d’odeur et de goût.

Les symptômes peuvent commencer un à quatorze jours après l’exposition au virus.

Au moins un tiers des personnes infectées ne présentent pas de symptômes visibles.

Parmi les personnes qui développent des symptômes visibles suffisamment pour être classées comme patients, la plupart (81%) développent des symptômes légers à modérés (jusqu’à une pneumonie légère), tandis que 14% développent des symptômes sévères (dyspnée, hypoxie, ou plus de 50% d’atteinte pulmonaire sur l’imagerie), et 5% souffrent de symptômes critiques (insuffisance respiratoire, choc ou dysfonctionnement multi-organes).

Étape 2

Compréhension sémantique

Comparons notre traduction avec l’article original français de Wikipedia et identifions les concepts similaires.

Note : Les codes de couleur indiquent les concepts similaires entre la traduction du modèle ML et la traduction française de Wikipedia. La version française comporte toute une section (en rose) qui ne se trouvait pas dans sa version anglaise.

Par conséquent, ce projet pourrait être utilisé pour suggérer des améliorations à la version française d’un article (en ajoutant certaines informations manquantes) ainsi que pour suggérer des améliorations à la version anglaise. L’objectif est ici de créer une symétrie des informations entre les langues.

NOTRE TRADUCTION

Les symptômes de COVID-19 sont variables, mais comprennent souvent la fièvre, la toux, les maux de tête, la fatigue, les difficultés respiratoires et la perte d’odeur et de goût.

Les symptômes peuvent commencer un à quatorze jours après l’exposition au virus.

Au moins un tiers des personnes infectées ne présentent pas de symptômes visibles.

Parmi les personnes qui développent des symptômes visibles suffisamment pour être classées comme patients, la plupart (81%) développent des symptômes légers à modérés (jusqu’à une pneumonie légère), tandis que 14% développent des symptômes sévères (dyspnée, hypoxie, ou plus de 50% d’atteinte pulmonaire sur l’imagerie), et 5% souffrent de symptômes critiques (insuffisance respiratoire, choc ou dysfonctionnement multi-organes).

VERSION WIKIPEDIA (FRANÇAIS)

Les symptômes les plus fréquents sont la fièvre, la toux, la fatigue et la gêne respiratoire.

Dans les formes les plus graves, l’apparition d’un syndrome de détresse respiratoire aiguë peut entraîner la mort, notamment chez les personnes plus fragiles du fait de leur âge ou en cas de comorbidités. Une autre complication mortelle est une réponse exacerbée du système immunitaire inné (choc cytokinique).

Une perte brutale de l’odorat (anosmie), associée ou non à une perte du goût (agueusie), est une manifestation relativement fréquente et parfois révélatrice de l’infection par le SARS-CoV-2.

Le taux de formes asymptomatiques est estimé à près de 20 % des personnes infectées.

La transmission interhumaine se fait surtout par gouttelettes respiratoires et aérosolisation, lorsqu’une personne respire dans un même lieu clos ou à proximité immédiate d’autres personnes.

La transmission augmente en intérieur mal ventilé et lorsque la personne infectée tousse, éternue, parle ou chante. La transmission indirecte par surface contaminée, bien que possible, n’a pas été formellement démontrée.

La période d’incubation est en moyenne de 5 à 6 jours, avec des extrêmes pouvant aller de deux à quatorze jours.

NOTRE PROPOSITION DE CONTRIBUTION

(En italique et en gras, le texte ajouté à partir de la version anglaise traduite)

Les symptômes les plus fréquents sont la fièvre, la toux, la fatigue, la gêne respiratoire et la perte d’odeur et de goût.

Une perte brutale de l’odorat (anosmie), associée ou non à une perte du goût (agueusie), est une manifestation relativement fréquente et parfois révélatrice de l’infection par le SARS-CoV-2.

Parmi les personnes qui développent des symptômes visibles suffisamment pour être classées comme patients, la plupart (81%) développent des symptômes légers à modérés (jusqu’à une pneumonie légère).

Dans les formes les plus graves, l’apparition d’un syndrome de détresse respiratoire aiguë peut entraîner la mort, notamment chez les personnes plus fragiles du fait de leur âge ou en cas de comorbidités.

Une autre complication mortelle est une réponse exacerbée du système immunitaire inné (choc cytokinique).

Au moins un tiers (20%) des personnes infectées ne présentent pas de symptômes visibles (forme asymptomatique).

La transmission interhumaine se fait surtout par gouttelettes respiratoires et aérosolisation, lorsqu’une personne respire dans un même lieu clos ou à proximité immédiate d’autres personnes.

La transmission augmente en intérieur mal ventilé et lorsque la personne infectée tousse, éternue, parle ou chante. La transmission indirecte par surface contaminée, bien que possible, n’a pas été formellement démontrée.

La période d’incubation est en moyenne de 5 à 6 jours, avec des extrêmes pouvant aller de deux à quatorze jours.

Comment le Projet Symétrie contribue-t-il aux objectifs des ODD?

Le projet Symétrie peut être utilisé par les chercheurs, les éducateurs et les travailleurs de terrain pour localiser le matériel éducatif, ce qui crée des programmes plus inclusifs et personnalisables qui répondent mieux aux besoins des apprenants.

Le projet Symmetry est un projet de recherche EdTech conjoint entre un établissement d’enseignement (RMIT University) et une startup technologique à but non lucratif (Grey-box), combinant les connaissances et l’expertise universitaires et industrielles. Le projet de recherche se concentre sur l’entraînement de modèles d’apprentissage automatique préexistants pour améliorer la précision des traductions linguistiques.

Le projet Symétrie sera bénéfique pour les ressources éducatives ouvertes comme Wikipédia, car il permettra de rendre les informations disponibles dans différentes langues plutôt que de limiter les ressources aux seuls lecteurs anglophones. Cela favorisera l’inclusion sociale, économique et politique de tous les publics, quelle que soit leur langue maternelle, car ils pourront accéder à la même qualité d’information.

Travaux connexes

ProjetDomaine d’interventionContribution/ Lien
Projet UNIEdtech, Innovation socialeAugmenter la qualité et la quantité de contenu numérique accessible hors ligne dans les langues moins représentées.
Gratte-papier/ RampantEdtech, outils et plateformesDavantage de contenu numérique à traduire, à alimenter et à récupérer, en fonction des besoins des éducateurs.

Découvrez les opportunités

dans la recherche EdTech chez Grey-box