PangeaMT Masker
Featured Image

5 lecture des minutes

20/10/2010

Beta version of NEC TM Launched

Alex Helle est chef des opérations pour l’approvisionnement ouvert d’ActivaTM de Pangeanic

Dans la mémoire de traduction centrale nationale et européenne. Avec la version bêta maintenant disponible, nous partageons une interview avec Alex pour en savoir plus sur le projet NEC TM et sur la manière dont les États membres peuvent en bénéficier.

Quels sont exactement les objectifs de NEC TM ?

Nous voulons fournir l’outil avec lequel les administrations européennes organiseront leurs achats de traduction et, parallèlement, créeront des atouts linguistiques nationaux et des données bilingues. En disposant d’un référentiel central dans lequel les administrations publiques peuvent gérer des correspondances floues et centraliser leurs mémoires de traduction, elles économisent non seulement de l’argent, mais disposent également d’une infrastructure numérique dans laquelle toutes les données textuelles bilingues créées par le biais de contrats d’achat de traduction sont stockées. Cela peut être partagé à différents niveaux ou non. Plusieurs administrations peuvent avoir des déploiements différents. Le fait est que chaque État membre peut augmenter ce nombre de trésors linguistiques nationaux avec chaque contrat de traduction, ce qui peut être fait à la volée ou à la fin d’un contrat de traduction. En bref, NEC TM fournit une infrastructure centralisée pour un partage efficace des données, une mise en correspondance des TM, une récupération des TM et une catégorisation des domaines des ressources générées dans les États membres/EEE, en mettant l’accent sur les pays disposant de faibles ressources linguistiques. Cela permettra le développement de NEC TM, qui sera un logiciel open source développé à partir de la base de données de mémoire de traduction de Pangeanic, ActivaTM.

Quels sont les avantages de NEC TM ?

Les avantages de NEC TM sont les suivants :
  • Unified TM : NEC TM est agnostique CAT, il peut donc être utilisé à partir de tout outil CAT utilisé par les services de traduction des États membres/EEE ou par les fournisseurs externes.

  • Open Source : Pangeanic transformera ce logiciel commercial en GPL (licence publique générale open source) et le personnalisera gratuitement, à utiliser par les administrations publiques.

  • Cadre solide : Le NEC TM fournira également une infrastructure centralisée pour un partage efficace des données, une mise en correspondance des TM, la récupération des TM et la catégorisation des domaines des ressources générées dans les États membres/EEE.

  • Baisse des coûts de traduction : L’objectif du consortium NEC TM Data est d’organiser des actifs bilingues nationaux inexploités pouvant être utilisés comme données ouvertes et données générales pour l’apprentissage automatique, afin de réduire les coûts de traduction au niveau national et entre les États membres. Il recueillera les mémoires de traduction des précédents contrats nationaux attribués par les États membres et les aidera à centraliser ces actifs linguistiques avec la norme NEC TM la plus performante.

  • Pont de données : Le NEC TM permettra aux administrations publiques de partager des données avec elles-mêmes et avec leurs traducteurs.

Comment ce projet a-t-il été conçu ?

Le programme de la CE était très clair sur les objectifs : Collecte de données et outils linguistiques. Nous pensions qu’une initiative comme NEC TM pourrait remplir l’option de l’outil linguistique car elle habilite les administrations publiques à rassembler des données qui sont autrement perdues et qui restent dans des silos, chez les sociétés de traduction des serveurs internes ou des PC. Les administrations publiques européennes perdent des actifs précieux qu’elles paient avec de l’argent public car elles n’ont tout simplement pas l’outil nécessaire pour organiser les référentiels (en direct ou en tant que TMX après la fin du contrat de traduction). En réalité, la plupart des sociétés de traduction exécutent des serveurs de traduction d’une manière ou d’une autre. Il s’agissait ici de trouver une solution solide qui pourrait être mise en œuvre au niveau national. Cependant, NEC TM ne sera pas mis en œuvre si nous ne connaissons pas la taille des dépenses dans chaque pays. Nous ne pouvons pas fournir le remède si nous ne savons pas qu’il existe un problème. Je n’aime pas appeler cela un problème, car ce n’est que le niveau des dépenses, mais il est difficile d’organiser quelque chose si nous ne le connaissons pas. Ainsi, parallèlement au développement logiciel, la moitié de notre projet est consacrée à une étude de marché, pays par pays, qui aidera les institutions publiques et la CE elle-même à comprendre la taille des dépenses publiques pays par pays. Ce rapport servira de base aux PAN pour parler aux autorités compétentes et faire pression pour une adoption nationale. Des efforts de diffusion vigoureux sont déployés dans 3 zones européennes : Septembre à Zagreb pour l’Europe centrale et les Balkans, Espagne, Malte et la Pologne en tant que diffusion nationale, et région du Nord en Lettonie, co-hébergement avec ELRC. Nous allons également cohéberger en France et au Luxembourg pour maximiser l’influence et la sensibilisation sur la taille du marché et les avantages d’une mémoire de traduction nationale.

How has Pangeanic helped reached this milestone for NEC TM?

La proposition NEC TM Data inclut la fourniture d’un référentiel central de partage de MTC, appelé plate-forme NEC TM Data. La plate-forme sera basée sur l’outil commercial ActivaTM de Pangeanic et fonctionnera sur un concept similaire utilisant les pratiques industrielles utilisées par d’autres outils commerciaux et des organisations privées telles que Memsource, TAUS, etc. Pangeanic transformera ce logiciel commercial en GPL (licence publique générale open source) et le personnalisera gratuitement pour les administrations publiques.

Dans quelle mesure ce logiciel est-il différent de celui mis en œuvre par d’autres projets ?

NEC TM met l’accent sur la mise en correspondance floue et l’optimisation pour les départements de traduction et ses propres traducteurs. Pour la portée du projet, des plugins pour différents outils CAT seront fournis afin que les gestionnaires de projet de traduction ou le traducteur puissent utiliser directement NEC TM. De plus, l’accès à l’outil peut être en direct, de sorte que les traducteurs alimentent le référentiel national au fur et à mesure de leur travail. Nous proposons un outil en direct, pas un référentiel statique. ELRI, par exemple, sera une collection d’actifs bilingues, à partir desquels un TMX est créé pour les traducteurs.

What are the future steps?

Nous sommes à mi-chemin du projet, ce sont des moments passionnants... beaucoup de travail à venir. Nous voulons:
  • Identifier les entreprises de traduction des administrations nationales à partir de sources publiques (Gazzetes officiel) afin de créer un rapport paneuropéen identifiant les contractants sectoriels, les principaux contractants et les principaux contrats dans les États membres.

  • Définir un cadre juridique sécurisé pour que PPAA et les fournisseurs puissent partager des données (compensation IP).

  • Collaborer étroitement avec ELRC afin que les journées d’information pour PPAA fassent partie de l’ordre du jour de la conférence et des organisations de traduction afin de diffuser des informations sur l’initiative de création, de flux et de collecte de données ainsi que sur le cadre juridique.

  • Pour créer des plugins pour différents outils TAO utilisés par le PPAA

Quel type de licence/matériel sera utilisé pour implémenter NEC TM ?

NEC TM sera GPL (licence publique générale open source) et utilisé gratuitement par les administrations publiques. Il s’agit d’un petit résumé des besoins matériels et logiciels :
  • Matériel:

    • RAM: 64 Go recommandés, 16 Go minimum

    • CPU: Sans importance

    • Disk: SSD de 1TB recommandé, 256GB minimum

  • Logiciel:

    • SO: Ubuntu 16.04 recommandé ou ultérieur

Y a-t-il d'autres éléments particuliers nécessaires au lancement de NEC TM ?

NEC TM fonctionnera via Docker, une virtualisation simple au niveau du système d'exploitation qui fonctionne sur Linux, Windows et MacOS. L'utilisation de Docker facilite l'installation et la mise à jour de NEC TM.

Dans quels pays la version bêta sera-t-elle lancée ?

Les premiers à l'avoir adopté sont l'Espagne, Malte et la Croatie, et la Slovénie s'en approche. Elle est déjà utilisée en Lettonie dans le cadre du projet Hugo.lv. Les activités de diffusion nous aideront à introduire NEC TM dans davantage d'États membres. Il s'agit d'une discussion en cours avec les PAN.

Carmen Herranz-Carr

Carmen est analyste de données et travaille actuellement pour le projet NEC TM, dans le cadre duquel elle fait partie d'une équipe qui collecte et gère des informations sur les données de traduction dans toute l'UE. Elle s'intéresse à l'IA, aux affaires sociales et aux technologies linguistiques.