OVH NEWS | INNOVAZIONI E TENDENZE IT


Scopri, comprendi, anticipa












03/04/2017
Condividi

Articolo scritto da Hugo Bonnaffé


La rivoluzione della traduzione è nei neuroni artificiali. Incontro con SYSTRAN.


Fondata dal linguista ungherese Peter Toma nel 1968, SYSTRAN ha contribuito in modo significativo alla storia delle soluzioni di traduzione: dalle piattaforme "mainframe" per US Air Force, Unione europea e NASA fino ai primi portali come Babelfish, Google e Yahoo!, tutti utilizzavano la tecnologia SYSTRAN. Il dipartimento di R&D dell'azienda, di proprietà coreana, opera principalmente a Parigi, dove ha visto la luce un motore di traduzione inedito basato sui neuroni artificiali che sfrutta le capacità di gestione dei dati offerte dai server GPU.





Chi è SYSTRAN?


Acquistata nel 2014 da CSLi, società sudcoreana ribattezzata SYSTRAN International, l’azienda ha sede a Seul e ha 2 uffici a Parigi e San Diego. Il dipartimento di R&D opera in gran parte a Parigi. Il gruppo SYSTRAN conta oggi 200 dipendenti ripartiti sui 3 siti, con circa 100 ingegneri nell'R&D e linguisti specialisti.
Le soluzioni di traduzione automatica di SYSTRAN consentono alle aziende di diversi settori di migliorare la comunicazione multilingua e aumentare la produttività. I casi utenti più significativi ruotano intorno alla collaborazione interna, la gestione e l'interpretazione di Big Data, l’eDiscovery (ricerca di prove su documenti salvati elettronicamente nell'ambito di procedure legali), la gestione di contenuti, l'assistenza clienti e l'e-Commerce. Con oltre 140 combinazioni linguistiche, SYSTRAN rappresenta un punto di riferimento ad alto valore tecnologico per le aziende multinazionali, gli enti di Difesa e Sicurezza e le agenzie di traduzione. I software SYSTRAN possono essere personalizzati in modo semplice e veloce e adattati ai vari settori: ingegneria, giurisprudenza, industria, IT, ecc...







In cosa consistono le vostre soluzioni?


Le soluzioni SYSTRAN offrono ai professionisti strumenti di comunicazione multilingue performanti e sicuri, adatti alle lor esigenze e ambienti di lavoro.
Il nostro prodotto di punta, SYSTRAN Enterprise Server (SES), grazie a un'un'interfaccia Web che permette anche la gestione della piattaforma, consente di accedere alla potenza dei nostri motori di traduzione ovunque e in qualsiasi momento. Il server può essere ospitato da noi, su Cloud OVH, o localizzato nell'ambiente IT del cliente. In entrambi i casi è fondamentale garantire la sicurezza, l’integrità dei dati, il rispetto della proprietà intellettuale e la riservatezza delle informazioni personali. Molti dei nostri clienti ricorrono a SYSTRAN per evitare che i dati confidenziali vengano divulgati dai propri dipendenti, che potrebbero utilizzare strumenti di traduzione disponibili gratuitamente sul Web senza garanzie sull'utilizzo di queste informazioni.
In alcuni casi, le esigenze del cliente possono andare oltre il perimetro del nostro prodotto: a queste rispondiamo proponendo un'API che, integrando la tecnologia SYSTRAN, apre la strada a soluzioni elaborate (es. integrazione con il CRM).
La nostra API è accessibile anche in modalità SaaS, opzione che trova molti consensi tra i clienti con necessità variabili o poco prevedibili.
In alcuni casi, il lavoro di integrazione è già stato eseguito da noi o dal partner coinvolto: in questo caso, proponiamo plugin pronti all'uso (es. moduli add-on per la soluzione e-Discovery di Kcura).
Per i clienti che desiderano sviluppare uno strumento completo basato sul motore SYSTRAN, mettiamo a disposizione i nostri kit di sviluppo (SDK).
Gli utenti individuali e le aziende di piccole dimensioni possono utilizzare la versione desktop.
I nostri servizi professionali sono concepiti per accompagnare i clienti nell'adozione e nell'integrazione dei nostri prodotti e includono formazione, gestione del cambiamento, assistenza all'installazione, ma anche personalizzazione di ambiente, terminologia e lingue supportate.
Il nostro portfolio di prodotti e servizi mira a essere il più ampio e completo possibile per accompagnare i nostri clienti nello sviluppo internazionale. Uno dei nostri progetti standard è implementato in tutti i continenti, con circa quaranta combinazioni linguistiche e oltre 80.000 utenti.



Chi sono i vostri clienti?


Il mercato di SYSTRAN è globale e multisettoriale. La nostra clientela è composta sia PMI sia da grandi aziende, private e pubbliche, per citarne alcuni: Adobe, PSA, Ford, Claas, Boehringer Ingelheim, Lombard Odier, Société Générale, Petit Futé, Symantec, Hewlett Packard Enterprise, Cisco, PwC, Xerox Litigation Services... Le offerte di soluzioni di traduzione sono omogenee e utilizzano tecnologie molto simili.



Che cosa differenzia Systran dalla concorrenza?


I nostri punti di forza riguardano prodotti e servizi. Per quanto riguarda i prodotti, abbiamo investito in modo significativo nella R&D, per continuare a mantenere il nostro vantaggio competitivo. Siamo stati i primi a introdurre sul mercato un prodotto commerciale che utilizza la tecnologia di traduzione neurale – Pure Neural™ Machine Translation (PNMT™). Abbiamo un team dedicato al controllo qualità che per noi ricopre un'importanza fondamentale. La nostra metodologia di personalizzazione dei tool, con nuove combinazioni linguistiche e la creazione di una terminologia specifica, rende i nostri prodotti molto più interessanti delle soluzioni "generaliste", distanti dall'attività del cliente.
La sicurezza è un'altra delle nostre priorità: i server che ospitano SES si trovano in datacenter totalmente sicuri e possono essere utilizzati anche offline. In questo senso, partner come OVH rispondono perfettamente alle richieste più esigenti.
La nostra capacità di accompagnare i clienti con servizi professionali e la possibilità di personalizzazione ci distingue dagli altri fornitori, che propongono prodotti standard.







Come funziona il vostro motore di traduzione neurale?


Da un punto di vista tecnologico, il motore PNMT™ è completamente diverso dalle generazioni precedenti di macchine di traduzione. Fondato sul "Deep Neural Network" (apprendimento profondo), il motore non si rifà a nessuna rappresentazione di conoscenza linguistica e si differenzia enormemente dai sistemi di traduzione basati su regole (RBMT) che utilizzano un database di regole linguistiche (es. i dizionari), e dal metodo statistico (SMT), basato su un database di frammenti di frasi allineati. Il funzionamento è simile a quello di un cervello umano in cui la conoscenza linguistica viene codificata nelle connessioni tra i neuroni artificiali, queste connessioni vengono imparate e corrette automaticamente durante la fase di apprendimento del sistema (come avviene nell'apprendimento di una lingua). Il motore PNMT™ acquisisce conoscenze a partire da diverse fonti di dati che le tecnologie precedenti non erano in grado di utilizzare automaticamente, come la semantica, lo stile, il genere, la nozione di positivo/negativo...



Quali sono le nuove possibilità di utilizzo del motore di traduzione neurale?


Siamo tra i primi a disporre di una tecnologia in grado di comprendere le frasi nel loro contesto e di tradurle con una qualità superiore a quella della maggior parte dei non madrelingua. La nostra percezione è che questa tecnologia diventerà un assistente indispensabile per chi viaggia, chi ha necessità di comunicare in una lingua straniera (email, chat, redazione di articoli scientifici...). Studiamo anche altre applicazioni come assistenti per l'apprendimento delle lingue o ancora Chatbot multilingue... In futuro, non si tratterà più di tradurre ma piuttosto di comunicare in diverse lingue e linguaggi, senza perdere le sfumature e le particolarità che costituiscono la loro ricchezza e singolarità.
Anche voi potete testare la qualità di una traduzione neurale generica utilizzando il nostro server dimostrativo: https://demo-pnmt.systran.net/



Facendo riferimento al Machine Learning, spesso si dice che la qualità dei dati elaborati dagli algoritmi per permettere l'apprendimento ha la stessa importanza degli algoritmi stessi. Da cosa sono costituiti i corpus dei testi che alimentano i neuroni artificiali del vostro motore di traduzione?


Si tratta essenzialmente di corpus liberi e open source, forniti sia da istituzioni come le Nazioni Unite, l'Unione Europea, la Banca Centrale Europea, il Parlemento del Canada, l’Ufficio Brevetti... che da comunità come OpenSubtitles o molte altre. Noi generiamo anche un nostro corpus per settori specifici oltre ad acquisirne da agenzie specializzate. Naturalmente i nostri clienti hanno la possibilità di utilizzare le proprie memorie di traduzione in funzione delle proprie esigenze.



Qual è l'infrastruttura di OVH che ospita il motore di traduzione neurale?


L’infrastruttura è composta da 2 "front-end" e diversi "compute nodes" (nodi di traduzione). I "front-end" utilizzano server Infrastructure EG-64-S: 64Gb RAM, CPU E5-1650v2 e disco SoftRaid 2×4 TB. I "compute nodes" si compongono di un mix di server CPU (Infrastructure HG: Intel 2x Xeon E5-2640v3, 16c/32t – 2,6 GHz/3,4 GHz, 256 Gb di RAM, 2×4 TB HD) e server GPU (GPU-4X-1080: 128G 2xE5-2630v3 240 GB SSD 4xGTX 1080).



Qual è il valore aggiunto dei server GPU, rispetto all'utilizzo di server dotati di CPU?


I server GPU consentono di ridurre i tempi di traduzione. La velocità di traduzione GPU attualmente è 3 volte maggiore rispetto ai core CPU. Il limite principale della tecnologia GPU è costituito dalla RAM (ogni modello utilizza in media 2 GB di RAM GPU) e dalla sua potenza di calcolo (8,9 TFlops). I server GPU consentono inoltre di creare modelli di traduzione con dimensioni molto più compatte e che generano traduzioni di una qualità migliore.



Quali sono le vostre previsioni per il futuro delle traduzioni? La traduzione istantanea di una conversazione orale è ancora fantascienza?


Il nostro obiettivo è offrire soluzioni specializzate basate sulle nostre competenze nel settore dei linguaggi. Questo va oltre la "semplice" facoltà di produrre traduzioni automatiche e generiche.
Da un punto di vista di business, questo implica che per le aziende internazionali il trattamento delle lingue diventi parte integrante dei processi e che francofoni, anglofoni e sinofoni potranno comunicare in modo fluido e trasparente nella propria lingua. Oggi le soluzioni esistenti sono generalmente applicate alla fine del processo. Quando riceviamo un testo in una lingua straniera o un RFP dalla Cina ci accorgiamo che abbiamo la necessità di una traduzione e che la soluzione non è integrata all'interno del processo: al momento della creazione del documento, o durante una conferenza telefonica, o ancora quando si deve commentare un documento in un'altra lingua, ecc...
Le opportunità che offre l'intelligenza artificiale e gli algoritmi che abbiamo industrializzato sono infinite. Presto potremo utilizzare queste stesse reti neurali per facilitare l'apprendimento di una lingua straniera e produrre contenuti direttamente multilingue. Sarà inoltre possibile parlare nella nostra lingua ed essere compresi dal nostro interlocutore straniero, grazie a un "oggetto connesso" sistemato nell'orecchio... Lungi dall'essere fantascienza, questo scenario è una prospettiva reale in un futuro non molto lontano. L’intelligenza artificiale non ha ancora finito di sorprenderci e di arricchire il nostro modo di lavorare. E siamo solo all'inizio...