Os logros e eivas da tradución automática centraron unha nova sesión da UNED e do CIA de Ourense

venres, 9 de abril do 2021 S. P.

Este 9 de abril celebrouse un novo relatorio semanal sobre as tecnoloxías máis revolucionarias que cambiarán para sempre o noso xeito de xestionar recursos de información e comunicarnos. Foi ao abeiro do ciclo impulsado pola UNED Ourense e o Centro de Intelixencia Artificial da cidade das Burgas. A charla online veu da man do doutor Andrés Duque Fernańdez, quen debullou a evolución dos sistemas de tradución automática que buscan traducir un idioma orixe a outro idioma obxectivo.
O relator (profesor axudante e doutor do departamento de Linguaxes e Sistemas Informáticos da ETSII da Universidade Nacional a Distancia) explicou que a investigación e o desenvolvemento en tradución automática aínda non está resolta pois mostra “problemas coas palabras polisémicas, expresións propias dun idioma, rumbos variados, xa sexan de xénero, de raza ou outros”.
Duque explicou a evolución deste tipo de tradución, remontándose aos anos 50 do pasado século. Así, dixo que a principios daquela década xurdiu a tradución automática motivada pola Guerra Fría e consistía en primeiras traducións do ruso ao inglés. “Naquela época utilizábanse sistemas baseados en regras (Rule Based Machine Translation, RBMT) consistentes en dicionarios bilingües e conxuntos de regras lingüísticas para cada idioma”, explicou, engadindo que “en 1954 produciuse o experimento Georgetown-IBM para a tradución do ruso ao inglés nos dominios de química orgánica, política social, dereito, matemáticas, ou metalurxia, entre outros ámbitos, un traballo que incluía seis regulas básicas e 250 palabras no vocabulario”.
Duque Fernández falou tamén da tradución automática directa (Direct Machine Translation), un tipo de RBMT que, ao traballar palabra por palabra, conseguía traducións moi literais e con moitos erros, ademais de “presentar un enfoque moi pouco sofisticado desde o punto de vista lingüístico”, dado que ofrece “unha corrección morfolóxica mínima, corrección sintáctica moi básica, sen análise da estrutura interna orixinal e sen incluír unha exploración previa das relacións gramaticais entre partes das frases”.
Tamén falou da tradución RBMT (baseada en transferencia, análise e xeración, que “ofrece unha maior complexidade polo elevado número de combinacións posíbeis” e “require regras específicas para cada paso do proceso”); dos sistemas baseados en exemplos (EBMT, que supuxeron un paso previo á tradución automática estatística e neuronal); da tradución automática EBMT pura, ou en tempo de execución (que ten o seu propio algoritmo e “é un modelo sinxelo, especialmente útil para palabras descoñecidas ou termos moi especializados”; pero que “non resulta de tanta utilidade como modelo de tradución completo”); ou dos corpus paralelos como recurso fundamental para a tradución automática empírica.
Andrés Duque tamén falou da tradución estatística baseada en palabras, cuxas deficiencias son as dificultades para tratar transformacións sintácticas e tradución pouco flexíbel ademais de escasa utilización do contexto local; ou da tradución automática estatística baseada en frases (Phrase-based SMT) que é unha metodoloxía que ten a vantaxe de permitir a tradución “moitos a moitos”, que usa o contexto local para a tradución e as súas limitacións son frases non continuas, algunhas transformacións sintácticas e o aliñamento, “que segue ofrecendo diversos problemas”.
Asemade, afondou nos sistemas de redes neuronais e a aprendizaxe profunda. Segundo dixo, a tradución automática neuronal (NMT), que utiliza unha única rede neuronal, supuxo unha revolución no ano 2014: “Estableceuse como estado da arte na industria desde 2016 e presenta unha arquitectura secuencia a secuencia”. En canto a vantaxes, dixo, o NMT presenta mellores resultados, mellor uso do contexto; mellor similitude entre frases, meirande fluidez, sen subcompoñentes e supón menor esforzo.
No que atinxe a se está resolta ou non a tradución automática, Andrés Duque presenta varios exemplos para demostrar que non é así: problemas coas palabras polisémicas, expresións propias dun idioma, e rumbos variados, xa sexan de xénero, de raza ou outros. Os principais desafíos pasan pola xestión das palabras fóra do vocabulario (copiado de palabras, tradución baseada en caracteres e técnicas de subwording) e os corpus paralelos (sobre todo en idiomas con poucos recursos). Outro desafío é o mantemento do contexto en textos longos ou o rumbo en datos de adestramento (para reducilo utilízanse corpus con anotacións concretas, por exemplo de xénero).

PUBLICIDADE