Os logros e eivas da tradución automática centraron unha nova sesión da UNED e do CIA de Ourense
venres, 9 de abril do 2021
Este
9 de abril celebrouse un novo relatorio semanal sobre as tecnoloxías
máis revolucionarias que cambiarán para sempre o noso xeito de
xestionar recursos de información e comunicarnos. Foi ao abeiro do
ciclo impulsado pola
UNED Ourense e o Centro
de Intelixencia Artificial da cidade das Burgas. A charla
online veu da man do doutor Andrés Duque Fernańdez, quen
debullou a evolución dos sistemas de tradución automática que
buscan traducir un idioma orixe a outro idioma obxectivo.
O
relator (profesor axudante e doutor do departamento de Linguaxes e
Sistemas Informáticos da ETSII da Universidade Nacional a Distancia)
explicou que a investigación e o desenvolvemento en tradución
automática aínda non está resolta pois mostra “problemas coas
palabras polisémicas, expresións propias dun idioma, rumbos
variados, xa sexan de xénero, de raza ou outros”.
Duque
explicou a evolución deste tipo de tradución, remontándose aos
anos 50 do pasado século. Así, dixo que a principios daquela década
xurdiu a tradución automática motivada pola Guerra Fría e
consistía en primeiras traducións do ruso ao inglés. “Naquela
época utilizábanse sistemas baseados en regras (Rule Based
Machine Translation, RBMT) consistentes en dicionarios bilingües
e conxuntos de regras lingüísticas para cada idioma”, explicou,
engadindo que “en 1954 produciuse o experimento Georgetown-IBM para
a tradución do ruso ao inglés nos dominios de química orgánica,
política social, dereito, matemáticas, ou metalurxia, entre outros
ámbitos, un traballo que incluía seis regulas básicas e 250
palabras no vocabulario”.
Duque
Fernández falou tamén da tradución automática directa (Direct
Machine Translation), un tipo de RBMT que, ao traballar palabra
por palabra, conseguía traducións moi literais e con moitos erros,
ademais de “presentar un enfoque moi pouco sofisticado desde o
punto de vista lingüístico”, dado que ofrece “unha corrección
morfolóxica mínima, corrección sintáctica moi básica, sen
análise da estrutura interna orixinal e sen incluír unha
exploración previa das relacións gramaticais entre partes das
frases”.
Tamén
falou da tradución RBMT (baseada en transferencia, análise e
xeración, que “ofrece unha maior complexidade polo elevado número
de combinacións posíbeis” e “require regras específicas para
cada paso do proceso”); dos sistemas baseados en exemplos (EBMT,
que supuxeron un paso previo á tradución automática estatística e
neuronal); da tradución automática EBMT pura, ou en tempo de
execución (que ten o seu propio algoritmo e “é un modelo sinxelo,
especialmente útil para palabras descoñecidas ou termos moi
especializados”; pero que “non resulta de tanta utilidade como
modelo de tradución completo”); ou dos corpus paralelos como
recurso fundamental para a tradución automática empírica.
Andrés
Duque tamén falou da tradución estatística baseada en palabras,
cuxas deficiencias son as dificultades para tratar transformacións
sintácticas e tradución pouco flexíbel ademais de escasa
utilización do contexto local; ou da tradución automática
estatística baseada en frases (Phrase-based SMT) que é unha
metodoloxía que ten a vantaxe de permitir a tradución “moitos a
moitos”, que usa o contexto local para a tradución e as súas
limitacións son frases non continuas, algunhas transformacións
sintácticas e o aliñamento, “que segue ofrecendo diversos
problemas”.
Asemade,
afondou nos sistemas de redes neuronais e a aprendizaxe profunda.
Segundo dixo, a tradución automática neuronal (NMT), que utiliza
unha única rede neuronal, supuxo unha revolución no ano 2014:
“Estableceuse como estado da arte na industria desde 2016 e
presenta unha arquitectura secuencia a secuencia”. En canto a
vantaxes, dixo, o NMT presenta mellores resultados, mellor uso do
contexto; mellor similitude entre frases, meirande fluidez, sen
subcompoñentes e supón menor esforzo.
No
que atinxe a se está resolta ou non a tradución automática,
Andrés Duque presenta varios exemplos para demostrar que non é así:
problemas coas palabras polisémicas, expresións propias dun idioma,
e rumbos variados, xa sexan de xénero, de raza ou outros. Os
principais desafíos pasan pola xestión das palabras fóra do
vocabulario (copiado de palabras, tradución baseada en caracteres e
técnicas de subwording) e os corpus paralelos (sobre todo en
idiomas con poucos recursos). Outro desafío é o mantemento do
contexto en textos longos ou o rumbo en datos de adestramento (para
reducilo utilízanse corpus con anotacións concretas, por exemplo de
xénero).