Un investigador galego mellora o sistema de recuperación de información dixital

mércores, 27 de xaneiro do 2010 Raquel Noya

Nos tempos que corren, nos que practicamente tódalas institucións, tanto públicas como privadas, están a dixitalizar os seus documentos e xerando os novos en formato electrónico a fin de volver a eles e á información que conteñen da maneira máis rápida e eficaz posible, é necesario que os criterios de busca sexan claros e concretos, algo que co noso idioma faise unha tarefa máis complicada que noutras linguas debido ó dobre significado e a ambigüidade segmental de moitas palabras.
Neste contexto, o investigador da Escola Superior de Enxeñaría Informática da Universidade de Vigo, Juan Otero, vén de desenvolver para a súa tese de doutoramento un sistema de corrección ortográfica que soluciona os problemas máis importantes á hora de procesar as consultas nun sistema de recuperación de información.
A principal achega do seu traballo consiste, segundo indicou o propio investigador, “na creación dun método que resulta moito máis eficiente que os métodos globais clásicos”.
Baixo o título Análise léxico robusto, Otero aborda o desenvolvemento e a avaliación de técnicas de corrección ortográfica robusta e a súa aplicación en contornas de recuperación de información nas que as consultas presentan erros.
Os sistemas de recuperación de información permiten localizar aqueles documentos dunha colección que satisfagan os requirimentos dun usuario, expresados en forma de consultas en linguaxe natural, pero é frecuente a introdución de erros ortográficos ou de dixitación á hora de facer as procuras, de aí a importancia de desenvolver ferramentas como as que agora achega este investigador ourensán.
O método de corrección ortográfica elaborado por Otero foi integrado na ferramenta de etiquetación morfosintáctica Mr. Tagoo, desenvolvida no grupo de investigación Compiladores e Linguaxes da Universidade de Vigo, ao que tamén pertence o autor da tese. Deste xeito, obtívose unha solución integral capaz de resolver de forma eficiente os tres problemas principais que se presentan á hora de procesar as consultas nun sistema de recuperación de información, “a ambigüidade segmental, a ambigüidade morfosintáctica e a corrección ortográfica contextual”, explicou Otero.
O resultado dos experimentos, realizados nunha contorna de recuperación de información con consultas degradadas, poñen de manifesto que “o emprego de técnicas de corrección ortográfica ten un impacto moi positivo sobre os sistemas de recuperación de información”, fronte a outras propostas realizadas con anterioridade. Ademais, como alternativa á aplicación de algoritmos de corrección ortográfica, avaliouse tamén “unha técnica de recuperación de información baseada en n-gramas de carácteres superpostos, que presenta a vantaxe de non requirir ningún recurso lingüístico extra”, e ofreceu tamén uns excelentes resultados en contornas nas que existe un elevado número de erros nas consultas.

PUBLICIDADE