Novos recursos tecnolóxicos para a investigación da lingua galega
martes, 2 de novembro do 2010
O galego conta con novos recursos tecnolóxicos de especial interese para os investigadores do idioma como a versión actualizada do Corpus Actual da Lingua Galega (CORGA), do Centro
Ramón Piñeiro para a Investigación en Humanidades, presentada
esta mañá na Facultade de FiloloxÃa da Universidade de Santiago de Compostela.
Segundo salientou o secretario xeral de PolÃtica LingüÃstica, Anxo Lorenzo, durante o acto, «os sistemas e recursos relacionados con este proxecto do Centro Ramón Piñeiro para a Investigación en Humanidades poñen
á disposición da comunidade cientÃfica un recurso accesible a través de
Internet que posibilita a obtención de datos para o estudo de aspectos
morfolóxicos, sintácticos e léxicos».
Este traballo que vén
desenvolvendo o Centro Ramón Piñeiro enmárcase, segundo salientou Anxo Lorenzo,
«nunha das liñas de actuación
prioritarias da SecretarÃa Xeral de PolÃtica LingüÃstica, que aposta polas
tecnoloxÃas da información e da comunicación para fornecer produtos e servizos
electrónicos que permitan avanzar na investigación sobre a lingua galega e tamén
na vida diaria dos falantes» e tamén que dende o seu departamento están «decididos a potenciar a presenza do galego
nos diferentes recursos tecnolóxicos» patente en «actuacións xa coñecidas, como o novo acordo de colaboración entre a
Xunta de Galicia e mais a Asociación PuntoGal para conseguir a construción dun
espazo especÃfico en Internet para a lingua e a cultura galegas».
- Anxo Lorenzo, na presentación da versión actualizada do CORGA
O responsable de PolÃtica LingüÃstica tamén aproveitou a ocasión para anunciar
a próxima presentación das actualizacións en galego dos produtos da empresa
Microsoft: o sistema operativo Windows 7, o paquete ofimático Office 2010 e a
plataforma Live.
No acto de presentación
tamén participaron o decano da facultade, Ernesto González Seoane; o director
do GORGA, Guillermo Rojo, e os responsables da parte lingüÃstica e da parte
informática do proxecto, Eva DomÃnguez e Mario Barcala, respectivamente, que
explicaron con detalle as posibilidades dos novos recursos computacionais.
O CORGA é un corpus
documental integrado por distintos tipos de textos –xornais, semanarios,
revistas, ensaios e textos de ficción– desde 1975 ata a actualidade. Nesta nova
versión, o CORGA pasa a contar con preto de 26 millóns de formas ortográficas,
un millón máis que hai un ano. Asà mesmo, amplÃanse as posibilidades de busca
que se ofrecÃan ata o momento (por palabras ou expresións en xeral, tipos de
texto, épocas, áreas temáticas etc.). A
versión actualizada está dispoñible na web e o rexistro no sistema é de
balde.
Ademais das consultas por formas ortográficas que posibilita o CORGA, o Centro
Ramón Piñeiro está a traballar en novas formas de consulta máis avanzadas que
propician un salto cualitativo na materia. Trátase do Etiquetador/Lematizador do Galego Actual
(XIADA), que vén de ampliar o seu corpus de adestramento ata as 150.000
formas gráficas e que está dispoñible na versión 2.4 do Corpus de Referencia do
Galego Actual etiquetado (CORGAetq). Asà mesmo, desenvolveuse un novo sistema
de consulta dirixido aos usuarios non familiarizados co etiquetario do proxecto.