LA REAL ACADEMIA INFORMATIZARA 200 MILLONES DE PAABRAS EN UNA DE LAS BASES DE DATOS MAS AMPLIAS DEL MUNDO
El texto se ha copiado correctamente en el portapapeles
La Real Academia Española creará durante los próximos cinco años un archivo lingüístico informatizado (corpus) que contendrá 200 millones de palabras y voces latinoamericanas y españolas, en lo que constituye la apuesta tecnológica más ambiciosa de la institución en toda su historia.
Los veinticinco filólogos y especialistas que trabajan en el proyecto, al que se ha denominado Corpus de Referencia del Español Actual (CREA), tardarán cinco años en completar la base de datos, que será conectada a la red Internet después del año 2000.
"Va a cubrir un vacío grave que existía en España, y es que el español es la única de las mayores lenguas del mundo que carece de un cuerpo de referencia. El italiano, el inglés, el francés, el alemán, tienen sus propios corpus desde hace años", señaló oy uno de los responsables del proyecto.
Una vez completado, el Corpus de Referencia del Español Actual será una de las bases de palabras más amplias del mundo. Sólo el Bank of English, la base de datos del inglés, cuenta hasta ahora con 200 millones de voces y palabras.
El 45 por ciento del contenido del CREA procederá de libros, otro 45 por ciento de periódicos y revistas, y el 10 por ciento restante se obtendrá de folletos, propaganda, correspondencia y grabaciones de personas, todos ellos ediados desde 1975 hasta el 2000.
GRABACIONES A PERSONAS
Una de las fuentes más curiosas que utilizará el CREA será la grabación de conversaciones, en todos los países latinoamericanos, durante reuniones de trabajo, conversaciones telefónicas entre particulares (previo permiso escrito) e, incluso, tertulias de café.
El ministro de Educación y Ciencia, Jerónimo Saavedra, y el presidente de la Real Academia Española, Fernando Lázaro Carreter, firmaron hoy el convenio que desarrollará el CREA, al quela Comisión Interministerial de Ciencia y Tecnología aportará 446 millones de pesetas.
Lázaro Carreter señaló durante la presentación del 'corpus' que "se asocia a la Real Academia con la pureza y el casticismo, que están bien, pero lo que más importa es lograr la unidad de la lengua a través de programas como éste".
El objetivo del proyecto es que los usuarios, particulares o investigadores, puedan acceder de forma rápida a un sistema sofisticado de información gramatical, bibliográfica y documetal, localizado en un único centro de consultas informatizado.
Los fondos del CREA serán estructurados en siete 'hipercampos' informáticos: Ciencia y Tecnología, Ciencias Sociales, Política, Economía, Comercio y finanzas, Artes, Ocio y vida cotidiana, Medicina y nutrición, y Ficción.
(SERVIMEDIA)
31 Oct 1995
F