Cultura
La RAE se fija en los 'youtubers' para actualizar el Corpus del español
El texto se ha copiado correctamente en el portapapeles
El Corpus del español tiene 21 millones de nuevas formas ortográficas incorporadas por la Real Academia Española (RAE) con la actualización del Corpes XXI, que ya cuenta con 333 millones de formas ortográficas procedentes de textos escritos y de transcripciones de textos orales, incluidos vídeos de ‘Youtube’.
El proyecto, dirigido por el académico Guillermo Rojo, constituye una base de datos fundamental para el estudio de la lengua española en la actualidad con más de 316.000 documentos.
Más de cuatro millones y medio de las formas incorporadas en esta actualización son transcripciones de textos orales como programas de radio y televisión, entrevistas en medios de comunicación e, incluso, ‘YouTube’.
Algunos archivos ofrecen el sonido alineado correspondiente a la transcripción; en otros, es posible la descarga del archivo de audio, además de la visualización del vídeo, de acuerdo con la procedencia del texto.
El bloque de ficción se compone de novelas, guiones de cine, relatos u obras de teatro. Los textos procedentes de libros suponen casi 166 millones de formas, mientras que las publicaciones periódicas como diarios o revistas están representadas con unos 158 millones. Seis millones y medio más provienen de blogs, entrevistas digitales, redes sociales y miscelánea.
Los textos generados en España suponen algo más del 30% y los de América superan los 217 millones de formas, por lo que ocupan el 70%. Además, el Corpes contiene textos procedentes de Filipinas y Guinea Ecuatorial.
El Corpus del Español del Siglo XXI (Corpes XXI) es un corpus de referencia. En lingüística, se llama corpus a un conjunto lo más extenso y ordenado posible de textos. Los corpus son empleados habitualmente para conocer el contexto y las propiedades de las palabras, expresiones y construcciones a partir de los usos reales registrados. Dado el tamaño que poseen, los corpus tienen que estar en formato electrónico.
Un corpus general (llamado de referencia) tiene como propósito básico el de servir para obtener las características globales que presenta una lengua en un momento determinado de su historia. En el caso del español actual, el corpus debe contener textos de todos los tipos y también de todos los países que constituyen el mundo hispánico.
(SERVIMEDIA)
15 Feb 2021
GIC/gja