En 1987 se propuso crear un documento cientifico de referencia para el investigador, el escritor de material didactico y el patologo del habla. Aislamos los vocablos mas frecuentemente utilizados por el ni~no (E92-I,1989), el adolescente (E92-II, 1990) y el adulto (E92-III, 1992). Ahora publicamos los resultados de la captura de los vocablos mas frecuentemente empleados por el adulto tanto el ni~no y adolescente--el corpus en su totalidad.
Solo el analisis linguistico-computacional de las frecuencias de ocurrencias de vocablos del espa~nol tendra validez al seguir la metodologia de Kaeding-Goethe (1975) o Kucera y Francis (1967) tomando en cuenta la ausencia de lematizacion [significados de los vocablos senalada por Bird (1987) y Landau (1990) en sus criticas de corpora-computacionales anteriores] y "tagging" [de la Text Encoding Initiative europea (1991)].
A traves de 1,728 horas-hombre de seleccionar lematizar los vocablos de los textos corridos, capturamos 500 muestras de 2,000 lexemas (cifras, simbolos y vocablos) o sea 1'000,000 de itemes en 15 categorias: folklore, matematicas, pasatiempos, entrevistas, tareas y cartas escritas, deportes, musica popular y religiosa, lecturas, bellas artes, agricultura, medicina, reportajes y juicios legales en tres niveles (ni~nos 20%, adolescentes, 26.6% y adultos 53.4%) del conocimiento general de todos los paises de habla hispana. Las muestras como en el estudio del ingles de Kucera y Francis fueron textos originales, de un corte sincronico de 10 a~nos (1979-1989) sin admitir textos traducidos de otros idiomas. Se calculo el vector (6'425,000bytes) en la VAX PDP 11/79 y microprocesadores 386 del Centro de Informatica del Hospital Universitario de la Universidad Autonoma de Nuevo Leon en BASIC II+, DBIII+ y CLIPPER, creando dos listados ordenados alfabeticamente y por frecuencia (rank list).
El vector calculado despues de tres sesiones de 24+ horas (78.5 horas-maquina en total) produjo un listado de 56,191 vocablos, cifras y simbolos. Eliminando los ultimos dos, comparamos el listado con lo de Duff-Throndike (1958), el cual se baso en extrapolaciones no en un conteo real, solo 46.46% de los vocablos de Duff-Throndike aparece en nuestro listado arriba de f>.05%, el limite inferior estadistico de los primeros 2,051 vocablos en nuestro corpus.
*ESTUDIO REALIZADO POR OTORGAMIENTO 22406 DE LA S.E.P.-MEXICO E92 es una aportacion de la UANL a la comunidad hispana en la celebracion del QUINTO CENTENARIO
** Facultad de Medicina