This corpus was created on behalf of The Cognate Project (The Cognate Approach and The Dictionary of Cognates). The main objective of its creation was to find out the most frequently used Spanish words so as to identify out of them Cognate words to English, Portuguese, Italian, French, Romanian and Catalan speakers.
Here is the list of the components of the corpus (in .txt format).
Here is the list of the total tokens/unique words (in .txt format. 12,7Mb. Set font to Courier for proper view of data).
Below some interesting facts regarding this research:
Total tokens:
8297518
Total types (unique words):
176488
Tokens repeated up to 100 times (MFW):
6876 (85.32 % of corpus)
Cognates in this share (MFCogn):
2391 (34.77 % of MFW)
Sample of immaterial incidence of increase of words beyond the MFW point:
6876 + 903 tokens, those repeated up to 85 times = 7779
(it would amount to 86.32 % of corpus, an increase of 1 %)
6876 + 1956 tokens, those repeated up to 73 times = 8832
(it would amount to 87.32 % of corpus, an increase of 2 %)
6876 + 3193 tokens, those repeated up to 62 times = 10069
(it would amount to 88.32 % of corpus, an increase of 3 %)
6876 + 4666 tokens, those repeated up to 51 times = 11542
(it would amount to 89.32 % of corpus, an increase of 4 %)
6876 + 6439 tokens, those repeated up to 42 times = 13315
(it would amount to 90.32 % of corpus, an increase of 5 %)
The first 13 tokens represent 30 % of corpus.
The first 110 tokens represent 50 % of corpus.
The first 2127 tokens represent 75 % of corpus.
The first 6876 tokens represent 85 % of corpus (The Most Frequent Spanish Words).
The next 6439 tokens represent an increase of only 5 % of it.
Sample of Spanish Cognate Collocations in Corpus
|
laran los caballos. La tropa disparó. Una guardia especial paz negociada. A principios de abril, un emisario especial ada expediente no fuera revisado por una comisión especial atitas moradas, en las cuales dedicaba un párrafo especial llevó a los presos para su casa con una custodia especial y lo escupió, pues desde niña tenía una aversión especial campánulas amarillas, y no le prestó una atención especial s, y la Escuela de Medicina les impartió un curso especial de ángeles. Desde entonces se le rindió un culto especial a coincidencia revistió el acto de una solemnidad especial o Ariza no se había dejado impresionar de un modo especial rta recibida en ese instante por el correo urbano especial , pero al perdedor se le imponía una contribución especial or Urbino Daza, y fue recibido con un tratamiento especial ló a solas con el coronel y prescribió un régimen especial s ojos de oro. El joyero le consagró una atención especial ólo hablaba de otras exquisiteces de cocina, y en especial na para que sirviera a los clientes por un precio especial nes. Todos heredamos de padre y madre una memoria especial rde con toda clase de variedades ingeniosas, y en especial da clase de pistas enciclopédicas comprimidas, en especial s indigestas sobre sus preferencias políticas. En especial romotores, embozado con su credencial de delegado especial |
The Most Frequent Letters in Ruben Moran Molina's Spanish Corpus
The New Testament and the Psalms
(908,207 letters in 209,054 tokens)
eaosnr ildutc mpybhqvgjfzñxwk
Don Quijote, by Miguel de Cevantes
(1,629,292 letters in 381,215 tokens)
eaosnr lduitc mpqybhvgjfzñxwk
Cien años de soledad, by García Márquez
(658,460 letters in 138,975 tokens)
aeosnr ilduct mpbhyqvgfjzñxwk
1694 songs
(1,242,420 letters in 311,103 tokens)
eaosnr iultdc mpqyvhbgfjzñkxw
52 online newspapers' front pages
(366,205 letters in 69,128 tokens)
aeoisr nlcdtu mpbgvfhyqjzxñkw
The unique words of Rubén Morán Molina's Spanish Corpus
(1,512,283 letters in 176,488 tokens)
aeosnr itcldm upbgvfhzjqyxñkw
acquisition, applied linguistics, bilingualism, chomsky, cognate, cognate lexis, cognate linguistics, cognate syntax, cognate vocabulary, cognate words, cognates, communicative, communicative approach, corpus linguistics, dictionary, ell, english, esl, esol, false cognates, false friends, french, italian, language, language acquisition, language learning, language teaching, learning, linguistics, methodology, portuguese, psycholinguistics, reuben moran, ruben moran, school, spanish, syntax, teaching, tefl, tesol, vocabulary, word recognition, words




