Cognate Linguistics

Home


Rubén Morán's Spanish Corpus

This corpus was created on behalf of The Cognate Project (The Cognate Approach and The Dictionary of Cognates). The main objective of its creation was to find out the most frequently used Spanish words so as to identify out of them Cognate words to English, Portuguese, Italian, French, Romanian and Catalan speakers.

Here is the list of the components of the corpus (in .txt format).
Here is the list of the total tokens/unique words (in .txt format. 12,7Mb. Set font to Courier for proper view of data).

Below some interesting facts regarding this research:

Total tokens:
8297518

Total types (unique words):
176488

Tokens repeated up to 100 times (MFW):
6876 (85.32 % of corpus)

Cognates in this share (MFCogn):
2391 (34.77 % of MFW)

Sample of immaterial incidence of increase of words beyond the MFW point:

   6876 + 903 tokens, those repeated up to 85 times = 7779
   (it would amount to 86.32 % of corpus, an increase of 1 %)

   6876 + 1956 tokens, those repeated up to 73 times = 8832
   (it would amount to 87.32 % of corpus, an increase of 2 %)

   6876 + 3193 tokens, those repeated up to 62 times = 10069
   (it would amount to 88.32 % of corpus, an increase of 3 %)

   6876 + 4666 tokens, those repeated up to 51 times = 11542
   (it would amount to 89.32 % of corpus, an increase of 4 %)

   6876 + 6439 tokens, those repeated up to 42 times = 13315
   (it would amount to 90.32 % of corpus, an increase of 5 %)

The first 13 tokens represent 30 % of corpus.
The first 110 tokens represent 50 % of corpus.
The first 2127 tokens represent 75 % of corpus.
The first 6876 tokens represent 85 % of corpus (The Most Frequent Spanish Words).
The next 6439 tokens represent an increase of only 5 % of it.


Sample of Spanish Cognate Collocations in Corpus

laran los caballos. La tropa disparó. Una guardia especial
paz negociada. A principios de abril, un emisario especial
ada expediente no fuera revisado por una comisión especial
atitas moradas, en las cuales dedicaba un párrafo especial
 llevó a los presos para su casa con una custodia especial
 y lo escupió, pues desde niña tenía una aversión especial
campánulas amarillas, y no le prestó una atención especial
s, y la Escuela de Medicina les impartió un curso especial
 de ángeles. Desde entonces se le rindió un culto especial
a coincidencia revistió el acto de una solemnidad especial
o Ariza no se había dejado impresionar de un modo especial
rta recibida en ese instante por el correo urbano especial
, pero al perdedor se le imponía una contribución especial
or Urbino Daza, y fue recibido con un tratamiento especial
ló a solas con el coronel y prescribió un régimen especial
s ojos de oro. El joyero le consagró una atención especial
ólo hablaba de otras exquisiteces de cocina, y en especial
na para que sirviera a los clientes por un precio especial
nes. Todos heredamos de padre y madre una memoria especial
rde con toda clase de variedades ingeniosas, y en especial
da clase de pistas enciclopédicas comprimidas, en especial
s indigestas sobre sus preferencias políticas. En especial
romotores, embozado con su credencial de delegado especial


The Most Frequent Letters in Ruben Moran's Spanish Corpus

The New Testament and the Psalms
(908,207 letters in 209,054 tokens)
eaosnr ildutc mpybhqvgjfzñxwk

Don Quijote, by Miguel de Cevantes
(1,629,292 letters in 381,215 tokens)
eaosnr lduitc mpqybhvgjfzñxwk

Cien años de soledad, by García Márquez
(658,460 letters in 138,975 tokens)
aeosnr ilduct mpbhyqvgfjzñxwk

1694 songs
(1,242,420 letters in 311,103 tokens)
eaosnr iultdc mpqyvhbgfjzñkxw

52 online newspapers' front pages
(366,205 letters in 69,128 tokens)
aeoisr nlcdtu mpbgvfhyqjzxñkw

The unique words of Rubén Morán's Spanish Corpus
(1,512,283 letters in 176,488 tokens)
aeosnr itcldm upbgvfhzjqyxñkw