Visualizaciones sobre los discursos de Navidad desde 1937 hasta 2020.
Visualizaciones y comparativas de frecuencia léxica sobre los discursos de Navidad de Francisco Franco, Juan Carlos I y Felipe VI.
Estas son las visualizaciones de un corpus de discursos de Navidad desde 1937 hasta hoy. La tradición del discurso de Navidad la inaugura el dictador Francisco Franco en 1937, y fue conservada por los reyes Juan Carlos de Borbón y Felipe de Borbón. El punto de partida han sido los 76 discursos de Navidad desde 1937 hasta 2021 (no hubo discurso entre 1940 y 1945). El objetivo es recopilar en un corpus los textos de los discursos (que hasta ahora estaban dispersos en distintos medios y formatos), medir de forma empírica cómo ha cambiado el vocabulario de los discursos desde el año 1937 hasta hoy y representarlo gráficamente.
Años | Discursos | Tokens | Orador |
---|---|---|---|
1937-1974 | 32 | 140.827 | Francisco Franco |
1975-2013 | 39 | 55.541 | Juan Carlos de Borbón |
2014-2021 | 8 | 14.237 | Felipe de Borbón |
Visualizaciones sobre 2021:
Visualizaciones sobre 2020:
Visualizaciones sobre 2019:
Visualizaciones por orador:
Visualizaciones por periodo histórico:
Comparativas de la democracia: las siguientes gráficas solo comparan un periodo de tiempo respecto a 1975 en adelante:
Hay muchas mediciones posibles que se pueden extraer de un conjunto de discursos. En el caso de estas gráficas, cada gráfica representa una comparación. Por ejemplo, podemos comparar el léxico de los discursos de Francisco Franco con los discursos de Juan Carlos y medir sus diferencias de vocabulario. O podemos partir la colección en intervalos temporales y comparar los discursos de un grupo con los de otro. En este caso, las gráficas se han obtenido atendiendo a los siguientes criterios:
Cada una de las gráficas representa una de las anteriores comparaciones. Las comparaciones son siempre binarias (es decir, Felipe vs Juan Carlos, democracia vs dictadura, burbuja vs no burbuja, etc) y los ejes x e y de la gráfica reprensentan cada uno de los dos grupos de la comparación.
Por ejemplo, cojamos la gráfica de que enfrenta los discursos de la democracia vs los de la dictadura. El eje y representa aquellas palabras y términos que son más o menos frecuentes en los discursos anteriores a 1977, mientras que el eje x representa aquellas palabras y términos que son más o menos frecuentes en los posteriores a 1977. Las palabras aparecen por tanto ubicadas en el plano según lo frecuentes o infrecuentes que sean en los discursos de ambos periodos. Las palabras muy frecuentes durante la dictadura pero poco habituales en la democracia estarán situadas hacia la esquina superior izquierda (valores altos para el eje y, valores bajos en el eje x: cruzada, arriba, comunismo, rusia). Las palabras habituales en la democracia pero poco frecuentes en la dictadura estarán localizadas hacia la esquina inferior derecha (valores altos para el eje x, valores bajos para el eje y: democrática, diversidad, terrorismo). Aquellas palabras que tengan frecuencias parecidas tanto en la dictadura como en la democracia estarán colocadas hacia la diagonal de la gráfica.
Si pinchamos en las palabras de la gráfica nos aparecerán los contextos en los que ha aparecido la palabra en cuestión y las diferencias de frecuencia entre un periodo y otro.
El resto de gráficas comparativas funcionan de la misma manera. A la hora de mirar el gráfico, merece la pena fijarse tanto en las palabras anormalmente frecuentes (esquinas superior izquierda e inferior derecha), pero también aquellas que se mantienen siempre habituales (esquina superior derecha) o las que tienen frecuencias parecidas (eje diagonal).
Estas gráficas representan la frecuencia de las palabras en los discursos. Sin embargo, ha habido un cierto preprocesamiento y una poderación en la obtención de los valores. En primer lugar, la representación ignora las palabras huecas como preposiciones, artículos, conjunciones, etc. (Como curiosidad: la palabra “arriba”, que en condiciones normales sería una de esas palabras que ignoraríamos, hemos tenido que sacarla de la lista de palabras vacías por ser una de las palabras características de los discursos de Franco).
Además, la frecuencia que se mide no es simplemente un recuento de palabras sin más, sino que el valor representa cuánto de frecuente es una palabra en un discurso o periodo en relación a lo frecuente que es respecto al total de la colección. Es decir, para caracterizar un periodo no solo nos interesan aquellos términos que son muy frecuentes en ese periodo, sino que nos interesan particularmente aquellos términos que, además de ser particularmente frecuentes en ese periodo sean particularmente infrecuentes en el resto de periodos. Dicho de otro modo, no se trata solamente de saber cuántas veces aparece una palabra en la colección de textos, sino ponerlo en relación con el número de discursos en los que esa palabra aparece. Una palabra que sea siempre muy frecuente no caracteriza demasiado bien un subconjunto de discursos. Sin embargo, una palabra que aparezca mucho en un conjunto de años pero muy poco en los demás es una buena representante de ese periodo de años (es lo que ocurre, por ejemplo, con “crisis económica” en la gráfica de los años de la recesión comparada con el resto de discursos de la democracia). Esta medida de la frecuencia se conoce con las siglas TF-IDF.
La visualización está hecha con las librerías de Python scattertext, NLTK y spaCy.
Las cuestiones técnicas sobre el corpus, la interfaz en Python y las visualizaciones están explicadas en el paper A Corpus of Spanish Political Speeches from 1937 to 2019, publicado en 12th Language Resources and Evaluation Conference.
El proyecto fue también reseñado en esta noticia de elDiario.es.
El repositorio con el código del proyecto está aquí. Tanto los discursos como el fichero de metadatos están disponibles para descarga en la carpeta data
. Existe también esta versión anterior del proyecto con documentación y visualizaciones para los discursos de 1975 en adelante