ECTS
3 crédits
Composante
Philo, Info-Comm, Langages, Littératures & Arts du spectacle
Volume horaire
24h
Période de l'année
Enseignement neuvième semestre
Description
Loin de se réduire à des requêtes lancées au hasard sur de grandes bases de données textuelles, la linguistique de corpus se nourrit des théories linguistiques pour les étayer ou les remettre en cause empiriquement. Ce cours a pour objectif de rendre les étudiant·e·s autonomes en leur donnant les moyens de constituer leurs propres outils pour l’exploration des corpus et la quantification de leurs données dans un seul et même environnement de programmation : R.
Le cours se décompose en deux parties. Après une présentation des objectifs de la linguistique de corpus et une brève typologie des corpus, la première partie aborde successivement :
- les bases de la programmation en R,
- la manipulation des chaînes de caractères,
- l’élaboration d’outils d’exploration de corpus,
- la constitution de jeux de données tabulées,
- la quantification sommaire des données ainsi que leur visualisation.
La seconde partie est consacrée au traitement statistique des données linguistiques. Sont abordés les points suivants :
- les statistiques descriptives,
- les tests statistiques,
- les mesures d’association et les réseaux lexicaux,
- les méthodes dites de clustering et leurs visualisations,
- les modèles de sémantique distributionnelle (SVD, PPMI, word2vec, BERT).
Enseignant : DESAGULIER Guillaume (MCF-HDR Paris 8)
Objectifs
Ce cours a pour objectif de rendre les étudiant·e·s autonomes en leur donnant les moyens de constituer leurs propres outils pour l’exploration des corpus et la quantification de leurs données dans un seul et même environnement de programmation : R.
Évaluation
M3C en session unique
REGIME STANDARD INTEGRAL: avec évaluation continue (au moins 2 notes)
RÉGIME DÉROGATOIRE : Non
SESSION 2 : Organisé sur la période du semestre par l'enseignant
Pré-requis obligatoires
Bases en programmation, maîtrise des outils de bureautique.
Bases en mathématiques.
Compétences visées
Rendre les étudiant·e·s autonomes en leur donnant les moyens de constituer leurs propres outils pour l’exploration des corpus et la quantification de leurs données. Comprendre l’environnement R.
Bibliographie
Brezina, Vaclav (2018). Statistics in Corpus Linguistics: A Practical Guide. Cambridge University Press.
Desagulier, Guillaume (2017). Corpus Linguistics and Statistics with R. Introduction to Quantitative Methods in Linguistics. Springer.
Winter, Bodo (2019). Statistics for Linguists: An Introduction Using R. Routledge
Ressources pédagogiques
Notebook en ligne