Linguistique outillée et traitements statistiques

  • ECTS

    3 crédits

  • Composante

    Philo, Info-Comm, Langages, Littératures & Arts du spectacle

  • Volume horaire

    24h

  • Période de l'année

    Enseignement neuvième semestre

Description

Loin de se réduire à des requêtes lancées au hasard sur de grandes bases de données textuelles, la linguistique de corpus se nourrit des théories linguistiques pour les étayer ou les remettre en cause empiriquement. Ce cours a pour objectif de rendre les étudiant·e·s autonomes en leur donnant les moyens de constituer leurs propres outils pour l’exploration des corpus et la quantification de leurs données dans un seul et même environnement de programmation : R. 

 

Le cours se décompose en deux parties. Après une présentation des objectifs de la linguistique de corpus et une brève typologie des corpus, la première partie aborde successivement : 

- les bases de la programmation en R,

- la manipulation des chaînes de caractères,

- l’élaboration d’outils d’exploration de corpus,

- la constitution de jeux de données tabulées,

- la quantification sommaire des données ainsi que leur visualisation.

 

La seconde partie est consacrée au traitement statistique des données linguistiques. Sont abordés les points suivants :

- les statistiques descriptives,

- les tests statistiques,

- les mesures d’association et les réseaux lexicaux,

- les méthodes dites de clustering et leurs visualisations,

- les modèles de sémantique distributionnelle (SVD, PPMI, word2vec, BERT).

Enseignant : DESAGULIER Guillaume (MCF-HDR Paris 8)

Lire plus

Objectifs

Ce cours a pour objectif de rendre les étudiant·e·s autonomes en leur donnant les moyens de constituer leurs propres outils pour l’exploration des corpus et la quantification de leurs données dans un seul et même environnement de programmation : R. 

Lire plus

Évaluation

M3C en session unique
REGIME STANDARD INTEGRAL: avec évaluation continue (au moins 2 notes)
RÉGIME DÉROGATOIRE : Non
SESSION 2 : Organisé sur la période du semestre par l'enseignant

Lire plus

Pré-requis obligatoires

Bases en programmation, maîtrise des outils de bureautique.

Bases en mathématiques.

Lire plus

Compétences visées

Rendre les étudiant·e·s autonomes en leur donnant les moyens de constituer leurs propres outils pour l’exploration des corpus et la quantification de leurs données. Comprendre l’environnement R.

Lire plus

Bibliographie

Brezina, Vaclav (2018). Statistics in Corpus Linguistics: A Practical Guide. Cambridge University Press.

Desagulier, Guillaume (2017). Corpus Linguistics and Statistics with R. Introduction to Quantitative Methods in Linguistics. Springer.

Winter, Bodo (2019). Statistics for Linguists: An Introduction Using R. Routledge

Lire plus

Ressources pédagogiques

Notebook en ligne

Lire plus