Outils de Traitement de Corpus

Cours d'Outils de traitement de Corpus - PluriTAL

Project maintained by EveSa Hosted on GitHub Pages — Theme by mattgraham

👩 Qui suis-je 👩

Eve Sauvage
ancienne étudiante du master TAL
doctorante au LISN à l’université Paris-Saclay
mon sujet : le traitement des séquences longues avec les modèles d'apprentissage profond

Me joindre :

📫 eve.sauvage at lisn dot fr avec “outils de traitement de corpus” dans l’objet svp
🌐 https://EveSa.github.io/OutilsTraitementCorpus

Comment ça va ce passer :

Évaluation :

On fait un projet de constitution/exploitation de corpus en faisant

Un TP après chaque séance, sauf la première et la dernière, sur Github. 7 séances, 5 TP, 1 projet

Tous vos devoirs devront m’être parvenus avant le 26 mai

3 notes :

2 rendus obligatoires :

un projet de constitution et de traitement de corpus (40%) un post sur la newsletter (\20%) La meilleure des 2 notes (\40%):

les quizz en sessions un devoir sur table à la dernière séance

Accès à la newsletter → newsletter

Partie 1

étude de cas CoNLL 2003 :

Partie 2

projet:

En vous inspirant des informations que vous avez récupérées pour CoNLL 2003, définissez les besoins de votre projet:

Récuperer votre corpus de travail à partir d’une resource web (pas d’API)

mettez votre script de crawling et de scraping sur votre github en respectant l’arborescence de dossiers présenté au cours 3

Visualiser votre corpus et réaliser des statistiques de texte

ex. :
longueur des textes
mots fréquents (zipf)
les statistiques adaptées à votre tâche

A partir des données que vous avez récupérées, augmentez vos données en créant un dataset synthétique.
Choississez l’architecture adaptée à votre tâche et trouvez un modèle qui correspond à votre tâche et à cette architecture.

Finetuner le modèle pretrained qui correspond le plus à vos données grâce au trainer d’hugging face