Outils de Traitement de Corpus

Cours d'Outils de traitement de Corpus - PluriTAL


Project maintained by EveSa Hosted on GitHub Pages — Theme by mattgraham

đŸ‘© Qui suis-je đŸ‘©

Me joindre :

🎓 PrĂ©senter le cours 🎓

Comment ça va ce passer :

Évaluation :

On fait un projet de constitution/exploitation de corpus en faisant

Un TP aprÚs chaque séance, sauf la premiÚre et la derniÚre, sur Github. 7 séances, 5 TP, 1 projet

Tous vos devoirs devront m’ĂȘtre parvenus avant le 26 mai

3 notes :

2 rendus obligatoires :

un projet de constitution et de traitement de corpus (40%) un post sur la newsletter (\20%) La meilleure des 2 notes (\40%):

les quizz en sessions un devoir sur table à la derniÚre séance

Index des cours

Accùs à la newsletter → newsletter

Déroulé des TP

TP 1 :

Partie 1 étude de cas CoNLL 2003 :
  1. Quelle type de tĂąche propose CoNLL 2003 ?
  2. Quel type de données y a-t-il dans CoNLL 2003 ?
  3. A quel besoin répond CoNLL 2003 ?
  4. Quels types de modÚles ont été entraßnés sur CoNLL 2003 ?
  5. Est un corpus monolingue ou multilingue ?
Partie 2 projet:

En vous inspirant des informations que vous avez récupérées pour CoNLL 2003, définissez les besoins de votre projet:

TP 2:

RĂ©cuperer votre corpus de travail Ă  partir d’une resource web (pas d’API)

mettez votre script de crawling et de scraping sur votre github en respectant l’arborescence de dossiers prĂ©sentĂ© au cours 3

TP 3:

Visualiser votre corpus et réaliser des statistiques de texte

ex. :
1. longueur des textes
2. mots fréquents (zipf)
3. les statistiques adaptées à votre tùche

TP 4 :

TP 5

TP 6