Outils de Traitement de Corpus
Cours d'Outils de traitement de Corpus - PluriTAL
Project maintained by EveSa
Hosted on GitHub Pages — Theme by mattgraham
đ© Qui suis-je đ©
- Eve Sauvage
- ancienne étudiante du master TAL
- doctorante au LISN Ă lâuniversitĂ© Paris-Saclay
- mon sujet :
le traitement des séquences longues avec les modÚles d'apprentissage profond
Me joindre :
đ PrĂ©senter le cours đ
Comment ça va ce passer :
- 6 séances
- du 18 mars au 13 mai
- de 15h30 Ă 18h30
- En salle 308
- partagé en 3 parties :
- Une partie cours magistral
\â nâhĂ©sitez pas Ă poser des questions
- Une partie retours
- sur le cours
- prĂ©paration du cours dâaprĂšs (quâest ce que vous voulez voir la prochaine fois, de quoi vous voudriez entendre parler)
- un petit point bonnes pratiques
- Une partie pratique
Ăvaluation :
On fait un projet de constitution/exploitation de corpus en faisant
Un TP aprÚs chaque séance, sauf la premiÚre et la derniÚre, sur Github.
7 séances, 5 TP, 1 projet
Tous vos devoirs devront mâĂȘtre parvenus avant le 26 mai
3 notes :
2 rendus obligatoires :
un projet de constitution et de traitement de corpus (40%)
un post sur la newsletter (\20%)
La meilleure des 2 notes (\40%):
les quizz en sessions
un devoir sur table à la derniÚre séance
Index des cours
- Cours 1
- Cours 2
- Cours 3
- Cours 4
- Cours 5
- Cours 6
AccĂšs Ă la newsletter â newsletter
Déroulé des TP
TP 1 :
| Partie 1 |
étude de cas CoNLL 2003 : |
- Quelle type de tĂąche propose CoNLL 2003 ?
- Quel type de données y a-t-il dans CoNLL 2003 ?
- A quel besoin répond CoNLL 2003 ?
- Quels types de modÚles ont été entraßnés sur CoNLL 2003 ?
- Est un corpus monolingue ou multilingue ?
En vous inspirant des informations que vous avez récupérées pour CoNLL 2003, définissez les besoins de votre projet:
- dans quel besoin vous inscrivez vous ?
- quel sujet allez vous traiter ?
- quel type de tùche allez vous réaliser ?
- quel type de données allez vous exploiter ?
- oĂč allez vous rĂ©cupĂ©rer vos donnĂ©es ?
- sont-elles libres dâaccĂšs ?
TP 2:
RĂ©cuperer votre corpus de travail Ă partir dâune resource web (pas dâAPI)
mettez votre script de crawling et de scraping sur votre github en respectant lâarborescence de dossiers prĂ©sentĂ© au cours 3
TP 3:
Visualiser votre corpus et réaliser des statistiques de texte
ex. :
1. longueur des textes
2. mots fréquents (zipf)
3. les statistiques adaptées à votre tùche
TP 4 :
- A partir des données que vous avez récupérées, augmentez vos données en créant un dataset synthétique.
- Choississez lâarchitecture adaptĂ©e Ă votre tĂąche et trouvez un modĂšle qui correspond Ă votre tĂąche et Ă cette architecture.
TP 5
- Finetuner le modĂšle pretrained qui correspond le plus Ă vos donnĂ©es grĂące au trainer dâhugging face
TP 6