LLM Course documentation
Introduction
0. Configuration
1. Les transformers
2. Utilisation de 🤗 Transformers
3. Finetuner un modèle pré-entraîné
4. Partager des modèles et des tokenizers
5. La bibliothèque 🤗 Datasets
IntroductionQue faire si mon jeu de données n'est pas sur le Hub ?Il est temps de trancher et de découperDonnées massives ? 🤗 Datasets à la rescousse !Création de votre propre jeu de donnéesRecherche sémantique avec FAISS🤗 Datasets, coché !Quiz de fin de chapitre
6. La bibliothèque 🤗 Tokenizer
7. Les principales tâches en NLP
8. Comment demander de l'aide
9. Construire et partager des démos
Evènements liés au cours
Glossaire
Introduction
Dans le chapitre 3 vous avez eu un premier aperçu de la bibliothèque 🤗 Datasets et des trois étapes principales pour finetuner un modèle :
- chargement d’un jeu de données à partir du Hub d’Hugging Face,
- prétraitement des données avec
Dataset.map(), - chargement et calcul des métriques.
Mais ce n’est qu’effleurer la surface de ce que 🤗 Datasets peut faire ! Dans ce chapitre, nous allons plonger profondément dans cette bibliothèque. En cours de route, nous trouverons des réponses aux questions suivantes :
- que faire lorsque votre jeu de données n’est pas sur le Hub ?
- comment découper et trancher un jeu de données ? (Et si on a vraiment besoin d’utiliser Pandas ?)
- que faire lorsque votre jeu de données est énorme et va monopoliser la RAM de votre ordinateur portable ?
- qu’est-ce que c’est que le « memory mapping » et Apache Arrow ?
- comment créer votre propre jeu de données et le pousser sur le Hub ?
Les techniques apprises dans ce chapitre vous prépareront aux tâches avancées de tokenisation du chapitre 6 et de finetuning du chapitre 7. Alors prenez un café et commençons !
Update on GitHub