LLM Course documentation
Введение
0. Установка
1. Трансформеры
2. Использование 🤗 Transformers
3. Fine-tuning предобученной модели
4. Hugging Face Hub
5. Библиотека 🤗 Datasets
ВведениеЧто делать, если моего датасета на нет на Hub?Препарируем 🤗 DatasetsBig data? 🤗 Datasets спешат на помощь!Семантический поиск с помощью FAISS🤗 Datasets, итоги!Тест в конце главы
6. Бибилиотека 🤗 Tokenizers
7. Основные задачи NLP
8. Как попросить о помощи
9. Создание и распространение демо
События курса
Глоссарий
Введение
В главе 3 вы поверхностно ознакомились с библиотекой 🤗 Datasets и увидели три главных шага для использования ее в процессе fine-tuning:
- Загрузить датасет из Hugging Face Hub.
- Произвести препроцессинг с помощью
Dataset.map(). - Загрузить и вычислить метрики.
Но это лишь малая часть того, на что способна 🤗 Datasets! В этой главе мы углубимся в библиотеку и попутно мы найдем ответы на следующие вопросы:
- Что делать, когда нужного набора данных нет в Hub?
- Как вы можете разделиить датасет? (Что если вам действительно нужно использовать Pandas?)
- Что делать, когда ваш набор данных огромен и «расплавит» оперативную память вашего ноутбука?
- Что, черт возьми, такое «отображение памяти» (memory mapping) и Apache Arrow?
- Как вы можете создать свой собственный датасет и отправить его в Hub?
Принципы, которые вы изучите в этой главе, подготовят вас к более глубокому использованию токенизации и fine-tuning’а моделей в главе 6 и главе 7 – заваривайте кофе и мы начинаем!
Update on GitHub