← Назад до курсу

Базова теорія

🇬🇧 English
⚡ Рівень 3 — Професіонал

Від даних до моделі

Повний пайплайн від сирих даних до навченої моделі.

Шлях від сирих даних до працюючої моделі ШІ включає складний пайплайн збору, очищення, попередньої обробки, навчання та оцінки. Якість даних часто важливіша за архітектуру моделі — вислів спільноти ШІ "сміття на вході — сміття на виході" ніколи не був більш актуальним. Розуміння цього пайплайну допомагає зрозуміти, чому деякі моделі кращі за інших.

Пайплайн даних — це де справжня конкурентна перевага. Компанії як OpenAI, Anthropic та Google інвестують масштабно в курацію даних — не просто знаходження більше даних, а знаходження кращих. Фільтрація, дедуплікація та генерація синтетичних даних стали цілими піддисциплінами, бо спільнота ШІ усвідомила, що стеля якості моделі визначається її навчальними даними.

Основні теми
Збір даних у масштабі
Веб-краулінг (Common Crawl — петабайти веб-сторінок), оцифровані книги, репозиторії коду GitHub, наукові статті (arXiv, PubMed), Вікіпедія. Масштаб вражаючий: трильйони токенів з мільярдів документів.
Очищення даних
Видалення дублікатів, низькоякісного контенту, шаблонного HTML, персональних даних (PII) та машинного спаму. До 90% сирих краулених даних може бути відкинуто під час очищення.
Дедуплікація
Видалення точних та близьких дублікатів для запобігання запам'ятовуванню. Техніки MinHash, SimHash та суфіксних масивів ідентифікують схожий контент. Критична для запобігання заучування моделлю конкретних текстів.
Фільтрація контенту
Видалення шкідливого, токсичного або захищеного авторським правом контенту. Класифікаторна фільтрація, блокліст ключових слів та рішення на рівні доменів. Баланс фільтрації зі збереженням різноманіття — ключовий виклик.
Токенізація та попередня обробка
Конвертація тексту у токени. BPE (Byte Pair Encoding) та SentencePiece — домінуючі методи. Розмір словника (32K-100K+ токенів) обмінює пам'ять на ефективність кодування. Мультимовні токенізатори повинні балансувати всі мови.
Формати датасетів
JSONL (людино-читабельний), Parquet (колонковий, стиснутий), Arrow (у пам'яті, zero-copy). Ефективне зберігання критичне при терабайтних датасетах. Бібліотека Hugging Face datasets стандартизує доступ.
Якість vs кількість даних
Менші якісні датасети можуть перевершити більші зашумлені. Моделі Phi від Microsoft це довели: ретельно кураторські дані "підручникової якості" навчили моделі, що перевершували значно більші.
Генерація синтетичних даних
Використання існуючих ШІ-моделей для генерації навчальних даних. Self-instruct, Evol-Instruct та пайплайни дистиляції створюють мільйони пар інструкція-відповідь. Дозволяє навчання на доменах де реальні дані дефіцитні.
Людська анотація даних
Людські розмітники створюють приклади для файн-тюнінгу та RLHF. Якість анотації варіюється — детальні гайдлайни, кілька розмітників на приклад та перевірка узгодженості між розмітниками є необхідними.
Відкриті датасети
The Pile (EleutherAI), RedPajama (Together AI), FineWeb (HuggingFace), SlimPajama — відкриті датасети для open-source моделей. Розуміння їх складу пояснює можливості та упередження моделей.
Ключові терміни
Common CrawlМасивний відкритий веб-архів з петабайтами веб-сторінок, основне джерело даних для навчання більшості LLM.
Синтетичні даніНавчальні дані, згенеровані моделями ШІ замість збору з реальних джерел, що дозволяють навчання на дефіцитних доменах.
Дедуплікація данихВидалення дублікатів або близьких дублікатів хешуванням для запобігання запам'ятовування та покращення якості.
BPE токенізаціяByte Pair Encoding — домінуючий метод розбиття тексту на під-словесні токени для обробки моделями.
Практичні поради
Пов'язані обговорення спільноти