← Назад до курсу

Базова теорія

🇬🇧 English
⚡ Рівень 3 — Професіонал

Основи нейромереж

Архітектура нейромереж — шари, функції активації та як відбувається навчання.

Нейронні мережі — це математична основа, що лежить під усім сучасним ШІ. Вони натхненні біологічними нейронами, але на практиці є системами матричних множень та нелінійних функцій, організованих у шари. Розуміння їх роботи — прямого поширення, обчислення втрат та зворотного поширення — є необхідним для тих, хто хоче вийти за межі поверхневого використання ШІ.

Сфера еволюціонувала від простих перцептронів 1950-х до сучасних трильйон-параметрових трансформерних мереж. Кожен архітектурний прорив — від конволюційних шарів для зору до механізмів уваги для мови — розширював можливості нейромереж. Знання цих основ допомагає зрозуміти, чому певні моделі відмінні в певних задачах і які справжні обмеження "ШІ".

Основні теми
Нейрони та зважені суми
Нейрон обчислює зважену суму входів, додає зміщення, потім пропускає результат через функцію активації. Ця проста операція, повторена мільярди разів через шари, є основою обчислень нейромереж.
Шари мережі
Вхідний шар приймає сирі дані, приховані шари витягують дедалі абстрактніші ознаки, вихідний шар видає фінальне передбачення. "Глибоке" навчання означає багато прихованих шарів — сучасні LLM мають 80-120+ шарів.
Функції активації
ReLU (найпоширеніша, простий max(0,x)), GELU (використовується в трансформерах, плавніша), Sigmoid (стискає до 0-1), Softmax (видає розподіл ймовірностей). Вони вводять нелінійність — без них вся мережа звелась би до одного лінійного перетворення.
Пряме поширення
Дані проходять через мережу шар за шаром — кожен шар трансформує свій вхід і передає результат наступному. Фінальний вихід — передбачення, яке порівнюється з правильною відповіддю для обчислення помилки.
Функції втрат
Вимірювання наскільки передбачення хибне. Cross-entropy для класифікації, MSE для регресії, передбачення наступного токена для мовних моделей. Весь процес навчання — це мінімізація цієї функції втрат.
Зворотне поширення
Алгоритм, що робить навчання можливим. Він обчислює внесок кожної ваги в помилку, застосовуючи ланцюгове правило числення назад через мережу — звідси "зворотне" поширення.
Оптимізація градієнтним спуском
Корекція ваг у напрямку зменшення втрат. Оптимізатор Adam (використовується майже всіма сучасними моделями) адаптує швидкість навчання для кожного параметра. Планування швидкості, прогрів та затухання ваг — критичні гіперпараметри.
Конволюційні мережі (CNN)
Спеціалізовані для просторових даних як зображення. Конволюційні фільтри ковзають по входу, виявляючи краї, текстури та патерни. Все ще використовуються у комп'ютерному зорі, але замінюються Vision Transformers (ViT).
Рекурентні мережі (RNN, LSTM)
Створені для послідовних даних — текст, часові ряди, аудіо. Вони зберігають прихований стан, що несе інформацію через часові кроки. Здебільшого замінені Трансформерами, які обробляють послідовності паралельно.
Архітектура Transformer
Прорив 2017 року, що лежить в основі всіх сучасних LLM. Самоувага дозволяє кожному токену звертати увагу на кожен інший в послідовності, захоплюючи далекосяжні залежності, з якими RNN мали проблеми. Багатоголова увага запускає кілька обчислень уваги паралельно.
Ключові терміни
Зворотне поширенняАлгоритм обчислення внеску кожної ваги в помилку через застосування ланцюгового правила назад через мережу.
Градієнтний спускАлгоритм оптимізації, що ітеративно корегує ваги у напрямку зменшення помилки, використовуючи обчислені градієнти.
СамоувагаМеханізм, де кожен елемент послідовності обчислює оцінки релевантності з кожним іншим елементом для контекстно-залежної обробки.
Функція активаціїНелінійна функція, що застосовується після зважених сум — без неї нейромережі могли б моделювати лише лінійні залежності.
Практичні поради
Пов'язані обговорення спільноти