Архітектура нейромереж — шари, функції активації та як відбувається навчання.
Нейронні мережі — це математична основа, що лежить під усім сучасним ШІ. Вони натхненні біологічними нейронами, але на практиці є системами матричних множень та нелінійних функцій, організованих у шари. Розуміння їх роботи — прямого поширення, обчислення втрат та зворотного поширення — є необхідним для тих, хто хоче вийти за межі поверхневого використання ШІ.
Сфера еволюціонувала від простих перцептронів 1950-х до сучасних трильйон-параметрових трансформерних мереж. Кожен архітектурний прорив — від конволюційних шарів для зору до механізмів уваги для мови — розширював можливості нейромереж. Знання цих основ допомагає зрозуміти, чому певні моделі відмінні в певних задачах і які справжні обмеження "ШІ".
Нейрони та зважені суми
Нейрон обчислює зважену суму входів, додає зміщення, потім пропускає результат через функцію активації. Ця проста операція, повторена мільярди разів через шари, є основою обчислень нейромереж.
Шари мережі
Вхідний шар приймає сирі дані, приховані шари витягують дедалі абстрактніші ознаки, вихідний шар видає фінальне передбачення. "Глибоке" навчання означає багато прихованих шарів — сучасні LLM мають 80-120+ шарів.
Функції активації
ReLU (найпоширеніша, простий max(0,x)), GELU (використовується в трансформерах, плавніша), Sigmoid (стискає до 0-1), Softmax (видає розподіл ймовірностей). Вони вводять нелінійність — без них вся мережа звелась би до одного лінійного перетворення.
Пряме поширення
Дані проходять через мережу шар за шаром — кожен шар трансформує свій вхід і передає результат наступному. Фінальний вихід — передбачення, яке порівнюється з правильною відповіддю для обчислення помилки.
Функції втрат
Вимірювання наскільки передбачення хибне. Cross-entropy для класифікації, MSE для регресії, передбачення наступного токена для мовних моделей. Весь процес навчання — це мінімізація цієї функції втрат.
Зворотне поширення
Алгоритм, що робить навчання можливим. Він обчислює внесок кожної ваги в помилку, застосовуючи ланцюгове правило числення назад через мережу — звідси "зворотне" поширення.
Оптимізація градієнтним спуском
Корекція ваг у напрямку зменшення втрат. Оптимізатор Adam (використовується майже всіма сучасними моделями) адаптує швидкість навчання для кожного параметра. Планування швидкості, прогрів та затухання ваг — критичні гіперпараметри.
Конволюційні мережі (CNN)
Спеціалізовані для просторових даних як зображення. Конволюційні фільтри ковзають по входу, виявляючи краї, текстури та патерни. Все ще використовуються у комп'ютерному зорі, але замінюються Vision Transformers (ViT).
Рекурентні мережі (RNN, LSTM)
Створені для послідовних даних — текст, часові ряди, аудіо. Вони зберігають прихований стан, що несе інформацію через часові кроки. Здебільшого замінені Трансформерами, які обробляють послідовності паралельно.
Архітектура Transformer
Прорив 2017 року, що лежить в основі всіх сучасних LLM. Самоувага дозволяє кожному токену звертати увагу на кожен інший в послідовності, захоплюючи далекосяжні залежності, з якими RNN мали проблеми. Багатоголова увага запускає кілька обчислень уваги паралельно.
Зворотне поширенняАлгоритм обчислення внеску кожної ваги в помилку через застосування ланцюгового правила назад через мережу.
Градієнтний спускАлгоритм оптимізації, що ітеративно корегує ваги у напрямку зменшення помилки, використовуючи обчислені градієнти.
СамоувагаМеханізм, де кожен елемент послідовності обчислює оцінки релевантності з кожним іншим елементом для контекстно-залежної обробки.
Функція активаціїНелінійна функція, що застосовується після зважених сум — без неї нейромережі могли б моделювати лише лінійні залежності.