Великі мовні моделі та архітектура GPT, що розпочала революцію.
Великі мовні моделі (LLM) — це нейромережі, навчені на масивних текстових наборах даних, що можуть розуміти та генерувати людську мову. "Великі" стосується як кількості параметрів (мільярди), так і масштабу навчальних даних (трильйони токенів з інтернету). LLM є основою сучасних ШІ-асистентів як ChatGPT, Claude та Gemini.
GPT — Generative Pre-trained Transformer — це конкретне сімейство архітектур від OpenAI, що популяризувало LLM. Ключова ідея полягала в тому, що масштабування простої задачі передбачення наступного токена на інтернет-масштабних даних створює надзвичайно здатні моделі. Цей патерн "попереднє навчання в масштабі, потім файн-тюнінг для задач" став домінуючою парадигмою в усіх ШІ-лабораторіях.
Що таке LLM
Нейромережа з мільярдами параметрів, навчена на масивних текстових даних. Вона вивчає статистичну структуру мови і може генерувати, аналізувати, перекладати та міркувати про текст.
Архітектура Transformer
Стаття 2017 "Attention Is All You Need" ввела самоувагу — дозволяючи кожному токену звертати увагу на кожен інший в послідовності. Це замінило повільніші рекурентні архітектури та дало паралелізацію.
GPT: Generative Pre-trained Transformer
Декодер-only архітектура OpenAI. "Generative" = генерує текст, "Pre-trained" = спочатку навчена на широких даних, "Transformer" = базова архітектура. Цей дизайн став шаблоном для всіх сучасних LLM.
Передбачення наступного токена
LLM генерують текст по одному токену, завжди передбачаючи найімовірніший наступний токен з урахуванням усіх попередніх. Ця проста задача, у масштабі, створює надзвичайно здатні моделі.
Закони масштабування
Дослідження Chinchilla показали, що продуктивність моделей покращується передбачувано з більшими обчисленнями, даними та параметрами. Цей математичний зв'язок рухає індустрію до більших моделей.
Емерджентні здібності
При певних масштабах моделі раптово отримують можливості, відсутні у менших версіях — навчання в контексті, міркування ланцюгом думок, генерація коду.
Ключові сімейства моделей
GPT-4/o1 (OpenAI), Claude 3.5/4 (Anthropic), Gemini (Google), Llama 3 (Meta), Qwen 2.5 (Alibaba), Mistral/Mixtral (Mistral AI). Кожне має свої переваги та компроміси.
Розміри моделей
Від 1B параметрів "малих" моделей (запускаються на телефонах) до 1T+ фронтирних (вимагають дата-центрів). Поширені розміри: 7B, 13B, 34B, 70B, 405B. Більше зазвичай = здатніше, але повільніше.
Пайплайн навчання
Попереднє навчання (трильйони токенів, місяці GPU часу) → Кероване файн-тюнінг з кураторськими прикладами → RLHF/DPO вирівнювання для корисності та безпеки.
Інференс
Як моделі працюють: прямий прохід через мережу, KV кеш для ефективної генерації, батчинг запитів, стримінг токенів користувачу по мірі генерації.
LLMВелика мовна модель — нейромережа з мільярдами параметрів, навчена передбачувати та генерувати текст.
TransformerАрхітектура нейромережі з самоувагою, що дозволяє паралельну обробку послідовностей.
Передбачення наступного токенаОсновна задача навчання: маючи попередні токени, передбачити найімовірніший наступний.
Закони масштабуванняМатематичні зв'язки, що показують передбачуване покращення продуктивності моделі з більшими обчисленнями, даними та параметрами.
АвторегресивнийГенерація по одному токену за раз, де кожен новий токен залежить від усіх попередніх.