Як моделі обробляють текст через токенізацію — базову одиницю обчислень LLM.
Токени — це фундаментальні одиниці, з якими працюють LLM. Вони не символи, не слова, а підслівні частини — зазвичай 3-4 символи англійського тексту. Слово "tokenization" стає приблизно ["token", "ization"]. Розуміння токенів критично важливе, бо вони визначають витрати, ліміти контекстного вікна та поведінку моделі.
Кожна взаємодія з моделлю ШІ включає підрахунок токенів: ваш вхід вимірюється в токенах, вихід моделі підраховується в токенах, і ви платите за токен. Контекстне вікно — скільки тексту модель може "бачити" одночасно — вимірюється в токенах. Типова сторінка англійського тексту — це приблизно 500 токенів.
Що таке токен
Підслівні одиниці — не символи чи слова. "Hello world" це 2 токени. "Tokenization" стає ["token", "ization"]. Зазвичай 3-4 символи англійського тексту на токен.
Алгоритми токенізації
BPE (Byte Pair Encoding) ітеративно зливає часті пари символів. SentencePiece працює з будь-якою мовою. tiktoken — швидкий токенізатор OpenAI. Кожна сім'я моделей має свій токенізатор.
Розміри контекстних вікон
4K токенів (ранній GPT-3.5) → 128K (GPT-4) → 200K (Claude) → 1M+ (Gemini). Контекстні вікна зросли у 250 разів за 2 роки, різко розширюючи можливості обробки.
Ціноутворення токенів
Типові витрати: $1-30 за мільйон токенів залежно від рівня моделі. Claude Haiku ~$0.25/M вхід, GPT-4o ~$2.50/M вхід, Claude Opus ~$15/M вхід. Розуміння цін дозволяє оптимізацію.
Мовні відмінності
Українські, китайські, арабські та інші нелатинські скрипти використовують у 2-3 рази більше токенів за еквівалентний контент. Це прямо впливає на витрати та ефективний розмір контексту.
Спеціальні токени
Контрольні токени як <|im_start|>, <|im_end|>, [PAD], [SEP] використовуються внутрішньо для розмітки меж повідомлень, ролей та структури. Ви їх рідко бачите, але вони споживають контекст.
Інструменти підрахунку токенів
tiktoken (OpenAI), Anthropic tokenizer, Hugging Face tokenizers — використовуйте їх для прогнозу витрат та перевірки чи промпт вміщується у контекстне вікно.
Оптимізація витрат
Коротші промпти = дешевше, але занадто коротко = гірша якість. Мистецтво — знайти мінімальну ефективну довжину промпту. Видалення непотрібного контексту економить гроші.
Кешування промптів
Багато API кешують спільні префікси промптів. Anthropic та OpenAI пропонують кешування, що може зменшити витрати на вхід на 90% для повторюваних системних промптів.
Ціни вхідних vs вихідних токенів
Вихідні токени зазвичай у 2-5 разів дорожчі за вхідні. Генерація тексту коштує більше ніж читання. Це стимулює стислі виходи та впливає на проєктування додатків.
ТокенБазова одиниця тексту, яку обробляють LLM — підслівний фрагмент зазвичай 3-4 символи.
BPEByte Pair Encoding — алгоритм токенізації, що ітеративно зливає найчастіші пари символів.
Контекстне вікноМаксимальна кількість токенів, яку модель може обробити в одному запиті (вхід + вихід разом).
Кешування промптівФункція API, що кешує спільні префікси промптів для зменшення витрат на повторні запити.