Системи ШІ, що будують внутрішні уявлення про те, як працює світ.
Модель світу — це внутрішнє уявлення системи ШІ про те, як працює світ — що дозволяє передбачати результати, планувати дії та міркувати про причинність. Ян Лекун аргументує що поточні LLM не мають справжніх моделей світу і їх побудова — ключ до досягнення ШІ людського рівня. Без моделі світу ШІ може лише зіставляти патерни з навчальних даних, а не справді "розуміти."
Моделі світу дозволяють агенту симулювати "що буде якщо..." перед дією — основа планування та здорового глузду. Люди роблять це постійно: ви можете передбачити що склянка розіб'ється при падінні, навіть якщо ніколи не бачили цю конкретну склянку. Побудова цієї здатності в ШІ — один з великих викликів галузі.
Що таке модель світу
Внутрішня симуляція реальності для передбачення, планування та причинного міркування. Люди мають багаті моделі світу — ми інтуїтивно розуміємо фізику, соціальну динаміку та причину-наслідок. Моделі світу ШІ прагнуть це повторити.
Архітектура JEPA Лекуна
Ян Лекун пропонує Joint Embedding Predictive Architecture (JEPA) як шлях до моделей світу. Замість передбачення пікселів, JEPA передбачає абстрактні представлення майбутніх станів, уникаючи складності піксельного рівня.
Чи мають LLM моделі світу?
Гаряча дискусія: деякі дослідження показують що LLM розвивають внутрішні просторові та часові представлення (Othello-GPT). Критики аргументують що це статистичні патерни, не справжнє розуміння. Істина ймовірно посередині.
Передбачення відео як моделювання світу
Передбачення майбутніх кадрів відео вимагає розуміння фізики, постійності об'єктів та причинності. Sora (OpenAI), Runway Gen-3 демонструють імпліцитне розуміння фізики через генерацію відео.
Фізичні движки проти навчених моделей
Традиційний підхід: закодовані правила фізики (Unity, Unreal). Новий: навчена фізика з даних (нейронні фізичні движки). Гібрид: комбінація традиційної фізики з нейромережами для робастності.
Планування з моделями світу
Якщо можете симулювати наслідки, можете планувати: спробуйте дії в симуляції, спостерігайте передбачені результати, оберіть найкращий. Model-based RL (MuZero, Dreamer) використовує навчені моделі для планування.
Міркування здорового глузду
Розуміння що об'єкти падають вниз, вода мокра, люди мають почуття — "прості" речі що найскладніші для ШІ. Моделі світу вважаються необхідними для здорового глузду, що залишається слабкістю поточного ШІ.
Імпліцитні та експліцитні моделі
Імпліцитні: знання закодовані у вагах мережі (LLM можуть мати). Експліцитні: окрема, запитувана модель світу. Лекун аргументує що експліцитні моделі необхідні для робастного міркування та планування.
Мультимодальні моделі світу
Справжні моделі світу повинні інтегрувати зір, мову, звук та фізичну взаємодію. Модель що обробляє лише текст не може розуміти фізику. Мультимодальні підходи (Gemini, GPT-4V) рухаються до інтегрованого розуміння.
Шлях вперед
Комбінація міркування LLM з навченою фізикою, втіленим досвідом та абстрактним навчанням представлень. Моделі світу можуть прийти не як один прорив, а як поступова інтеграція можливостей.
Модель світуВнутрішнє уявлення ШІ про реальність для передбачення, планування та причинного міркування.
JEPAJoint Embedding Predictive Architecture — запропонований Лекуном підхід для побудови моделей світу що передбачають абстрактні стани.
Здоровий глуздІнтуїтивне розуміння повсякденної фізики, соціальної динаміки та причинно-наслідкових зв'язків — все ще великий виклик для ШІ.
Model-Based RLНавчання з підкріпленням з навченою моделлю світу для симуляції та планування дій перед їх виконанням.