← Назад до курсу

Базова теорія

🇬🇧 English
🌌 Рівень 5 — Горизонти

Просторовий інтелект

Розуміння ШІ 3D-простору, фізики та фізичного світу.

Просторовий інтелект — це здатність ШІ розуміти та міркувати про тривимірний фізичний світ — сприймати простір, передбачати фізичні взаємодії, навігувати середовищами та маніпулювати об'єктами. Поки LLM відмінні у мові, просторовий інтелект заповнює розрив між цифровим та фізичним розумінням.

Це поле критичне для робототехніки, автономних транспортних засобів, AR/VR та будь-якого застосування де ШІ повинен взаємодіяти з фізичним світом. Нещодавні прориви у 3D-генерації, симуляції фізики та втіленому ШІ швидко скорочують розрив між мовними здібностями ШІ та розумінням фізичного простору.

Основні теми
Що таке просторовий інтелект
Здатність розуміти 3D-структуру, просторові відношення, фізику та фізичну причинність. Люди роблять це природно — ШІ повинен вчитися з даних. Фей-Фей Лі називає це "наступним фронтіром ШІ."
Від комп'ютерного зору до 3D-розуміння
Еволюція від 2D-розпізнавання зображень (ера ImageNet) до 3D-розуміння сцен. NeRF та Gaussian Splatting реконструюють 3D-сцени з фото. Оцінка глибини та графи сцен відображають просторові відношення.
3D-генерація
ШІ генерує 3D-об'єкти та сцени з тексту або зображень. Point-E, Shap-E (OpenAI), DreamFusion (Google), Meshy створюють 3D-ассети. Застосування: ігри, архітектура, дизайн продуктів, віртуальні світи.
Симуляція фізики
ШІ вчить фізичну динаміку: як об'єкти падають, зіштовхуються, деформуються та взаємодіють. Диференційовані фізичні движки комбінують традиційну симуляцію з нейромережами.
Робототехніка та втілений ШІ
Роботи що сприймають, розуміють та діють у фізичному просторі. Фундаментальні моделі для робототехніки (RT-2, Octo) використовують навчання мова-візія-дія. Виклик: подолання розриву між віртуальним навчанням та фізичним деплоєм.
Автономна навігація
Безпілотні автомобілі, дрони та роботи-доставники навігують складними 3D-середовищами. Комбінація сприйняття (камери, LiDAR), картографування (SLAM), планування та прийняття рішень у реальному часі.
Моделі світу для просторового ШІ
Системи ШІ що будують внутрішні моделі роботи фізичного світу. Передбачають "що буде далі" у фізичних сценаріях. Критичні для планування фізичних дій та розуміння наслідків перед діями.
AR/VR та просторові обчислення
Apple Vision Pro, Meta Quest та платформи просторових обчислень потребують ШІ що розуміє 3D-простір. Реал-тайм розпізнавання об'єктів, розуміння сцен, трекінг рук — все вимагає просторового інтелекту.
Мультимодальне просторове розуміння
Комбінація мови з просторовим міркуванням: "постав чашку на стіл зліва від книги." Вимагає заземлення мови у 3D-просторі. Моделі SpatialVLM та 3D-LLM поєднують мову та просторове розуміння.
Розрив що потрібно закрити
2-річна дитина має краще просторове розуміння ніж найпросунутіший ШІ. Закриття цього розриву вимагає кращих архітектур (моделі світу, втілене навчання) та кращих даних (реальна взаємодія у масштабі).
Ключові терміни
NeRFNeural Radiance Fields — техніка ШІ для реконструкції фотореалістичних 3D-сцен з 2D-фото.
Втілений ШІСистеми ШІ з фізичними тілами (роботи), що вчаться через реальну взаємодію.
SLAMОдночасна локалізація та картографування — побудова карти середовища з одночасним відстеженням позиції.
Sim-to-RealПеренесення навичок ШІ з симуляції у реальне фізичне середовище.
Практичні поради
Пов'язані обговорення спільноти