Прорив технології генерації відео на базі ШІ: мульти-модальне злиття веде до нової ери творчості

robot
Генерація анотацій у процесі

Прорив у технології генерації відео за допомогою ШІ та його вплив

Нещодавно одним з найзначніших досягнень у сфері ШІ стало прорив у технології мультимодального відеогенерування. Ця технологія розвинулася від генерації відео з одного тексту до здатності інтегрувати текст, зображення та аудіо в повноцінну генерацію.

Декілька вражаючих випадків технічних проривів включають:

  1. Відкритий фреймворк EX-4D, розроблений великою технологічною компанією, може перетворювати звичайне відео в 4D контент з вільним кутом огляду, оцінка якого серед користувачів становить 70,7%. Ця технологія дозволяє генерувати ефекти перегляду з будь-якого кута, що раніше вимагало професійної команди 3D-моделювання.

  2. Деяка AI-платформа представила функцію "绘想", яка стверджує, що може створити 10-секундне відео "кіноякісного" рівня з одного зображення. Проте, справжність цієї заяви потребує фактичної перевірки.

  3. Технологія Veo, розроблена певним AI-дослідницьким інститутом, може одночасно генерувати 4K-відео та звукові ефекти навколишнього середовища. Ключовим моментом цієї технології є досягнення справжнього семантичного відповідності між відео та аудіо, що вирішує проблему синхронізації звуку та зображення в складних сценах.

  4. Технологія ContentV певної платформи коротких відео має 8 мільярдів параметрів, може генерувати 1080p відео за 2,3 секунди, а вартість становить 3,67 юаня/5 секунд. Хоча контроль витрат непоганий, якість генерації в складних сценах все ще має можливість для покращення.

Ці прориви мають велике значення з точки зору технологічної цінності, зниження витрат та впливу на застосування:

З точки зору технологічної цінності, складність генерації мультимодальних відео є експоненціальною. Це вимагає одночасного врахування багатьох аспектів, таких як генерація одиночних кадрів, часові узгодженості відео, синхронізація аудіо та просторової узгодженості 3D. Сучасні рішення реалізуються через модульне розбиття та співпрацю великих моделей, що значно знижує технологічний бар'єр.

Зменшення витрат в основному зумовлено оптимізацією архітектури висновків, включаючи стратегію генерування з ієрархією, механізм повторного використання кешу та динамічний розподіл ресурсів. Ці оптимізації значно знизили вартість генерації відео.

У сфері впливу застосування технологій ШІ кардинально змінює традиційний процес виробництва відео. Він скорочує процес, який раніше вимагав великої кількості обладнання, місць, людських ресурсів і часу, до простого введення підказок і кількох хвилин очікування. Це не лише знижує бар'єри для виробництва відео, але й дозволяє досягати кутів зору та ефектів, які важко реалізувати традиційною зйомкою, що може призвести до нової хвилі перетворень в економіці творців.

Ці зміни також мали глибокий вплив на сферу Web3 AI:

  1. Змінилася структура попиту на обчислювальні потужності. Генерація мультимодальних відео потребує різноманітних комбінацій обчислювальних потужностей, що створює новий попит на розподілені незайняті обчислювальні потужності.

  2. Потреби в маркуванні даних зросли. Для створення професійного відео потрібні точні описи сцен, референсні зображення, аудіостилі та інші професійні дані. Це створює нові можливості для фотографів, звукових дизайнерів, 3D-художників та інших, щоб отримувати професійні матеріали.

  3. Зростає попит на децентралізовані платформи. Технології штучного інтелекту переходять від централізованого масштабного розподілу ресурсів до модульної співпраці, створюючи новий попит на децентралізовані платформи.

У майбутньому обчислювальна потужність, дані, моделі та механізми стимулювання можуть утворити самопідсилювальний позитивний цикл, що сприятиме глибокій інтеграції Web3 AI та Web2 AI.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 4
  • Репост
  • Поділіться
Прокоментувати
0/400
TrustMeBrovip
· 10год тому
70.7% це ж зовсім ненадійно!
Переглянути оригіналвідповісти на0
OnchainDetectivevip
· 10год тому
4D так? Який високий клас кінематографічного ефекту, скоро можна буде знімати ав у домашніх умовах.
Переглянути оригіналвідповісти на0
TokenToastervip
· 10год тому
Такими даними ще й хвалитися!
Переглянути оригіналвідповісти на0
CountdownToBrokevip
· 10год тому
Взяти зображення і створити фільм? Справді, це як стріляти з гармати по комареві.
Переглянути оригіналвідповісти на0
  • Закріпити