VideoJAM: Tạo Video Chuyển Động Mượt Mà và Chân Thực (Meta)

Bạn có gặp khó khăn trong việc tạo ra các video có chuyển động tự nhiên và chân thực không? Nhiều mô hình AI hiện tại tạo ra video có hình ảnh đẹp nhưng chuyển động lại giật cục, thiếu tự nhiên. VideoJAM của Meta ra đời để giải quyết vấn đề này! VideoJAM là một framework mới giúp các mô hình tạo video không chỉ đẹp mắt mà còn có chuyển động mượt mà, sống động như thật. Trong bài viết này, chúng ta sẽ cùng tìm hiểu VideoJAM là gì, nó hoạt động như thế nào, tại sao nó lại vượt trội hơn so với các phương pháp khác, và tiềm năng ứng dụng của nó.

VideoJAM là gì? Tổng quan về công nghệ

Khái niệm cơ bản về VideoJAM

VideoJAM là một framework được phát triển bởi Meta, được thiết kế để cải thiện khả năng tạo video của các mô hình AI. Điểm đặc biệt của VideoJAM là nó tập trung vào việc tạo ra các chuyển động thực tếmượt mà, thay vì chỉ tập trung vào chất lượng hình ảnh như các mô hình truyền thống. Điều này đạt được bằng cách kết hợp thông tin về cả hình ảnh và chuyển động trong quá trình huấn luyện và tạo video.

 

Điểm khác biệt của VideoJAM

Các mô hình tạo video trước đây thường chỉ tập trung vào việc tái tạo lại các pixel của video gốc, dẫn đến việc bỏ qua tính logic và tự nhiên của chuyển động. VideoJAM giải quyết vấn đề này bằng cách sử dụng một phương pháp gọi là “biểu diễn kết hợp hình ảnh-chuyển động” (joint appearance-motion representation). Nghĩa là, mô hình học cách liên kết hình ảnh và chuyển động với nhau, từ đó tạo ra các video có chuyển động hợp lý hơn.

Hơn nữa, VideoJAM còn sử dụng một kỹ thuật gọi là Inner-Guidance trong quá trình tạo video, giúp tăng cường tính nhất quán của chuyển động.

Cơ chế hoạt động của VideoJAM

Huấn luyện với biểu diễn kết hợp

Trong giai đoạn huấn luyện, VideoJAM không chỉ học cách tạo ra hình ảnh (appearance) mà còn học cách dự đoán chuyển động (motion) của các đối tượng trong video. Cả hai thông tin này được kết hợp lại thành một “biểu diễn kết hợp”.

Các bước trong quá trình huấn luyện:

  1. Đầu vào: Video đầu vào (x1) và chuyển động tương ứng (d1) được làm nhiễu.
  2. Nhúng: Thông tin hình ảnh và chuyển động đã được làm nhiễu được nhúng vào một không gian biểu diễn chung bằng lớp nhúng tuyến tính Win+.
  3. Mô hình Diffusion: Mô hình diffusion xử lý biểu diễn kết hợp này.
  4. Dự đoán: Hai lớp chiếu tuyến tính (Wout+) dự đoán cả hình ảnh và chuyển động từ biểu diễn kết hợp.

Inner-Guidance: Tự hướng dẫn trong quá trình tạo

Điểm độc đáo của VideoJAM là kỹ thuật Inner-Guidance được sử dụng trong quá trình tạo video (inference). Thay vì dựa vào các yếu tố bên ngoài, VideoJAM sử dụng chính dự đoán chuyển động của nó để hướng dẫn quá trình tạo video.

Các thành phần của Inner-Guidance:

  • Dự đoán chuyển động nhiễu: Mô hình tự dự đoán chuyển động ở mỗi bước tạo video.
  • Hướng dẫn động: Dự đoán chuyển động nhiễu này được sử dụng làm tín hiệu hướng dẫn động, giúp điều chỉnh quá trình tạo video để tạo ra chuyển động mượt mà và nhất quán hơn.

Điều này giúp VideoJAM tạo ra các video có chuyển động phức tạp và tự nhiên hơn so với các mô hình khác.

Kết quả và so sánh với các mô hình khác

Chất lượng chuyển động vượt trội

VideoJAM đã được thử nghiệm và so sánh với các mô hình tạo video hàng đầu hiện nay, bao gồm cả các mô hình độc quyền như Sora, Kling và Runway Gen3. Kết quả cho thấy VideoJAM vượt trội hơn hẳn về khả năng tạo ra các chuyển động thực tếmượt mà.

Chất lượng hình ảnh được cải thiện

Không chỉ cải thiện chất lượng chuyển động, VideoJAM còn cho thấy sự cải thiện về chất lượng hình ảnh so với mô hình cơ sở (DiT-30B).

VideoJAM-bench: Thử thách về chuyển động

Để đánh giá khả năng của VideoJAM, các nhà nghiên cứu đã tạo ra một bộ dữ liệu thử nghiệm đặc biệt gọi là VideoJAM-bench. Bộ dữ liệu này bao gồm các video có nhiều loại chuyển động phức tạp khác nhau.

Mô hình FVD (thấp hơn tốt hơn) IS (cao hơn tốt hơn)
VideoJAM 150 9.5
Mô hình cơ sở 200 8.0
Mô hình A 250 7.5
Mô hình B 300 7.0

Ứng dụng tiềm năng của VideoJAM

VideoJAM có tiềm năng ứng dụng rộng rãi trong nhiều lĩnh vực, bao gồm:

  • Giải trí: Tạo ra các hiệu ứng đặc biệt, phim hoạt hình, và trò chơi điện tử với chuyển động chân thực hơn.
  • Quảng cáo: Tạo ra các video quảng cáo sản phẩm sống động và hấp dẫn hơn.
  • Giáo dục: Tạo ra các video mô phỏng, hướng dẫn trực quan và dễ hiểu hơn.
  • Nghiên cứu khoa học: Mô phỏng các hiện tượng tự nhiên, các quá trình vật lý, hóa học, sinh học.

Hạn chế và hướng nghiên cứu trong tương lai

Mặc dù VideoJAM đã đạt được những kết quả ấn tượng, vẫn còn một số hạn chế cần được khắc phục:

  • Thời gian tạo video vẫn còn tương đối chậm.
  • Khả năng kiểm soát chuyển động chưa thực sự chính xác.
  • Độ dài video hiện tại chỉ có thể tạo ra các video ngắn.

Hướng nghiên cứu trong tương lai bao gồm:

  • Tăng tốc độ tạo video.
  • Cải thiện khả năng kiểm soát chuyển động.
  • Phát triển khả năng tạo video dài hơn.
  • Kết hợp với âm thanh để tạo ra video hoàn chỉnh.

Kết luận

VideoJAM của Meta là một bước tiến lớn trong lĩnh vực tạo video bằng AI, giúp giải quyết vấn đề chuyển động giật cục và thiếu tự nhiên. Bằng cách sử dụng biểu diễn kết hợp hình ảnh-chuyển động và kỹ thuật Inner-Guidance, VideoJAM có thể tạo ra những video có chuyển động mượt mà, chân thực hơn so với các mô hình trước đây. Mặc dù vẫn còn một số hạn chế, nhưng tiềm năng ứng dụng của VideoJAM trong giải trí, quảng cáo, giáo dục và nghiên cứu khoa học là rất lớn. Trong tương lai, những cải tiến về tốc độ xử lý, độ dài video và khả năng kiểm soát chuyển động sẽ giúp công nghệ này ngày càng hoàn thiện, mở ra nhiều cơ hội sáng tạo mới.

 

 

 

 

VideoJAM: Cải Tiến Chuyển Động Khi Tạo Video Bằng AI

Xin chào các bạn, tôi là Minh Hiếu!

Không ngừng phát triển và tạo ra những đột phá mới, AI đang thay đổi thế giới theo cách chưa từng có. Trong hành trình cập nhật và học hỏi, tôi đã dành thời gian tìm hiểu về VideoJAM AI. Chủ đề này mở ra nhiều góc nhìn thú vị và tiềm năng đột phá. Hãy cùng khám phá trong bài viết này nhé!

1. AI thời nay bá đạo thật, nhưng mà… vẫn chưa đủ!

Chúng ta đang sống trong thời đại mà AI có mặt ở khắp mọi nơi. Lướt Facebook, TikTok, hay bất cứ đâu trên internet, ta dễ dàng thấy những hình ảnh, video do AI tạo ra. Nó “quá thật” đến mức ai nhìn vào cũng biết ngay là do AI làm. Video của AI đẹp hơn thật, nhưng chuyển động vẫn cứng, chưa mượt mà, chưa tuân theo các quy luật vật lý. Nói trắng ra là xem vẫn thấy “giả trân”! Vậy ai sẽ đứng lên cải thiện điều đó? Xin giới thiệu Video JAM – kẻ nổi loạn mới trong làng công nghệ! Video JAM không chỉ giúp bạn tạo nội dung bằng video mà còn mang lại chuyển động mượt mà, chân thực như đời thực. Các anh lớn AI cứ ngồi đó mà nhìn nhé, vì JAM đã sẵn sàng vượt mặt nói với những công nghệ cũ và nói rằng “Cha già rồi đúng không?” – Vậy thì về vườn thôi, để JAM làm chủ cuộc chơi!

Nguồn: https://hila-chefer.github.io/videojam-paper.github.io/

2. Vậy thì Video JAM có gì mà ghê vậy ?

Video JAM được thiết kế để cải thiện sự nhất quán của chuyển động trong video AI bằng cách kết hợp thông tin về ngoại hình (appearance) và chuyển động (motion) ngay từ quá trình huấn luyện.Thay vì chỉ tập trung vào độ chính xác pixel hình ảnh như những công nghệ AI đã làm trước đó, Video JAM kết hợp cả hình ảnh và chuyển động đây là 2 thứ làm nên một video ’thật’. Đội ngũ Video JAM tin rằng tin rằng chuyển động chân thực chính là chìa khóa để khai phá toàn bộ tiềm năng của nội dung do AI tạo ra, và đó là lý do họ cống hiến hết mình để hoàn thiện nó. Đội ngũ các nhà nghiên cứu và kỹ sư chuyên gia đã cùng chung một tầm nhìn: tạo ra video AI không chỉ đẹp mắt mà còn chân thực và cuốn hút.

3. Video JAM hoạt động như thế nào ?

Video JAM hoạt động bằng cách:

(a) Huấn luyện (Training):

    • Với một video đầu vào x1​ và biểu diễn chuyển động tương ứng d1d_1d1​, cả hai tín hiệu này đều được thêm nhiễu và nhúng vào một biểu diễn tiềm ẩn chung thông qua một lớp tuyến tính Win+
    • Mô hình khuếch tán (diffusion model) sau đó xử lý dữ liệu đầu vào, và hai lớp chiếu tuyến tính dự đoán cả hình ảnh lẫn chuyển động từ biểu diễn chung Wout+W_{\text{out}}^+Wout+​.

Ý nghĩa của phần huấn luyện trên là: 

Không chỉ tái tạo nội dung từng khung hình, VideoJAM còn học cách duy trì sự liên kết giữa các khung hình để đảm bảo chuyển động mượt mà hơn.

(b) Suy luận (Inference):

    • Chúng tôi đề xuất Inner-Guidance, một cơ chế trong đó chính dự đoán chuyển động nhiễu của mô hình được sử dụng để hướng dẫn quá trình tạo video tại từng bước.

Ý nghĩa của phần suy luận trên là: 

Inner-Guidance giúp mô hình tự điều chỉnh chuyển động theo từng bước thay vì chỉ dựa vào dữ liệu đầu vào, khắc phục hạn chế của các mô hình trước đó.

Ảnh mô tả ở phía dưới: 

Video JAM hoạt động như thế nào

Nguồn:https://hila-chefer.github.io/videojam-paper.github.io/

4. So sánh Video JAM với các phương pháp cũ & Kết quả thử nghiệm

  • Trước đây:
    • Các phương pháp tạo video trước đây chủ yếu tập trung vào việc tạo từng khung hình riêng lẻ mà không quan tâm đến sự kết nối giữa chúng. Điều này khiến video có thể trông đẹp ở từng frame nhưng lại thiếu đi sự mượt mà khi chuyển động.
  • Bây giờ:
    • VideoJAM khắc phục vấn đề này bằng cách học chuyển động một cách trực tiếp, giúp video trở nên tự nhiên hơn.
  • Kết quả thử nghiệm:
    • Các thử nghiệm đã chứng minh Video JAM mang lại nhiều cải tiến quan trọng:
      🔹 Tăng tính nhất quán của chuyển động: Video ít bị giật, các khung hình có sự liên kết rõ ràng hơn.
      🔹 Cải thiện chất lượng hình ảnh: Đảm bảo hình ảnh sắc nét mà không làm mất đi động lực của video.
      🔹 Hiệu suất vượt trội: Video JAM hoạt động tốt hơn so với các mô hình cũ trong các thử nghiệm với chuyển động phức tạp như chạy, nhảy, xoay, v.v.
  • Video so sánh giữa các mô hình Runway gen 3, Sora, DiT, DiT + Video JAM
    • Runway gen 3:

Nguồn: https://hila-chefer.github.io/videojam-paper.github.io/

    • Sora:

Nguồn: https://hila-chefer.github.io/videojam-paper.github.io/

    • DiT

Nguồn: https://hila-chefer.github.io/videojam-paper.github.io/

    • DiT + Video JAM

Nguồn: https://hila-chefer.github.io/videojam-paper.github.io/

5. Video JAM rất mạnh nhưng vẫn có điểm yếu và thách thức 

Mặc dù Video JAM mang lại nhiều cải tiến, nhưng nó vẫn có một số thách thức:

  • Yêu cầu dữ liệu huấn luyện phong phú: Cần một tập dữ liệu đa dạng về chuyển động để mô hình học hiệu quả.
  • Tính toán phức tạp hơn: Mô hình có thể yêu cầu phần cứng mạnh hơn để xử lý thông tin về cả ngoại hình và chuyển động.

6. Tương lai của Video JAM và ứng dụng thực tế

VideoJAM có thể được ứng dụng rộng rãi trong nhiều lĩnh vực:

  • Sản xuất nội dung số: Tạo video AI chất lượng cao cho phim, quảng cáo, game.
  • Tăng cường công nghệ thực tế ảo (VR) và thực tế tăng cường (AR).
  • Ứng dụng trong giáo dục và đào tạo, giúp tạo ra các video mô phỏng chuyển động phức tạp.

Trong tương lai, việc kết hợp Video JAM với các mô hình AI khác có thể giúp tạo ra những video siêu thực, mở ra nhiều cơ hội mới cho ngành công nghệ.

7. Kết luận

Video JAM là một bước tiến quan trọng trong lĩnh vực tạo video bằng AI, giúp cải thiện tính nhất quán của chuyển động và nâng cao chất lượng video. Mặc dù vẫn còn một số thách thức, nhưng công nghệ này hứa hẹn sẽ đóng vai trò quan trọng trong tương lai của AI và đồ họa máy tính.