Xin chào các bạn, tôi là Minh Hiếu!
Không ngừng phát triển và tạo ra những đột phá mới, AI đang thay đổi thế giới theo cách chưa từng có. Trong hành trình cập nhật và học hỏi, tôi đã dành thời gian tìm hiểu về VideoJAM AI. Chủ đề này mở ra nhiều góc nhìn thú vị và tiềm năng đột phá. Hãy cùng khám phá trong bài viết này nhé!
1. AI thời nay bá đạo thật, nhưng mà… vẫn chưa đủ!
Chúng ta đang sống trong thời đại mà AI có mặt ở khắp mọi nơi. Lướt Facebook, TikTok, hay bất cứ đâu trên internet, ta dễ dàng thấy những hình ảnh, video do AI tạo ra. Nó “quá thật” đến mức ai nhìn vào cũng biết ngay là do AI làm. Video của AI đẹp hơn thật, nhưng chuyển động vẫn cứng, chưa mượt mà, chưa tuân theo các quy luật vật lý. Nói trắng ra là xem vẫn thấy “giả trân”! Vậy ai sẽ đứng lên cải thiện điều đó? Xin giới thiệu Video JAM – kẻ nổi loạn mới trong làng công nghệ! Video JAM không chỉ giúp bạn tạo nội dung bằng video mà còn mang lại chuyển động mượt mà, chân thực như đời thực. Các anh lớn AI cứ ngồi đó mà nhìn nhé, vì JAM đã sẵn sàng vượt mặt nói với những công nghệ cũ và nói rằng “Cha già rồi đúng không?” – Vậy thì về vườn thôi, để JAM làm chủ cuộc chơi!
Nguồn: https://hila-chefer.github.io/videojam-paper.github.io/
2. Vậy thì Video JAM có gì mà ghê vậy ?
Video JAM được thiết kế để cải thiện sự nhất quán của chuyển động trong video AI bằng cách kết hợp thông tin về ngoại hình (appearance) và chuyển động (motion) ngay từ quá trình huấn luyện.Thay vì chỉ tập trung vào độ chính xác pixel hình ảnh như những công nghệ AI đã làm trước đó, Video JAM kết hợp cả hình ảnh và chuyển động đây là 2 thứ làm nên một video ’thật’. Đội ngũ Video JAM tin rằng tin rằng chuyển động chân thực chính là chìa khóa để khai phá toàn bộ tiềm năng của nội dung do AI tạo ra, và đó là lý do họ cống hiến hết mình để hoàn thiện nó. Đội ngũ các nhà nghiên cứu và kỹ sư chuyên gia đã cùng chung một tầm nhìn: tạo ra video AI không chỉ đẹp mắt mà còn chân thực và cuốn hút.
3. Video JAM hoạt động như thế nào ?
Video JAM hoạt động bằng cách:
(a) Huấn luyện (Training):
-
- Với một video đầu vào x1 và biểu diễn chuyển động tương ứng d1d_1d1, cả hai tín hiệu này đều được thêm nhiễu và nhúng vào một biểu diễn tiềm ẩn chung thông qua một lớp tuyến tính Win+
- Mô hình khuếch tán (diffusion model) sau đó xử lý dữ liệu đầu vào, và hai lớp chiếu tuyến tính dự đoán cả hình ảnh lẫn chuyển động từ biểu diễn chung Wout+W_{\text{out}}^+Wout+.
Ý nghĩa của phần huấn luyện trên là:
Không chỉ tái tạo nội dung từng khung hình, VideoJAM còn học cách duy trì sự liên kết giữa các khung hình để đảm bảo chuyển động mượt mà hơn.
(b) Suy luận (Inference):
-
- Chúng tôi đề xuất Inner-Guidance, một cơ chế trong đó chính dự đoán chuyển động nhiễu của mô hình được sử dụng để hướng dẫn quá trình tạo video tại từng bước.
Ý nghĩa của phần suy luận trên là:
Inner-Guidance giúp mô hình tự điều chỉnh chuyển động theo từng bước thay vì chỉ dựa vào dữ liệu đầu vào, khắc phục hạn chế của các mô hình trước đó.
Ảnh mô tả ở phía dưới:
Nguồn:https://hila-chefer.github.io/videojam-paper.github.io/
4. So sánh Video JAM với các phương pháp cũ & Kết quả thử nghiệm
- Trước đây:
- Các phương pháp tạo video trước đây chủ yếu tập trung vào việc tạo từng khung hình riêng lẻ mà không quan tâm đến sự kết nối giữa chúng. Điều này khiến video có thể trông đẹp ở từng frame nhưng lại thiếu đi sự mượt mà khi chuyển động.
- Bây giờ:
- VideoJAM khắc phục vấn đề này bằng cách học chuyển động một cách trực tiếp, giúp video trở nên tự nhiên hơn.
- Kết quả thử nghiệm:
- Các thử nghiệm đã chứng minh Video JAM mang lại nhiều cải tiến quan trọng:
🔹 Tăng tính nhất quán của chuyển động: Video ít bị giật, các khung hình có sự liên kết rõ ràng hơn.
🔹 Cải thiện chất lượng hình ảnh: Đảm bảo hình ảnh sắc nét mà không làm mất đi động lực của video.
🔹 Hiệu suất vượt trội: Video JAM hoạt động tốt hơn so với các mô hình cũ trong các thử nghiệm với chuyển động phức tạp như chạy, nhảy, xoay, v.v.
- Các thử nghiệm đã chứng minh Video JAM mang lại nhiều cải tiến quan trọng:
- Video so sánh giữa các mô hình Runway gen 3, Sora, DiT, DiT + Video JAM
- Runway gen 3:
Nguồn: https://hila-chefer.github.io/videojam-paper.github.io/
-
- Sora:
Nguồn: https://hila-chefer.github.io/videojam-paper.github.io/
-
- DiT
Nguồn: https://hila-chefer.github.io/videojam-paper.github.io/
-
- DiT + Video JAM
Nguồn: https://hila-chefer.github.io/videojam-paper.github.io/
5. Video JAM rất mạnh nhưng vẫn có điểm yếu và thách thức
Mặc dù Video JAM mang lại nhiều cải tiến, nhưng nó vẫn có một số thách thức:
- Yêu cầu dữ liệu huấn luyện phong phú: Cần một tập dữ liệu đa dạng về chuyển động để mô hình học hiệu quả.
- Tính toán phức tạp hơn: Mô hình có thể yêu cầu phần cứng mạnh hơn để xử lý thông tin về cả ngoại hình và chuyển động.
6. Tương lai của Video JAM và ứng dụng thực tế
VideoJAM có thể được ứng dụng rộng rãi trong nhiều lĩnh vực:
- Sản xuất nội dung số: Tạo video AI chất lượng cao cho phim, quảng cáo, game.
- Tăng cường công nghệ thực tế ảo (VR) và thực tế tăng cường (AR).
- Ứng dụng trong giáo dục và đào tạo, giúp tạo ra các video mô phỏng chuyển động phức tạp.
Trong tương lai, việc kết hợp Video JAM với các mô hình AI khác có thể giúp tạo ra những video siêu thực, mở ra nhiều cơ hội mới cho ngành công nghệ.
7. Kết luận
Video JAM là một bước tiến quan trọng trong lĩnh vực tạo video bằng AI, giúp cải thiện tính nhất quán của chuyển động và nâng cao chất lượng video. Mặc dù vẫn còn một số thách thức, nhưng công nghệ này hứa hẹn sẽ đóng vai trò quan trọng trong tương lai của AI và đồ họa máy tính.