본문으로 건너뛰기
안똔AI· 신영환
메뉴

SANA-WM, 1분 720p 비디오를 위한 26억 파라미터 오픈소스 월드 모델

출처: GeekNews

핵심 요약

NVIDIA의 -WM은 이미지 1장과 6-자유도(6-DoF) 카메라 궤적을 입력받아 단일 GPU에서 720p

설계와 방법

1분 길이의 제어 가능한 비디오를 생성함하이브리드 선형 디퓨전 트랜스포머가 프레임 단위 게이티드 델타넷과 주기적 softmax를 결합해 긴… -WM

성능과 효율성

1분 720p 비디오를 위한 26억 파라미터 오픈소스 월드 모델 (..io)3P by GN⁺ 11일전 | ★ | 댓글 1개 NVIDIA의 -WM은 이미지 1장과 6-자유도(6-DoF) 카메라 궤적을 입력받아 단일 GPU에서 720p

실무적 시사점

1분 길이의 제어 가능한 비디오를 생성함 하이브리드 선형 디퓨전 트랜스포머가 프레임 단위 게이티드 델타넷과 주기적 softmax를 결합해 긴 롤아웃의 일관성을 유지함 학습은 64개 H100에서 15일 걸렸고

원문: https://news.hada.io/topic?id=29572

NVIDIA의 -WM은 이미지 1장과 6-자유도(6-DoF) 카메라 궤적을 입력받아 단일 GPU에서 720p, 1분 길이의 제어 가능한 비디오를 생성함하이브리드 선형 디퓨전 트랜스포머가 프레임 단위 게이티드 델타넷과 주기적 softmax를 결합해 긴… -WM, 1분 720p 비디오를 위한 26억 파라미터 오픈소스 월드 모델 (..io)3P by GN⁺ 11일전 | ★ | 댓글 1개 NVIDIA의 -WM은 이미지 1장과 6-자유도(6-DoF) 카메라 궤적을 입력받아 단일 GPU에서 720p, 1분 길이의 제어 가능한 비디오를 생성함 하이브리드 선형 디퓨전 트랜스포머가 프레임 단위 게이티드 델타넷과 주기적 softmax를 결합해 긴 롤아웃의 일관성을 유지함 학습은 64개 H100에서 15일 걸렸고, 증류 변형은 RTX 5090 1개에서 NVFP4로 60초 720p 클립을 34초에 디노이즈함 공개 영상 약 21.3만 개와 미터 단위 6-자유도(6-DoF) 포즈 감독을 사용해 정밀한 카메라 경로 추종을 지원함 1분 월드 모델 벤치마크에서 기존 오픈소스 기준선보다 액션 추종 정확도가 높고, 비슷한 시각 품질에서 36배 높은 처리량을 달성함 -WM은 26억 파라미터 오픈소스 월드 모델이며, 하나의 이미지와 카메라 궤적을 입력받아 720p, 1분 길이의 제어 가능한 비디오를 생성함 소속 Xie가 참여함 자료가 제공됨 논문 제목은 월드 모델링 하이브리드 선형 디퓨전 트랜스포머임 핵심 설계와 생성 파이프라인 긴 롤아웃을 위한 하이브리드 구조 하이브리드 선형 디퓨전 트랜스포머는 프레임 단위 게이티드 델타넷과 주기적 softmax를 결합해 분 단위 롤아웃에서 세계 일관성을 유지함 효율성 비교에서 변형은 메모리와 지연시간 측면에서 더 작게 확장되지만, all- 방식은 60초 생성에서 OOM이 발생함 정밀한 카메라 제어 -WM은 6-자유도(6-DoF) 카메라 궤적을 입력으로 받아 메트릭 카메라 경로를 따르는 영상을 생성함 거친 전역 포즈 브랜치와 세밀한 픽셀 정렬 기하 브랜치가 함께 작동해 카메라 경로 추종 충실도를 높임 공개 영상에서 미터 단위의 정확한 6-자유도(6-DoF) 카메라 포즈를 추출해 시공간적으로 일관된 고품질 액션 레이블을 만듦 1단계 출력에는 17B 장편 비디오 refiner가 적용되어 시퀀스 전반의 품질과 일관성이 개선됨 refiner는 긴 롤아웃 백본 위에서 텍스처, 움직임, 후반 구간의 품질을 더 선명하게 만듦

Source context

원문 링크와 함께 맥락을 비교해볼 수 있습니다.

이 글은 원문을 그대로 옮기기보다 안똔AI 관점에서 필요한 맥락을 다시 정리합니다.

원문 확인하기

자주 묻는 질문

Q. 핵심 요약

NVIDIA의 SANA-WM은 이미지 1장과 6-DoF 카메라 궤적을 입력받아 단일 GPU에서 720p, 1분 길이의 제어 가능한 비디오를 생성함Hybrid Linear Diffusion Transformer가 프레임 단위 Gated DeltaNet과 주기적 softmax를 결합해 긴… SANA-WM, 1분 720p 비디오를 위한 26억 파라미터 오픈소스

Q. 출처

GeekNews / https://news.hada.io/topic?id=29572

Q. 실무적 시사점

원문이 제시한 기술적 특징과 성능을 고려해 도입 시 우선적으로 검토할 점을 제시합니다.

#AI#GeekNews#sana#720p#뉴스#트렌드#기술

같이 읽을 글

같은 카테고리 안에서 이어서 보기 좋은 글만 추렸습니다.

Next step

글에서 다 다루지 못한 부분은 워크숍이나 프로젝트로 이어서 볼 수 있습니다.

강의, 유튜브 콘텐츠, 직접 만든 웹앱 프로젝트까지 이어서 확인할 수 있습니다.

SANA-WM, 1분 720p 비디오를 위한 26억 파라미터 오픈소스 월드 모델