腾讯混元开源可漫游360度的三维世界场景生成模型Hunyuan3D-World
Hunyuan3D-World是业界首个面向“文本/图像→可漫游 3D 世界”的开源大模型。
该模型支持 文本(文生世界) 与 图像(图生世界) 双模态输入,在单张 RTX 4090 上 30 秒即可生成 可实时交互的 3D 场景,并直接输出 glTF/FBX/OBJ 标准格式,与 Unity、Unreal、Blender 无缝衔接。
技术架构深度解读
Hunyuan3D-World 采用 三阶段级联生成管线:
语义-几何双编码器
以 30 亿参数的 Diffusion Transformer 为核心,将文本或图像 token 映射到 512? 的稀疏体素潜空间,实现语义-几何耦合编码。分层 3D 重建网络
引入 深度自适应八叉树(Depth...点击查看剩余70%
网友评论