近日,字節(jié)跳動(dòng)Seed團(tuán)隊(duì)正式對(duì)外發(fā)布了其最新的研發(fā)成果——3D生成大模型Seed3D 1.0。據(jù)團(tuán)隊(duì)介紹,Seed3D 1.0具備一項(xiàng)核心能力:僅需一張任意視角的二維圖像,即可生成一個(gè)包含精細(xì)幾何結(jié)構(gòu)、高保真紋理貼圖以及基于物理渲染(PBR)材質(zhì)的高質(zhì)量3D模型。
為了實(shí)現(xiàn)高保真、仿真級(jí)的生成效果,Seed團(tuán)隊(duì)在數(shù)據(jù)和模型兩個(gè)層面均進(jìn)行了深度優(yōu)化。
首先,在數(shù)據(jù)層面,高質(zhì)量的訓(xùn)練數(shù)據(jù)是生成模型性能的基石。Seed團(tuán)隊(duì)透露,他們構(gòu)建了一條完整的三階段數(shù)據(jù)處理管線,專門用于收集和處理大規(guī)模的高質(zhì)量3D數(shù)據(jù)。這條管線能夠?qū)?lái)源龐雜、結(jié)構(gòu)各異的原始3D數(shù)據(jù),清洗、標(biāo)注并轉(zhuǎn)化為高度標(biāo)準(zhǔn)化的優(yōu)質(zhì)訓(xùn)練集,為模型提供了充足的養(yǎng)料。
其次,在模型架構(gòu)層面,Seed3D 1.0采用了當(dāng)前在AI生成領(lǐng)域大放異彩的Diffusion Transformer(DiT)架構(gòu)。通過端到端的技術(shù)路線,模型得以直接學(xué)習(xí)從圖像到3D模型的復(fù)雜映射關(guān)系。
在關(guān)鍵技術(shù)點(diǎn)上,Seed3D 1.0展現(xiàn)了其精細(xì)的設(shè)計(jì):
幾何生成:模型在構(gòu)建物體結(jié)構(gòu)細(xì)節(jié)和保證物理完整性方面表現(xiàn)出色。
紋理生成:通過創(chuàng)新的多模態(tài)Diffusion Transformer架構(gòu),確保了模型在生成紋理貼圖時(shí),不同視角之間具有高度的一致性和保真度。
PBR材質(zhì)生成:團(tuán)隊(duì)采用了先進(jìn)的材質(zhì)估計(jì)方法框架,顯著提升了模型對(duì)物體表面物理材質(zhì)(如金屬光澤、木質(zhì)粗糙度等)估計(jì)的準(zhǔn)確性。
在多項(xiàng)對(duì)比評(píng)估中,Seed3D 1.0展示了其領(lǐng)先的性能。據(jù)稱,參數(shù)量為1.5B的Seed3D 1.0,在幾何生成質(zhì)量上已經(jīng)超過了業(yè)界已有的3B參數(shù)模型,能夠更精準(zhǔn)地還原物體的復(fù)雜特征。
在紋理和材質(zhì)方面,特別是在處理精細(xì)文本和人物生成等公認(rèn)的難題上,Seed3D 1.0的優(yōu)勢(shì)尤為明顯。人工評(píng)測(cè)結(jié)果也顯示,該模型在幾何質(zhì)量、材質(zhì)紋理、視覺清晰度及細(xì)節(jié)豐富度等多個(gè)維度均獲得了高度評(píng)價(jià)。
更具應(yīng)用價(jià)值的是,Seed3D 1.0不僅能生成單一物體,還能通過分步生成策略,構(gòu)建出完整的3D場(chǎng)景。這些生成的3D模型資產(chǎn)可以被無(wú)縫導(dǎo)入到如NVIDIA Isaac Sim等主流仿真引擎中,僅需極少的適配工作,即可直接用于具身智能大模型的訓(xùn)練。這使得機(jī)器人在多樣化的操作場(chǎng)景中進(jìn)行交互式學(xué)習(xí)成為可能,也為視覺-語(yǔ)言-行動(dòng)(VLA)模型的綜合評(píng)估構(gòu)建了堅(jiān)實(shí)的基礎(chǔ)。
盡管Seed3D 1.0取得了令人矚目的成績(jī),但Seed團(tuán)隊(duì)也清醒地認(rèn)識(shí)到,基于3D生成大模型搭建終極的世界模型,依然任重道遠(yuǎn)。
團(tuán)隊(duì)指出,未來(lái)仍需在提升生成精度、增強(qiáng)模型泛化性等方面持續(xù)攻堅(jiān)。下一步,他們計(jì)劃嘗試引入多模態(tài)大語(yǔ)言模型(MLLM)的能力,利用其強(qiáng)大的理解和推理能力,進(jìn)一步提升3D生成的質(zhì)量和魯棒性,最終推動(dòng)3D生成模型在世界模擬器中的規(guī)模化應(yīng)用。

全部評(píng)論 (0)