近日,智象未來團隊正式推出全新自回歸圖像編輯框架 VAREdit,作為全球首個純自回歸的圖像編輯模型,這也是該領(lǐng)域的又一重大突破。該框架不僅能夠精準(zhǔn)執(zhí)行用戶指令,避免過度修改,還將編輯速度提升至0.7秒級,為實時交互與高效創(chuàng)作開辟新路徑。
長期以來,擴散模型在圖像編輯中雖能生成高質(zhì)量畫面,但存在局部修改牽動整體結(jié)構(gòu)、編輯不夠精準(zhǔn),以及多步迭代效率低等瓶頸。針對這一問題,VAREdit首次將視覺自回歸(VAR)架構(gòu)引入圖像編輯任務(wù)。它將編輯定義為“下一尺度預(yù)測”,逐層生成多尺度殘差特征,實現(xiàn)局部精準(zhǔn)修改與整體結(jié)構(gòu)保持的統(tǒng)一。同時,團隊創(chuàng)新設(shè)計了尺度對齊參考(SAR)模塊,有效解決尺度匹配難題,進一步提升編輯質(zhì)量與效率。
在權(quán)威基準(zhǔn) EMU-Edit 與 PIE-Bench 測試中,VAREdit在CLIP與GPT等指標(biāo)全面領(lǐng)先。其中,VAREdit-8.4B在GPT-Balance指標(biāo)上較ICEdit和UltraEdit分別提升41.5%和30.8%;輕量版VAREdit-2.2B可在0.7秒內(nèi)完成512×512圖像高保真編輯,實現(xiàn)數(shù)倍提速。
目前,VAREdit已在 GitHub 和 Hugging Face 平臺全面開源。智象未來團隊表示,未來將持續(xù)探索視頻編輯、多模態(tài)生成等應(yīng)用場景,推動AI圖像編輯邁入高效、可控、實時的新紀元。
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!