• баннер

OpenAI Point E: Бер GPUда берничә минут эчендә катлаулы дулкын формаларыннан 3D нокталы болыт ясагыз

Point-E яңа мәкаләсендә: катлаулы сигналлардан 3D нокталы болытлар тудыру системасы, OpenAI тикшеренү төркеме E ноктасын кертә, 3D пунктлы болыт тексты шартлы синтез системасы, катлаулы текст белән идарә ителгән төрле һәм катлаулы 3D формалар ясау өчен диффузия модельләрен куллана. .әр сүзнең.берничә минут эчендә бер GPUда.
Заманча образ тудыру модельләренең искиткеч чыгышы 3D текст объектлары тудыруда тикшеренүләргә этәргеч бирде.Ләкин, 2D модельләреннән аермалы буларак, минутларда, хәтта секундларда чыгара ала, объектның генератив модельләре, бер үрнәк булдыру өчен, гадәттә берничә сәгать GPU эшләрен таләп итәләр.
Point-E яңа мәкаләсендә: катлаулы сигналлардан 3D нокталы болытлар тудыру системасы, OpenAI тикшеренү төркеме 3D пунктлы болытлар өчен текст шартлы синтез системасы Point · E тәкъдим итә.Бу яңа алым тарату моделен куллана, бер GPUда бер-ике минут эчендә катлаулы текст сигналларыннан төрле һәм катлаулы 3D формалар булдыру өчен.
Коллектив текстны 3D форматына күчерү проблемасына юнәлтелгән, бу виртуаль чынбарлыктан, уеннан сәнәгать дизайнына кадәр реаль дөнья кушымталары өчен 3D эчтәлекне демократияләштерү өчен бик мөһим.Текстны 3D форматына күчерүнең булган ысуллары ике категориягә бүленә, аларның һәрберсенең кимчелекләре бар: 1) генератив модельләр үрнәкләр ясау өчен кулланылырга мөмкин, ләкин төрле һәм катлаулы текст сигналлары өчен эффектив масштаб ясый алмыйлар;2) катлаулы һәм төрле текст текстларын эшкәртү өчен алдан әзерләнгән текст-образ моделе, ләкин бу ысул исәпләү интенсив һәм модель җирле минимага җиңел яисә тыгыз 3D объектларга туры килми.
Шуңа күрә, коллектив югарыда күрсәтелгән ике алымның көчле якларын берләштерүне максат итеп куйган альтернатив алымны өйрәнде, текст-образлы диффузия моделен кулланып, текст-образ парларының зур җыелмасында (аңа төрле һәм катлаулы сигналлар эшләргә мөмкинлек бирә) һәм 3D рәсем диффузия моделе кечерәк текст-образ парларында әзерләнгән.image-3D парлы мәгълүматлар базасы.Тексттан-образ моделе башта синтетик тәкъдим итү өчен кертү рәсемен үрнәк итеп ала, һәм рәсемнән-3D моделе сайланган рәсем нигезендә 3D нокта болытын барлыкка китерә.
Команданың генератив стексы тексттан шартлы рәвештә рәсемнәр ясау өчен күптән түгел тәкъдим ителгән генератив базаларга нигезләнгән (Сохл-Дикштейн һ.б., 2015; & ыр & Эрмон, 2020б; Хо һ.б., 2020).Алар 3 миллиард GLIDE параметрлары булган GLIDE моделен кулланалар, Никол һ.б. үзгәртү моделе.образлар.3D модельләр.
Элеккеге эш 3D архитектурасын нокта болытларын эшкәртүдә кулланган булса, тикшерүчеләр эффективлыкны күтәрү өчен гади трансдуктер нигезендәге модельне кулландылар (Васвани һ.б., 2017).Аларның диффузия модель архитектурасында нокта болыт рәсемнәре алдан әзерләнгән ViT-L / 14 CLIP моделенә бирелә, аннары чыгару мешлары конвертерга маркерлар итеп бирелә.
Эмпирик тикшеренүләрдә коллектив тәкъдим ителгән Point · E ысулын COCO объектын ачыклау, сегментлаштыру һәм имза мәгълүматлар базасыннан сигнал туплау буенча башка генератив 3D модельләр белән чагыштырды.Нәтиҗә шуны раслый: E ноктасы катлаулы текст сигналларыннан төрле һәм катлаулы 3D формалар ясый ала һәм зурлыкны бер-ике заказга тизләтә.Коллектив аларның эше 3D текст синтезы буенча алга таба тикшеренүләр үткәрер дип өметләнә.
Проектның GitHub сайтында болытны тарату моделе һәм бәяләү коды бар.Документы Point-E: Катлаулы мәгълүматлардан 3D нокта болытларын булдыру системасы arXivда.
Без беләбез, сез бернинди яңалыкны да, фәнни ачышны да калдырырга теләмисез.Атналык ЯИ яңартуларын алу өчен безнең популяр Синхрон Глобаль AI Атналык газета бюллетененә язылу.


Пост вакыты: 28-2022 декабрь