• بینر

د OpenAI پوائنټ E: په یو واحد GPU کې دقیقو کې د پیچلي څپې څخه د 3D پوائنټ کلاوډ رامینځته کړئ

په یوه نوې مقاله کې Point-E: د پیچلي سیګنالونو څخه د 3D پوائنټ بادلونو رامینځته کولو لپاره سیسټم ، د OpenAI څیړنې ټیم پوائنټ E معرفي کوي ، د 3D پوائنټ کلاوډ متن مشروط ترکیب سیسټم چې د متنوع او پیچلي 3D شکلونو رامینځته کولو لپاره د تحلیل ماډلونه کاروي چې د پیچلي متن لخوا پرمخ وړل کیږي. اشارېپه یو واحد GPU کې دقیقو کې.
د نن ورځې د عصري عکس تولید ماډلونو حیرانونکي فعالیت د 3D متن توکو نسل کې څیړنې هڅولې.په هرصورت ، د 2D ماډلونو برخلاف ، کوم چې کولی شي په دقیقو یا حتی ثانیو کې محصول تولید کړي ، د اعتراض تولیدي ماډلونه معمولا د یو واحد نمونې رامینځته کولو لپاره څو ساعتونو GPU کار ته اړتیا لري.
په یوه نوې مقاله کې Point-E: د پیچلو سیګنالونو څخه د 3D پوائنټ بادلونو رامینځته کولو سیسټم کې ، د OpenAI څیړنیز ټیم Point·E وړاندې کوي ، د 3D پوائنټ بادلونو لپاره د متن شرطي ترکیب سیسټم.دا نوې طریقه د تکثیر ماډل کاروي ترڅو په یو واحد GPU کې یوازې په یوه یا دوه دقیقو کې د پیچلي متن سیګنالونو څخه متنوع او پیچلي 3D شکلونه رامینځته کړي.
ټیم په 3D کې د متن بدلولو ننګونې باندې تمرکز کوي، کوم چې د ریښتینې نړۍ غوښتنلیکونو لپاره د مجازی واقعیت او لوبو څخه تر صنعتي ډیزاین پورې د 3D مینځپانګې رامینځته کولو ډیموکراتیک کولو لپاره خورا مهم دی.په 3D کې د متن بدلولو لپاره موجوده میتودونه په دوه کټګوریو کې راځي، چې هر یو یې خپل نیمګړتیاوې لري: 1) تولیدي ماډلونه په اغیزمنه توګه د نمونو تولید لپاره کارول کیدی شي، مګر د متنوع او پیچلي متن سیګنالونو لپاره په اغیزمنه توګه اندازه نشي کولی؛2) د پیچلو او متنوع متن اشارو اداره کولو لپاره دمخه روزل شوي متن - عکس ماډل ، مګر دا طریقه په کمپیوټري توګه ژوره ده او ماډل کولی شي په اسانۍ سره په محلي مینیما کې ودریږي چې د معنی یا همغږي 3D شیانو سره مطابقت نلري.
له همدې امله، ټیم یو بدیل طریقه وپلټله چې موخه یې د پورتنیو دوو طریقو پیاوړتیاوې سره یوځای کول دي، د متن څخه انځور ته د خپریدو ماډل په کارولو سره چې د متن - انځور جوړو لوی سیټ کې روزل شوي (دا اجازه ورکوي چې متنوع او پیچلي سیګنالونه اداره کړي) او د 3D عکس خپریدو ماډل د متن - عکس جوړه کوچنۍ سیټ باندې روزل شوی.د عکس 3D جوړه ډیټاسیټ.د متن څخه عکس ماډل لومړی د ان پټ عکس نمونه کوي ترڅو یو واحد مصنوعي نمایش رامینځته کړي ، او د عکس څخه تر 3D ماډل د ټاکل شوي عکس پراساس د 3D پوائنټ کلاوډ رامینځته کوي.
د قوماندې تولیدي سټیک د متن څخه په مشروط ډول د عکسونو رامینځته کولو لپاره پدې وروستیو کې وړاندیز شوي تولیدي چوکاټونو پراساس دی (Sohl-Dickstein et al., 2015; Song & Ermon, 2020b; Ho et al., 2020).دوی د GLIDE ماډل د 3 ملیارد ګلایډ پیرامیټرو سره کاروي (Nichol et al., 2021) ، په چمتو شوي 3D موډلونو کې د دوی د متن څخه عکس بدلولو ماډل په توګه ، او د خپریدو ماډلونو سیټ چې د دوی په توګه د RGB پوائنټ بادل تولیدوي. د بدلون موډل.انځور ته انځور.3D ماډلونه
پداسې حال کې چې مخکیني کار د پوائنټ بادلونو پروسس کولو لپاره 3D معمارۍ کارولې ، څیړونکو د موثریت ښه کولو لپاره یو ساده ټرانسډوسر پراساس ماډل (واسواني ایټ ال.، 2017) کارولی.د دوی د ډیفیوژن ماډل جوړښت کې ، د پوائنټ کلاوډ عکسونه لومړی د مخکې روزل شوي ViT-L/14 CLIP ماډل ته تغذیه کیږي او بیا د محصول میشونه د مارکر په توګه کنورټر ته تغذیه کیږي.
د دوی په تجربوي مطالعې کې، ټیم وړاندیز شوی Point·E میتود د نورو تولیدي 3D ماډلونو سره پرتله کړ چې د COCO څیز کشف، قطع کولو، او لاسلیک ډیټاسیټونو څخه د سیګنالونو سکور کولو په اړه.پایلې تاییدوي چې Point·E د دې وړتیا لري چې د پیچلي متن سیګنالونو څخه متنوع او پیچلي 3D شکلونه رامینځته کړي او د اندازې وخت له یو څخه تر دوه امرونو پورې ګړندی کړي.ټیم هیله لري چې د دوی کار به د 3D متن ترکیب کې نورې څیړنې هڅوي.
د پروژی په ګیټ هب کې د مخکینۍ روزنې پوائنټ کلاوډ تبلیغ ماډل او د ارزونې کوډ شتون لري.د سند پوائنټ-E: د پیچلو نښو څخه د 3D پوائنټ بادلونو رامینځته کولو سیسټم په arXiv کې دی.
موږ پوهیږو چې تاسو نه غواړئ کوم خبر یا ساینسي کشف له لاسه ورکړئ.د اونیزې AI تازه معلوماتو ترلاسه کولو لپاره زموږ مشهور همغږي شوي ګلوبل AI اونیزې خبرپاڼې کې ګډون وکړئ.


د پوسټ وخت: دسمبر-28-2022