• דֶגֶל

OpenAI Point E: צור ענן נקודות תלת מימדי מצורות גל מורכבות תוך דקות על GPU יחיד

במאמר חדש Point-E: A system for יצירת ענני נקודות תלת מימדיים מאותות מורכבים, צוות המחקר של OpenAI מציג את Point E, מערכת סינתזה מותנית של ענן נקודות 3D המשתמשת במודלים של דיפוזיה ליצירת צורות תלת מימד מגוונות ומורכבות המונעות על ידי טקסט מורכב. רמזים.תוך דקות על GPU יחיד.
הביצועים המדהימים של דגמי יצירת התמונות החדישים של היום עוררו מחקר ביצירת אובייקטי טקסט תלת מימדיים.עם זאת, בניגוד למודלים דו-ממדיים, שיכולים לייצר פלט תוך דקות או אפילו שניות, מודלים של יצירת אובייקטים דורשים בדרך כלל מספר שעות של עבודת GPU כדי ליצור דגימה אחת.
במאמר חדש Point-E: מערכת להפקת ענני נקודות תלת מימדיים מאותות מורכבים, צוות המחקר של OpenAI מציג את Point·E, מערכת סינתזה מותנית טקסטואלית עבור ענני נקודות תלת מימדיים.גישה חדשה זו משתמשת במודל התפשטות כדי ליצור צורות תלת מימד מגוונות ומורכבות מאותות טקסט מורכבים תוך דקה או שתיים בלבד ב-GPU יחיד.
הצוות מתמקד באתגר של המרת טקסט לתלת-ממד, שהוא קריטי לדמוקרטיזציה של יצירת תוכן בתלת-ממד עבור יישומים בעולם האמיתי, החל ממציאות מדומה ומשחקים ועד לעיצוב תעשייתי.השיטות הקיימות להמרת טקסט לתלת-ממד מתחלקות לשתי קטגוריות, שלכל אחת מהן יש את החסרונות שלה: 1) ניתן להשתמש במודלים מחוללים ליצירת דגימות ביעילות, אך לא ניתן לשנות את קנה המידה ביעילות עבור אותות טקסט מגוונים ומורכבים;2) מודל טקסט-תמונה מאומן מראש לטיפול ברמזים מורכבים ומגוונים של טקסט, אך גישה זו אינטנסיבית מבחינה חישובית והמודל יכול בקלות להיתקע במינימות מקומיות שאינן תואמות לאובייקטים תלת מימדיים משמעותיים או קוהרנטיים.
לכן, הצוות בחן גישה חלופית שמטרתה לשלב את החוזקות של שתי הגישות הנ"ל, תוך שימוש במודל דיפוזיה של טקסט לתמונה שהוכשר על קבוצה גדולה של זוגות טקסט-תמונה (המאפשר לו להתמודד עם אותות מגוונים ומורכבים) ו מודל דיפוזיה של תמונה תלת מימדית מאומן על קבוצה קטנה יותר של זוגות טקסט-תמונה.תמונת נתונים של זוג 3D.מודל הטקסט לתמונה דוגם תחילה את תמונת הקלט כדי ליצור ייצוג סינתטי יחיד, והמודל של תמונה לתלת-ממד יוצר ענן נקודות תלת-ממדי המבוסס על התמונה שנבחרה.
המחסנית הגנרטיבית של הפקודה מבוססת על מסגרות גנרטיביות שהוצעו לאחרונה להפקה מותנית של תמונות מטקסט (Sohl-Dickstein et al., 2015; Song & Ermon, 2020b; Ho et al., 2020).הם משתמשים במודל GLIDE עם 3 מיליארד פרמטרים של GLIDE (Nichol et al., 2021), מכוונים עדין על מודלים תלת-ממדיים מעובדים, כמודל טרנספורמציה של טקסט לתמונה, ובסט של מודלים של דיפוזיה שמייצרים ענני נקודות RGB בתור שלהם. מודל טרנספורמציה.תמונות לתמונה.מודלים תלת מימדיים.
בעוד שעבודות קודמות השתמשו בארכיטקטורות תלת מימד לעיבוד ענני נקודות, החוקרים השתמשו במודל פשוט מבוסס מתמר (Vaswani et al., 2017) כדי לשפר את היעילות.בארכיטקטורת מודל הדיפוזיה שלהם, תמונות ענן נקודות מוזנות תחילה לדגם ViT-L/14 CLIP מאומן מראש ולאחר מכן רשתות הפלט מוזנות לתוך הממיר כסמנים.
במחקר האמפירי שלהם, הצוות השווה את שיטת Point·E המוצעת עם מודלים תלת-ממדיים מחוללים אחרים על ניקוד אותות מזיהוי אובייקטים של COCO, פילוח וערכי נתונים של חתימות.התוצאות מאשרות ש-Point·E מסוגלת ליצור צורות תלת-ממד מגוונות ומורכבות מאותות טקסט מורכבים ולהאיץ את זמן ההסקה בסדרי גודל אחד עד שניים.הצוות מקווה שעבודתם תהווה השראה למחקר נוסף על סינתזת טקסט תלת מימד.
מודל התפשטות ענן נקודות מיומן מראש וקוד הערכה זמינים ב-GitHub של הפרויקט.Document Point-E: מערכת ליצירת ענני נקודות תלת מימדיים מרמזים מורכבים נמצאת ב-arXiv.
אנחנו יודעים שאתה לא רוצה לפספס שום חדשות או תגלית מדעית.הירשם לניוזלטר הפופולרי שלנו Synced Global AI Weekly כדי לקבל עדכוני AI שבועיים.


זמן פרסום: 28 בדצמבר 2022