स्थिर प्रसार 3 आ गया है—और एआई इमेज जेनरेटर ने मिडजर्नी, डैल-ई 3 और गूगल इमेजएफएक्स को उड़ा दिया है

स्टेबिलिटी एआई ने अभी अपने अगली पीढ़ी के इमेज टूल, स्टेबल डिफ्यूजन 3 (एसडी3) के शुरुआती पूर्वावलोकन की घोषणा की है, इसे आज तक का "सबसे सक्षम टेक्स्ट-टू-इमेज मॉडल" कहा है। यह घोषणा कंपनी द्वारा पिछले साल जारी किए गए स्टेबल डिफ्यूजन एक्सएल (एसडीएक्सएल) की ठोस अनुवर्ती है, जिसने जल्द ही खुद को सबसे उन्नत ओपन-सोर्स इमेज जनरेटर के रूप में स्थापित कर लिया।

SD3 के साथ दिए गए हेडलाइन सुधारों में बेहतर टेक्स्ट जेनरेशन, मजबूत त्वरित पालन और त्वरित लीक का प्रतिरोध शामिल है - बाद की ताकत यह सुनिश्चित करती है कि उत्पन्न छवियां अनुरोधित छवियों से मेल खाती हैं। स्थिरता एआई ने मल्टीमॉडल इनपुट के एसडी3 समर्थन पर भी प्रकाश डाला है - इसे भविष्य की तकनीकी रिपोर्ट के माध्यम से प्रदर्शित करने का वादा किया गया है।

एआई समुदाय ने एसडी3 समाचार पर उत्साह के साथ प्रतिक्रिया दी है।

एक प्रमुख एआई-केंद्रित यूट्यूबर मैटविडप्रो ने कहा, "त्वरित समझ और टेक्स्ट जेनरेशन के मामले में यह एआई छवि जनरेटर अब तक का सबसे अच्छा है।" "यह बाकियों से बहुत ऊपर है, और यह वास्तव में मन को झकझोर देने वाला है।"

इसी तरह, मशीन लर्निंग इंजीनियर राल्फ ब्रूक्स ने कहा कि मॉडल की टेक्स्ट जेनरेशन क्षमताएं "अद्भुत" थीं।

अगल-बगल तसलीम

हालाँकि स्टेबल डिफ्यूजन 3 अभी केवल चुनिंदा भागीदारों के लिए उपलब्ध है, स्टेबिलिटी एआई और एआई उत्साही इसके आउटपुट और एसडीएक्सएल, मिडजर्नी और डैल-ई 3 के समान संकेतों के परिणाम के बीच तुलना साझा कर रहे हैं। सभी दिखावे के लिए, एसडी3 अपने प्रतिस्पर्धियों से बेहतर प्रदर्शन करता है। समग्र गुणवत्ता, और डिक्रिप्ट इसे सत्यापित करने के लिए अपने स्वयं के कुछ परीक्षण चलाए। परिणाम खुद अपनी कहानी कहते हैं:

SD3 बनाम मिडजर्नी

प्रॉम्प्ट: "रात में एक पहाड़ के ऊपर एक जादूगर की महाकाव्य एनीमे कलाकृति अंधेरे आकाश में एक लौकिक जादू डालती है जो कहती है कि 'स्टेबल डिफ्यूजन 3' रंगीन ऊर्जा से बना है।"

स्टेबल डिफ्यूजन 3 (बाएं) बनाम मिडजर्नी (दाएं) उसी प्रॉम्प्ट का उपयोग करते हुए। छवि: डिक्रिप्ट

हमारी पहली तुलना में, SD3 ने संकेत का बहुत बारीकी से पालन किया। मिडजर्नी त्वरित पीढ़ी में विफल रही, पहाड़ उत्पन्न नहीं हुआ, और जादूगर कोई लौकिक जादू नहीं कर रहा था।

SD3 बनाम ImageFX

संकेत: “कार्य डेस्क पर 90 के दशक के डेस्कटॉप कंप्यूटर की तस्वीर। कंप्यूटर स्क्रीन पर 'स्वागत है' लिखा है। पृष्ठभूमि में दीवार पर हम सुंदर भित्तिचित्र देखते हैं, जिस पर दीवार पर बहुत बड़ा पाठ 'एसडी3' लिखा हुआ है।'

स्टेबल डिफ्यूजन 3 (बाएं) बनाम इमेजएफएक्स (दाएं) उसी प्रॉम्प्ट का उपयोग करते हुए। छवि: डिक्रिप्ट

हमारी दूसरी तुलना में, SD3 ने उल्लेखनीय पालन के साथ संकेत का पालन किया, जबकि Google के शीर्ष AI छवि जनरेटर, ImageFX, शीघ्र लीक होने से पीड़ित था, कंप्यूटर स्क्रीन पर पाठ SD3 उत्पन्न कर रहा था और पृष्ठभूमि में नहीं, भित्तिचित्र शैली अनुरोध पर ध्यान देने में विफल रहा, और "स्वागत" शब्द को चित्रित करने में असफल होना।

SD3 द्वारा उत्पन्न सौंदर्यशास्त्र भी एक तस्वीर की तरह अधिक है और एक स्पष्ट "फोटोरियलिस्टिक" रेंडर की तरह कम है। पेंसिल होल्डर और अन्य वस्तुओं के आसपास के प्रभावों पर ध्यान दें, जो पृष्ठभूमि के साथ मिश्रित होते प्रतीत होते हैं।

SD3 बनाम SDXL

संकेत: “रसोई की मेज पर एक कढ़ाई वाला कपड़ा है जिस पर 'शुभ रात्रि' लिखा है और एक कढ़ाई वाला बच्चा बाघ है। कपड़े के बगल में एक जलती हुई मोमबत्ती है। प्रकाश मंद और नाटकीय है।

स्थिर प्रसार 3 (बाएं) बनाम एसडीएक्सएल (दाएं) उसी संकेत का उपयोग करते हुए। छवि: डिक्रिप्ट

हमारी तीसरी तुलना में, स्टेबल डिफ्यूजन 3 और स्टेबल डिफ्यूजन एक्सएल दोनों ने प्रॉम्प्ट के सार को पकड़ लिया, लेकिन एसडीएक्सएल टेक्स्ट उत्पन्न करने में विफल रहा, शीघ्र लीक होने (दो कपड़े उत्पन्न करना, जिनमें से एक को किसी और चीज़ में बदल दिया गया), और कढ़ाई वाले बच्चे का सामना करना पड़ा। SD3 द्वारा बाघ को बेहतर ढंग से उत्पन्न किया गया।

SD3 बनाम Dall-e 3

संकेत: "एक अंतरिक्ष यात्री की एक पेंटिंग जिसमें गुलाबी छाता लिए टूटू पहने सुअर की सवारी की गई है, सुअर के बगल में जमीन पर टोपी पहने एक रॉबिन पक्षी है, कोने में 'स्थिर प्रसार' शब्द हैं।"

स्टेबल डिफ्यूजन 3 (बाएं) बनाम डैल-ई 3 (दाएं) उसी प्रॉम्प्ट का उपयोग करते हुए। छवि: डिक्रिप्ट

स्टेबल डिफ्यूजन 3 ने वह उत्पन्न किया जो प्रॉम्प्ट में अनुरोध किया गया था, जबकि डैल-ई 3 टेक्स्ट उत्पन्न करने में विफल रहा, एक पेंटिंग के बजाय एक 3 डी रेंडर बनाया, और एक आकाशगंगा पृष्ठभूमि उत्पन्न की, क्योंकि इसे एक अंतरिक्ष यात्री उत्पन्न करने के लिए प्रेरित किया गया था।

हुड के नीचे

सिद्धांत रूप में, स्टेबल डिफ्यूजन 3 में शक्ति और कौशल के अपने दावों का समर्थन करने के लिए पर्याप्त कंप्यूटिंग शक्ति होनी चाहिए।

स्टेबिलिटी एआई के सीईओ इमाद मोस्ताक ने ट्विटर पर कहा, "(एसडी3) प्रवाह मिलान और अन्य सुधारों के साथ मिलकर एक नए प्रकार के प्रसार ट्रांसफार्मर (सोरा के समान) का उपयोग करता है।" सोरा कुछ दिनों पहले OpenAI द्वारा घोषित वीडियो जेनरेटर में शीर्ष पर मौजूद टेक्स्ट में से एक है। इस बीच, फ्लो मैचिंग, जेनेरिक एडवरसैरियल नेटवर्क (जीएएन) जैसे वैकल्पिक तरीकों की तुलना में तेज़ और अधिक स्थिर प्रशिक्षण और अनुमान के आधार पर जेनेरिक मॉडलिंग के लिए एक एआई तकनीक है।

कुछ नोट्स:
- यह प्रवाह मिलान और अन्य सुधारों के साथ संयुक्त एक नए प्रकार के प्रसार ट्रांसफार्मर (सोरा के समान) का उपयोग करता है।
- यह ट्रांसफार्मर सुधारों का लाभ उठाता है और न केवल आगे बढ़ सकता है बल्कि मल्टीमॉडल इनपुट भी स्वीकार कर सकता है।
- अधिक तकनीकी विवरण जल्द ही
- इमाद (@EMostaque) फ़रवरी 22, 2024

स्टेबिलिटी एआई का दावा है कि ये सुधार मॉडल की स्केलेबिलिटी और मल्टीमॉडल इनपुट स्वीकार करने की क्षमता को बढ़ावा देते हैं, और वीडियो, 3डी और अन्य में इसके अनुप्रयोग का मार्ग भी प्रशस्त करते हैं। मोस्ताक ट्वीट किए SD3 के लिए उनके दृष्टिकोण में नवीनतम हार्डवेयर प्रगति का लाभ उठाने के लिए डिज़ाइन किए गए उपकरणों का एक व्यापक पारिस्थितिकी तंत्र शामिल है, साथ ही विभिन्न रचनात्मक डोमेन में सुलभ और अनुकूलनीय बने रहना भी शामिल है।

SD3 घोषणा से एक सप्ताह पहले, स्टेबिलिटी AI ने स्टेबल कैस्केड जारी किया। अपने पूर्ववर्तियों के विपरीत, स्टेबल कैस्केड वुर्स्टचेन वास्तुकला पर आधारित है, जो अपनी मॉड्यूलरिटी और रिकॉर्ड संपीड़न उपलब्धियों के लिए जाना जाता है। स्टेबल डिफ्यूजन एक्सएल की तुलना में अधिक मापदंडों की मेजबानी करने के बावजूद, स्टेबल कैस्केड तेजी से अनुमान लगाने के समय और बेहतर त्वरित संरेखण का दावा करता है, जो एआई विकास में स्टेबिलिटी एआई द्वारा की जा रही नवीन प्रगति को प्रदर्शित करता है।

हालांकि स्टेबल डिफ्यूजन 3 अभी तक सार्वजनिक रूप से उपलब्ध नहीं है, स्टेबिलिटी एआई ने इस बात पर जोर दिया कि यह मुफ़्त, खुला स्रोत होगा और गैर-व्यावसायिक लाइसेंस के तहत सभी के लिए उपलब्ध होगा। हालाँकि, उत्साही लोग स्टेबिलिटी एआई के सदस्यता कार्यक्रम के हिस्से के रूप में पूर्वावलोकन पहुंच के लिए आवेदन कर सकते हैं।

रयान ओज़ावा द्वारा संपादित।

क्रिप्टो समाचारों के शीर्ष पर रहें, अपने इनबॉक्स में दैनिक अपडेट प्राप्त करें।

स्रोत: https://decrypt.co/218577/stable-dif Fusion-3-review-comparison-midjourney-dall-e-imagefx