स्टेबिलिटी एआई ने अभी अपने अगली पीढ़ी के इमेज टूल, स्टेबल डिफ्यूजन 3 (एसडी3) के शुरुआती पूर्वावलोकन की घोषणा की है, इसे आज तक का "सबसे सक्षम टेक्स्ट-टू-इमेज मॉडल" कहा है। यह घोषणा कंपनी द्वारा पिछले साल जारी किए गए स्टेबल डिफ्यूजन एक्सएल (एसडीएक्सएल) की ठोस अनुवर्ती है, जिसने जल्द ही खुद को सबसे उन्नत ओपन-सोर्स इमेज जनरेटर के रूप में स्थापित कर लिया।
SD3 के साथ दिए गए हेडलाइन सुधारों में बेहतर टेक्स्ट जेनरेशन, मजबूत त्वरित पालन और त्वरित लीक का प्रतिरोध शामिल है - बाद की ताकत यह सुनिश्चित करती है कि उत्पन्न छवियां अनुरोधित छवियों से मेल खाती हैं। स्थिरता एआई ने मल्टीमॉडल इनपुट के एसडी3 समर्थन पर भी प्रकाश डाला है - इसे भविष्य की तकनीकी रिपोर्ट के माध्यम से प्रदर्शित करने का वादा किया गया है।
एआई समुदाय ने एसडी3 समाचार पर उत्साह के साथ प्रतिक्रिया दी है।
एक प्रमुख एआई-केंद्रित यूट्यूबर मैटविडप्रो ने कहा, "त्वरित समझ और टेक्स्ट जेनरेशन के मामले में यह एआई छवि जनरेटर अब तक का सबसे अच्छा है।" "यह बाकियों से बहुत ऊपर है, और यह वास्तव में मन को झकझोर देने वाला है।"
इसी तरह, मशीन लर्निंग इंजीनियर राल्फ ब्रूक्स ने कहा कि मॉडल की टेक्स्ट जेनरेशन क्षमताएं "अद्भुत" थीं।
अगल-बगल तसलीम
हालाँकि स्टेबल डिफ्यूजन 3 अभी केवल चुनिंदा भागीदारों के लिए उपलब्ध है, स्टेबिलिटी एआई और एआई उत्साही इसके आउटपुट और एसडीएक्सएल, मिडजर्नी और डैल-ई 3 के समान संकेतों के परिणाम के बीच तुलना साझा कर रहे हैं। सभी दिखावे के लिए, एसडी3 अपने प्रतिस्पर्धियों से बेहतर प्रदर्शन करता है। समग्र गुणवत्ता, और डिक्रिप्ट इसे सत्यापित करने के लिए अपने स्वयं के कुछ परीक्षण चलाए। परिणाम खुद अपनी कहानी कहते हैं:
SD3 बनाम मिडजर्नी
प्रॉम्प्ट: "रात में एक पहाड़ के ऊपर एक जादूगर की महाकाव्य एनीमे कलाकृति अंधेरे आकाश में एक लौकिक जादू डालती है जो कहती है कि 'स्टेबल डिफ्यूजन 3' रंगीन ऊर्जा से बना है।"
हमारी पहली तुलना में, SD3 ने संकेत का बहुत बारीकी से पालन किया। मिडजर्नी त्वरित पीढ़ी में विफल रही, पहाड़ उत्पन्न नहीं हुआ, और जादूगर कोई लौकिक जादू नहीं कर रहा था।
SD3 बनाम ImageFX
संकेत: “कार्य डेस्क पर 90 के दशक के डेस्कटॉप कंप्यूटर की तस्वीर। कंप्यूटर स्क्रीन पर 'स्वागत है' लिखा है। पृष्ठभूमि में दीवार पर हम सुंदर भित्तिचित्र देखते हैं, जिस पर दीवार पर बहुत बड़ा पाठ 'एसडी3' लिखा हुआ है।'
हमारी दूसरी तुलना में, SD3 ने उल्लेखनीय पालन के साथ संकेत का पालन किया, जबकि Google के शीर्ष AI छवि जनरेटर, ImageFX, शीघ्र लीक होने से पीड़ित था, कंप्यूटर स्क्रीन पर पाठ SD3 उत्पन्न कर रहा था और पृष्ठभूमि में नहीं, भित्तिचित्र शैली अनुरोध पर ध्यान देने में विफल रहा, और "स्वागत" शब्द को चित्रित करने में असफल होना।
SD3 द्वारा उत्पन्न सौंदर्यशास्त्र भी एक तस्वीर की तरह अधिक है और एक स्पष्ट "फोटोरियलिस्टिक" रेंडर की तरह कम है। पेंसिल होल्डर और अन्य वस्तुओं के आसपास के प्रभावों पर ध्यान दें, जो पृष्ठभूमि के साथ मिश्रित होते प्रतीत होते हैं।
SD3 बनाम SDXL
संकेत: “रसोई की मेज पर एक कढ़ाई वाला कपड़ा है जिस पर 'शुभ रात्रि' लिखा है और एक कढ़ाई वाला बच्चा बाघ है। कपड़े के बगल में एक जलती हुई मोमबत्ती है। प्रकाश मंद और नाटकीय है।
हमारी तीसरी तुलना में, स्टेबल डिफ्यूजन 3 और स्टेबल डिफ्यूजन एक्सएल दोनों ने प्रॉम्प्ट के सार को पकड़ लिया, लेकिन एसडीएक्सएल टेक्स्ट उत्पन्न करने में विफल रहा, शीघ्र लीक होने (दो कपड़े उत्पन्न करना, जिनमें से एक को किसी और चीज़ में बदल दिया गया), और कढ़ाई वाले बच्चे का सामना करना पड़ा। SD3 द्वारा बाघ को बेहतर ढंग से उत्पन्न किया गया।
SD3 बनाम Dall-e 3
संकेत: "एक अंतरिक्ष यात्री की एक पेंटिंग जिसमें गुलाबी छाता लिए टूटू पहने सुअर की सवारी की गई है, सुअर के बगल में जमीन पर टोपी पहने एक रॉबिन पक्षी है, कोने में 'स्थिर प्रसार' शब्द हैं।"
स्टेबल डिफ्यूजन 3 ने वह उत्पन्न किया जो प्रॉम्प्ट में अनुरोध किया गया था, जबकि डैल-ई 3 टेक्स्ट उत्पन्न करने में विफल रहा, एक पेंटिंग के बजाय एक 3 डी रेंडर बनाया, और एक आकाशगंगा पृष्ठभूमि उत्पन्न की, क्योंकि इसे एक अंतरिक्ष यात्री उत्पन्न करने के लिए प्रेरित किया गया था।
हुड के नीचे
सिद्धांत रूप में, स्टेबल डिफ्यूजन 3 में शक्ति और कौशल के अपने दावों का समर्थन करने के लिए पर्याप्त कंप्यूटिंग शक्ति होनी चाहिए।
स्टेबिलिटी एआई के सीईओ इमाद मोस्ताक ने ट्विटर पर कहा, "(एसडी3) प्रवाह मिलान और अन्य सुधारों के साथ मिलकर एक नए प्रकार के प्रसार ट्रांसफार्मर (सोरा के समान) का उपयोग करता है।" सोरा कुछ दिनों पहले OpenAI द्वारा घोषित वीडियो जेनरेटर में शीर्ष पर मौजूद टेक्स्ट में से एक है। इस बीच, फ्लो मैचिंग, जेनेरिक एडवरसैरियल नेटवर्क (जीएएन) जैसे वैकल्पिक तरीकों की तुलना में तेज़ और अधिक स्थिर प्रशिक्षण और अनुमान के आधार पर जेनेरिक मॉडलिंग के लिए एक एआई तकनीक है।
कुछ नोट्स:
- यह प्रवाह मिलान और अन्य सुधारों के साथ संयुक्त एक नए प्रकार के प्रसार ट्रांसफार्मर (सोरा के समान) का उपयोग करता है।
- यह ट्रांसफार्मर सुधारों का लाभ उठाता है और न केवल आगे बढ़ सकता है बल्कि मल्टीमॉडल इनपुट भी स्वीकार कर सकता है।
- अधिक तकनीकी विवरण जल्द ही- इमाद (@EMostaque) फ़रवरी 22, 2024
स्टेबिलिटी एआई का दावा है कि ये सुधार मॉडल की स्केलेबिलिटी और मल्टीमॉडल इनपुट स्वीकार करने की क्षमता को बढ़ावा देते हैं, और वीडियो, 3डी और अन्य में इसके अनुप्रयोग का मार्ग भी प्रशस्त करते हैं। मोस्ताक ट्वीट किए SD3 के लिए उनके दृष्टिकोण में नवीनतम हार्डवेयर प्रगति का लाभ उठाने के लिए डिज़ाइन किए गए उपकरणों का एक व्यापक पारिस्थितिकी तंत्र शामिल है, साथ ही विभिन्न रचनात्मक डोमेन में सुलभ और अनुकूलनीय बने रहना भी शामिल है।
SD3 घोषणा से एक सप्ताह पहले, स्टेबिलिटी AI ने स्टेबल कैस्केड जारी किया। अपने पूर्ववर्तियों के विपरीत, स्टेबल कैस्केड वुर्स्टचेन वास्तुकला पर आधारित है, जो अपनी मॉड्यूलरिटी और रिकॉर्ड संपीड़न उपलब्धियों के लिए जाना जाता है। स्टेबल डिफ्यूजन एक्सएल की तुलना में अधिक मापदंडों की मेजबानी करने के बावजूद, स्टेबल कैस्केड तेजी से अनुमान लगाने के समय और बेहतर त्वरित संरेखण का दावा करता है, जो एआई विकास में स्टेबिलिटी एआई द्वारा की जा रही नवीन प्रगति को प्रदर्शित करता है।
हालांकि स्टेबल डिफ्यूजन 3 अभी तक सार्वजनिक रूप से उपलब्ध नहीं है, स्टेबिलिटी एआई ने इस बात पर जोर दिया कि यह मुफ़्त, खुला स्रोत होगा और गैर-व्यावसायिक लाइसेंस के तहत सभी के लिए उपलब्ध होगा। हालाँकि, उत्साही लोग स्टेबिलिटी एआई के सदस्यता कार्यक्रम के हिस्से के रूप में पूर्वावलोकन पहुंच के लिए आवेदन कर सकते हैं।
रयान ओज़ावा द्वारा संपादित।
क्रिप्टो समाचारों के शीर्ष पर रहें, अपने इनबॉक्स में दैनिक अपडेट प्राप्त करें।
स्रोत: https://decrypt.co/218577/stable-dif Fusion-3-review-comparison-midjourney-dall-e-imagefx