नए अल जनरेटिव आर्ट पर एक नज़र

अल जनरेटिव आर्ट एक प्रकार की कला है, ज्यादातर मामलों में दृश्य, जो एक इंसान और एक स्वायत्त प्रणाली के बीच सहयोग पर आधारित है। एक "स्वायत्त प्रणाली" के रूप में परिभाषित किया गया है Artificial Intelligence प्रोग्रामर हस्तक्षेप की आवश्यकता के बिना जटिल संचालन करने में सक्षम सॉफ्टवेयर, एल्गोरिदम या मॉडल।

द्वारा बनाई गई छवियों के विचित्र तुलना से डल-ई मिनी को NFT बाजार, एआई एल्गोरिदम द्वारा उत्पन्न छवियां तेजी से मुख्यधारा की कल्पना में प्रवेश कर रही हैं। वास्तव में, इस विषय पर दो महत्वपूर्ण परियोजनाओं का विश्लेषण किया जाना चाहिए: मध्य यात्रा और दाल-ई 2.

बेशक, खबर ने ट्विटर पर भी अपनी जगह बना ली है। दूसरों के बीच, इस पर टिप्पणी करते हुए, चार्ल्स हॉकिन्सन ने लिखा है:

अल जनरेटिव आर्ट: शुरुआती प्रयोग और विशेषताएं

जनरेटिव आर्ट क्या है, यह समझने के बाद, इसके संस्थापक सिद्धांतों में से एक पर जोर देना महत्वपूर्ण है: अनियमितता. जो जनरेटिव आर्ट की एक मौलिक संपत्ति है।

वास्तव में, सॉफ़्टवेयर के प्रकार के आधार पर, स्वायत्त प्रणाली उन परिणामों को संसाधित करने में सक्षम होती है जो हर बार जनरेट कमांड निष्पादित होने पर हमेशा अलग और अद्वितीय होते हैं, या यह उपयोगकर्ता इनपुट के जवाब में परिणामों की एक चर संख्या वापस कर सकता है।

जनरेटिव आर्ट में पहला प्रयोग 1960 के दशक के प्रयोगों के साथ हुआ हेरोल्ड कोहेन और उसके ऐरोन कार्यक्रम। कोहेन ने पहली बार पॉप आर्ट सिल्कस्क्रीन्स से प्रेरित अमूर्त कलाकृतियों को उत्पन्न करने के लिए स्टैंड-अलोन सॉफ्टवेयर का इस्तेमाल किया। कोहेन की कृतियां अब लंदन में टेट गैलरी में प्रदर्शित हैं।

जनरेटिव आर्ट की एक अन्य विशेषता, लेकिन एक जो कम और कम एक विशेषाधिकार है, प्रोग्रामर द्वारा प्रदान किए गए पैटर्न या अमूर्त तत्वों की पुनरावृत्ति है और सॉफ्टवेयर कोड के भीतर कार्यान्वित की जाती है।

इसके अलावा, टेक्स्ट-इमेज एसोसिएशन पर काम करने वाले तेजी से जटिल तंत्रिका नेटवर्क के विकास ने उत्पादक मॉडल के विकास को सक्षम किया है जो तेजी से यथार्थवादी और सटीक छवियां बनाने में सक्षम हैं। जनरेटिव आर्ट की इस श्रेणी का सबसे प्रसिद्ध उदाहरण है दाल-ई.

Dall-E एक मल्टीमॉडल न्यूरल नेटवर्क है जो आधारित है GPT-3 डीप लर्निंग मॉडल से OpenAI, वही कंपनी जो हाल ही में विकसित हुई है ChatGPT, चैटबॉट नवंबर 2022 में लॉन्च हुआ और इसके साथ अनुकूलित किया गया "पर्यवेक्षित" और सुदृढीकरण सीखने की तकनीक।

डल-ई पर लौटते हुए, हम देखते हैं कि यह प्रणाली पाठ्य विवरण से छवियों को उत्पन्न करने में सक्षम है, जिसे कहा जाता है "तत्पर," पाठ-छवि जोड़े के डेटासेट पर आधारित।

Dall-E का पहला संस्करण, जिसे जनवरी 2021 में जनता के सामने पेश किया गया था और क्षेत्र में पेशेवरों की एक छोटी संख्या का विशेषाधिकार बना रहा, इस प्रकार के जनरेटिव मॉडल के संदर्भ में एक वास्तविक क्रांति का प्रतिनिधित्व करता है, जो GPT- के नवाचारों को पार करता है। 3 ही।

यह तथ्य भी महत्वपूर्ण है कि Dall-E द्वारा संसाधित परिणामों की सटीकता एक अन्य OpenAI समाधान के लिए सही गुंजाइश साबित हुई: क्लिप (विपरीत भाषा-छवि पूर्व प्रशिक्षण)।

पाठ-छवि संघों के आधार पर प्रशिक्षित एक छवि वर्गीकरण और रैंकिंग तंत्रिका नेटवर्क, जैसे कि इंटरनेट पर पाए जाने वाले कैप्शन। CLIP के हस्तक्षेप के लिए धन्यवाद, जो उपयोगकर्ता को प्रति संकेत 32 के लिए प्रस्तावित परिणामों की संख्या को कम कर देता है, ज्यादातर मामलों में Dall-E को संतोषजनक चित्र वापस करने के लिए पाया गया।

मिडजर्नी: डिजाइन, मानव आधारभूत संरचना, और कृत्रिम बुद्धि

यथा प्रत्याशित, मध्य यात्रा एक महत्वपूर्ण परियोजना है जो उभरती अल जनरेटिव आर्ट अवधारणा का हिस्सा है। विशेष रूप से, मिडजर्नी एक स्वतंत्र अनुसंधान प्रयोगशाला है जो सोचने के नए साधनों की खोज करती है और मानव प्रजातियों की कल्पनाशील शक्तियों का विस्तार करती है।

इसका उपयोग करना सरल है: पहले एक खाता बनाना होगा कलह, एक मंच जो विभिन्न समुदायों को होस्ट करता है, जहां मिडजर्नी उनमें से एक है। एप्लिकेशन के भीतर विभिन्न चैट रूम हैं जिनमें कोई सक्रिय रूप से चर्चा में भाग ले सकता है या नहीं।

यह बताना महत्वपूर्ण है कि पहली बार आर्टिफिशियल इंटेलिजेंस का उपयोग करने की कोशिश करने के लिए किसी को जाना होगा "नौसिखिया" चैनल, जहां 25 मुफ्त रेंडर उपलब्ध हैं.

एक रेंडर एक ही टेक्स्ट इनपुट से उत्पन्न चार अलग-अलग वेरिएंट की पीढ़ी से मेल खाता है।

इस प्रकार, 25 रेंडर मिडजर्नी बॉट द्वारा किए गए 25 प्रोसेसिंग जॉब्स को संदर्भित करते हैं। नतीजतन, छवि को उत्पन्न करने के लिए "प्रॉम्प्ट" नामक एक पाठ संदेश के माध्यम से मिडजर्नी बॉट के साथ बातचीत करने की आवश्यकता होती है, जिसमें उपयोगकर्ता के मन में छवि का वर्णन करने वाले कीवर्ड होंगे।

आप जितने चाहें उतने विवरण जोड़ सकते हैं, महत्वपूर्ण बात यह है कि कीवर्ड को अल्पविराम से विभाजित करें। एक बार रेंडरिंग समाप्त हो जाने के बाद, कंप्यूटर चुनने के लिए विवरण के आधार पर चार अलग-अलग छवियां देता है।

इसके अलावा, एक बार जब प्रोग्राम रेंडरिंग समाप्त कर लेता है, तो आप छवियों के आधार पर अपनी प्राथमिकताओं को संप्रेषित कर सकते हैं और यदि आप चाहें तो चार और संस्करण फिर से उत्पन्न कर सकते हैं।

DALL-E 2: कलाकृतियों के लिए नया AI सिस्टम

मिडजर्नी के अलावा, DALL-E 2 भी नया AI सिस्टम है जो प्राकृतिक भाषा के विवरण से यथार्थवादी छवियां और कलाकृतियां बना सकता है। इतना ही नहीं, DALL-E 2 अवधारणाओं, विशेषताओं और शैलियों को भी जोड़ सकता है।

नई एआई प्रणाली की ताकत भी मूल कैनवास में जो है, उससे परे छवियों का विस्तार करने में सक्षम होने में निहित है नई विस्तृत रचनाएँ. इसके अलावा, यह एक प्राकृतिक भाषा के कैप्शन से मौजूदा छवियों में वास्तविक परिवर्तन कर सकता है और छाया, प्रतिबिंब और बनावट को ध्यान में रखते हुए तत्वों को जोड़ और हटा सकता है।

DALL-E 2 की क्षमताओं में एक छवि लेना और मूल से प्रेरित इसकी कई विविधताएँ बनाना भी शामिल है। DALL-E 2 ने छवियों और उनका वर्णन करने के लिए उपयोग किए जाने वाले पाठ के बीच संबंध सीखा है।

नामक प्रक्रिया का उपयोग करता है "प्रसार," जो यादृच्छिक डॉट्स के एक पैटर्न के साथ शुरू होता है और उस छवि के विशिष्ट पहलुओं को पहचानने पर धीरे-धीरे उस पैटर्न को एक छवि की ओर बदल देता है।

इसलिए, OpenAI ने जनवरी 2021 में DALL-E को पेश करने के बाद, अब नवीनतम प्रणाली, DALL-E 2, चार गुना रिज़ॉल्यूशन के साथ अधिक यथार्थवादी और सटीक छवियां उत्पन्न करता है।

DALL-E 2 एक शोध परियोजना के रूप में शुरू हुआ और अब एक के रूप में उपलब्ध है बीटा संस्करण. सिस्टम द्वारा विकसित और सुधार जारी रखने वाले सुरक्षा उपायों में शामिल हैं: सिस्टम की हिंसक, घृणा, या वयस्क छवियों को उत्पन्न करने की क्षमता को सीमित करना, और सीखने-आधारित चरणबद्ध परिनियोजन।

स्रोत: https://en.cryptonomist.ch/2023/02/02/ai-generative-art/