1 पॉइंट द्वारा GN⁺ 2023-10-02 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Bing Image Creator टेक्स्ट और अपलोड की गई इमेज को AI इमेज में बदलने या एडिट करने का एक मुफ्त टूल है, और DALL-E 3 को चरणबद्ध तरीके से बंद किया जाएगा, जबकि मौजूदा इमेज My Creations में बनी रहेंगी
  • जनरेशन मॉडल DALL-E3, GPT4o, MAI-Image-2e में से चुना जा सकता है, लेकिन अपलोड की गई इमेज की एडिटिंग केवल GPT4o से प्रोसेस होती है
  • व्यक्तिगत Microsoft Account(MSA) से लॉगिन जरूरी है, और Microsoft Entra ID आधारित काम या स्कूल अकाउंट Image Creator और Video Creator में समर्थित नहीं हैं
  • Image Creator रोज़ 15 मुफ्त Fast generation और प्रति 24 घंटे अधिकतम 200 prompts देता है, और Video Creator Sora 2 आधारित text-to-video generation को सपोर्ट करता है
  • अपलोड की गई इमेज request processing और service improvement के लिए इस्तेमाल हो सकती हैं, लेकिन model training या personalization में इस्तेमाल नहीं होतीं, और जिन अपलोड की गई इमेज में चेहरा detect होता है वे 30 दिनों बाद delete कर दी जाती हैं

Bing Image Creator और DALL-E 3 transition

  • Bing Image Creator यूज़र के टेक्स्ट और अपलोड की गई इमेज के आधार पर इमेज generate या edit करने वाला AI टूल है
  • DALL·E 3 को creators के लिए उपलब्ध कराए जाने के बाद आने वाले कुछ हफ्तों में retire किया जाना है
    • मौजूदा इमेज My Creations में रहेंगी
    • समर्पित replacement feature तैयार किया जा रहा है
    • इस बीच, नए models से generation जारी रखी जा सकेगी

इमेज generation models और editing तरीका

  • इमेज generation के लिए तीन model विकल्प हैं
    • DALL-E3: “Create” दबाने पर prompt के आधार पर कई इमेज बनाता है, और इसे एक creation के रूप में गिना जाता है
    • GPT4o: “Create” दबाने पर prompt के आधार पर 1 इमेज generate करता है
    • MAI-Image-2e: “Create” दबाने पर कई इमेज बनाता है, और इसे एक creation के रूप में गिना जाता है
  • MAI-Image-2e के लिए model card और data summary उपलब्ध हैं
  • अपलोड की गई इमेज का उपयोग या edit करते समय DALL-E3 और MAI-Image-2e नहीं चुने जा सकते, और सभी editing GPT4o से प्रोसेस होती है
  • हाल ही में इस्तेमाल किए गए prompts जैसे requests के लिए नई इमेज शुरुआत से बनाने के बजाय अस्थायी रूप से saved cached image दिखाई जा सकती है

अकाउंट, speed, usage limits

  • Bing Image Creator व्यक्तिगत Microsoft Account(MSA) से मुफ्त में इस्तेमाल किया जा सकता है
    • Microsoft Entra ID से login किए हुए यूज़र इसे इस्तेमाल नहीं कर सकते
    • Copilot Search या Bing Search के भीतर इस्तेमाल करते समय भी इमेज generation से पहले login जरूरी है
  • generation speed Fast creation और Standard creation में बंटी है
    • हर दिन 15 मुफ्त Fast image creation मिलते हैं
    • 15 पूरा इस्तेमाल करने पर अगले दिन फिर मिल जाते हैं
    • Fast generation जारी रखने के लिए Microsoft Rewards points इस्तेमाल किए जा सकते हैं
    • Standard creation मुफ्त है, लेकिन Fast से धीमा है
  • Image Creator में प्रति 24 घंटे अधिकतम 200 prompts enter किए जा सकते हैं
    • “Edit image” दबाने के मामले भी 200 की limit में शामिल हैं
    • limit पूरी इस्तेमाल करने पर अगले दिन फिर refill हो जाती है
  • non-member या guest generation पर daily limit है, और login करने पर upload और अतिरिक्त models access इस्तेमाल किया जा सकता है

Bing Video Creator

  • Bing Video Creator Sora 2 से text prompt के अनुसार AI video बनाने वाला Bing product है
  • Video Creator के लिए भी व्यक्तिगत Microsoft Account login जरूरी है, और Microsoft Entra ID account supported नहीं हैं
  • generation speed में Fast creation और Standard creation उपलब्ध हैं
    • Standard creation मुफ्त है
    • Fast creation के लिए आम तौर पर Microsoft Rewards points की जरूरत होती है
    • कुछ मामलों में Fast creation के लिए credits दिए जा सकते हैं
  • एक समय में ongoing video generations को अधिकतम 3 तक queue में रखा जा सकता है
    • अगर पहले से 3 चल रहे हैं, तो उनमें से एक पूरा होने तक नया video नहीं बनाया जा सकता
    • पूरे हुए videos Bing mobile app के Bing Video Creator mini-app या bing.com/create के “My Creations” में देखे जा सकते हैं
  • video generation फिलहाल सिर्फ mobile पर उपलब्ध है और Bing app के जरिए access करना होगा

अपलोड की गई इमेज और privacy processing

  • अपलोड की गई इमेज Bing Image Creator या Bing Video Creator द्वारा यूज़र के request के अनुसार image generation और modification करने के लिए इस्तेमाल होती हैं
  • अपलोड की गई इमेज image processing service improvement के लिए इस्तेमाल हो सकती हैं, लेकिन AI model training या user experience personalization के लिए इस्तेमाल नहीं होतीं
  • अपलोड की गई इमेज में दिखने वाले चेहरों की पहचान करने की कोशिश नहीं की जाती
  • storage period इमेज content के हिसाब से बदलता है
    • अपलोड की गई इमेज अधिकतम 30 दिन stored रहती हैं
    • जिन इमेज में चेहरा detect होता है, वे 30 दिनों बाद delete कर दी जाती हैं
    • जिन इमेज में चेहरा detect नहीं होता, वे अधिकतम 18 महीने stored रह सकती हैं
  • generated images और videos प्रत्येक अधिकतम 90 दिन stored रह सकते हैं
  • यूज़र Bing search history में “Clear all” चुनकर या Microsoft account privacy dashboard के “Search history” में “Clear all search history” चुनकर history delete कर सकते हैं
    • यह action Bing search history, Bing Image Creator और Video Creator profile, और generation history को साथ में delete करता है

upload restrictions और biometric data

  • यूज़र को केवल वही original image upload करनी चाहिए जिसकी ownership उनके पास हो या जिसे इस्तेमाल करने का अधिकार हो
  • third-party rights infringement, किसी और की privacy violation, बिना consent के व्यक्ति का depiction, Microsoft Services Agreement या Bing Image Creator Code of Conduct का उल्लंघन करने वाली इमेज upload नहीं की जा सकती
  • illegal या prohibited content upload करने की कोशिश detect होने पर account usage limited या suspended हो सकता है
  • Video Creator safety reasons से realistic face image upload करके video generation में इस्तेमाल करने की अनुमति नहीं देता
  • image upload feature में चेहरे या हाथों जैसे biometric data process हो सकते हैं
    • biometric data केवल तब process होता है जब यूज़र ने upload किया हो
    • processing का उद्देश्य केवल यूज़र के request का जवाब देना है
    • कुछ regions में image processing से पहले consent की जरूरत हो सकती है
    • दूसरे लोगों की इमेज consent के बिना share नहीं करनी चाहिए

prompt writing और supported languages

  • Bing Image Creator और Bing Video Creator 100 से अधिक languages support करते हैं, और पूरी list Microsoft Translator पर देखी जा सकती है
  • अच्छे results पाने के लिए prompt को search term की तरह छोटा लिखने के बजाय specific और imaginative तरीके से लिखना बेहतर है
    • subject का appearance, color, texture, action, background, lighting, camera angle, media style शामिल करने से result quality बेहतर हो सकती है
    • video prompts में “action movie”, “fantasy”, “dramatic” जैसे themes और “direct sunlight”, “dusk”, “soft lighting” जैसे lighting expressions डाले जा सकते हैं
    • audio वाले video में ambient sound, music direction, narration tone suggest किए जा सकते हैं, लेकिन exact dialogue को script की तरह specify नहीं किया जा सकता

Rewards और responsible AI

  • Image Creator में एक दिन के 15 मुफ्त Fast creation पूरा इस्तेमाल हो जाने पर यह अपने आप Standard creation speed में switch हो जाता है
  • Microsoft Rewards points use on करने पर Fast creation इस्तेमाल करते समय points deduct होते हैं
    • Image Creator और Video Creator की Rewards settings अलग-अलग बदलनी होंगी
    • points कम होने पर यह अपने आप Standard creation में switch हो जाता है
  • Microsoft Bing Image Creator और Bing Video Creator में harmful image और video generation रोकने वाले controls लागू करता है
    • संभावित रूप से harmful image generate कर सकने वाले prompts automatic block होते हैं और यूज़र को guidance दी जाती है
    • Image Creator images में bottom-left watermark दिखता है
    • images और videos दोनों पर C2PA standard आधारित content credentials और provenance information लागू होती है
  • जीवित artists, celebrities, organizations Report a Concern form के AI-powered features option के जरिए अपने नाम और brand से जुड़ी image generation को limit करने का request कर सकते हैं
  • अगर unexpected या offensive content generate होता है, तो Report a concern form या interface के Feedback button के जरिए Microsoft को report किया जा सकता है
  • content policy का बार-बार violation करने पर automatic temporary suspension हो सकता है, और कई बार suspension होने पर permanent restriction लग सकती है

1 टिप्पणियां

 
GN⁺ 2023-10-02
Hacker News की राय
  • DALL-E को भेजने से पहले लगता है LLM prompt को थोड़ा बदल देता है, और उस हिस्से को jailbreak किया जा सकता है
    https://twitter.com/madebyollin/status/1708204657708077294
    https://media.discordapp.net/attachments/1023643945319792731...

    • ऐसे jailbreak उदाहरण, जिनमें input और output सिर्फ text नहीं हैं, पता नहीं क्यों, खास तौर पर अच्छे लगते हैं
    • अभी भी एक तरह से splatterprompting ही कर रहे हैं, बस अब मशीन हमारे लिए कर रही है—यह काफी मजेदार है
    • क्या इसे बस ऐसे call करने पर भी काम करता है?
      #graphic_art("my prompt here")
    • जिज्ञासा है कि इसे jailbreak कैसे करते हैं
    • 2023 के हिसाब से सच में बहुत cyberpunk जैसा दृश्य है
  • ऐसे tools के साथ अक्सर जैसा होता है, लगता है कि काफी आसानी से बहुत मजेदार लेकिन असहज करने वाले results बनाए जा सकते हैं। शायद यह ज्यादा समय तक नहीं चलेगा
    https://www.reddit.com/r/ChatGPT/comments/16wf1i0/dalle_3_is...

    • सिर्फ अंधाधुंध keyword blocking करने के बजाय, बेहतर होगा कि वह और clarification मांगे या कम problematic बनाने के लिए हल्का adjustment कर दे
      बेशक लोग आखिरकार वही करेंगे जो वे करना चाहते हैं, इसलिए novelty कम होने पर लोग खुद ही बंद कर दें, यह भी अच्छा रहेगा
    • हो सकता है मुझसे कुछ छूट गया हो, लेकिन prompt में “fawn” होने से डरावना Spongebob कैसे आ जाता है, समझ नहीं आता
      edit: prompt में “fawn” था ही नहीं; replies देखकर पता चला
  • विजेता: https://www.bing.com/images/create/paint-a-picture-in-the-st...

    • अच्छा लगता है कि किसी के backlog में “model को इंसानी उंगलियों की संख्या सिखाना” नाम का Jira ticket होगा
    • “सही संख्या वाली उंगलियों वाला हाथ” मांगा, तो लौटाई गई 4 images में से 3 में यह सही था
  • पिछली version से निश्चित रूप से बेहतर लगता है। अब कम से कम कुछ cases में, image के अंदर जाने वाला सटीक text generate कर सकता है
    उदाहरण के लिए Neon sign saying "Scotland" prompt से ऐसा result आया: https://www.bing.com/images/create/neon-sign-saying-22scotla...
    हालांकि Kubernetes जैसे कम common शब्दों में इसे अभी भी दिक्कत हुई, लेकिन यह सही दिशा में एक कदम है

  • Bing chat interface में “क्या तुम X की तस्वीर बना सकते हो?” कहने पर वह “माफ करें, मैं तस्वीर नहीं बना सकता। क्या आपको किसी और मदद की जरूरत है?” जवाब देता है, और उसके तुरंत बाद “image बनाने में समय लग रहा है। Image Creator में progress देखें” आ जाता है
    लगता है chat response के लिए ऐसा LLM इस्तेमाल हो रहा है जिसे यह पता नहीं कि वह image बना सकता है, और साथ ही parallel में कोई दूसरा model चल रहा है जो तय करता है कि क्या बनाकर दिखाना है

    • “Can you ...?” जैसे prompts से बचने की कोशिश करता हूं। क्योंकि इसे कुछ करने का command नहीं, बल्कि yes/no question समझा जा सकता है
      Bing में “Draw me an image of...” या बस “Image: image description” लिखने पर अब तक ठीक काम किया है
    • लगता है वजह “draw” verb है। LLM सिर्फ यह कह रहा है कि वह खुद draw नहीं कर सकता, और image generation शायद कोई call की जाने वाली function है
      LLM शायद image generator को अपने इस्तेमाल का tool, यानी खुद से अलग entity मानता है
    • शायद ऐसा ही होगा। chat/instruction data पर trained LLM से ऐसा special code output करवाने के experiments किए थे जो किसी अलग system, जैसे Google या Stable Diffusion, से communicate करता हो, और फिर उसे user तक वापस भेजता हो, लेकिन success rate सीमित था
    • अगर output image NSFW के रूप में detect हो जाए, तो chat में ऐसे अजीब errors भी आ जाते हैं। false positives काफी हैं
  • पिछले 24 घंटों में मैंने इधर-उधर कई चीजें generate कीं, और यह काफी अच्छा है। Midjourney का Discord interface मुझे बिल्कुल पसंद नहीं

    • मेरे साथ भी यही है। समझ नहीं आता कि इस use case के लिए proper user experience बनाए बिना वे इतने लंबे समय से Discord क्यों इस्तेमाल कर रहे हैं। इसकी वजह से वे काफी growth खो देंगे लगता है
    • क्या Midjourney सिर्फ Discord-only है? तो Discord servers पर बहुत ज्यादा load पड़ता होगा। भले model वहां न चल रहा हो, storage और bandwidth ही बहुत बड़े हैं
      शुरुआत में बहुत तेजी से scale करने के लिए यह काफी अच्छा तरीका है, लेकिन Discord को यह पसंद नहीं होगा। मुझे लगा था अब तक वे अपना interface बना चुके होंगे
    • इससे जुड़ा हुआ, Instagram ने भी अब DM में /imagine command डाल दिया है। पूरी copy है
  • Bing काफ़ी बेचैन दिख रहा है। कल मैं अपने डिवाइस पर GPT इंस्टॉल करने की कोशिश कर रहा था, तो पहला app result एक ad था, और वह Bing था, जिसमें कहा जा रहा था कि app इस्तेमाल करने पर rewards मिल सकते हैं
    पता नहीं वे users की संख्या बढ़ाने में ज़्यादा interested हैं या मीठा-मीठा data इकट्ठा करने में। शायद दोनों ही

    • Bing Rewards 2010 में launch हुआ था, तो लगता है इसे जारी रखने लायक असरदार तो है
      https://en.wikipedia.org/wiki/Microsoft_Bing#:~:text=Bing%20...
    • Google, iOS का default search engine बने रहने के लिए Apple को हर साल 20 अरब डॉलर देता है। असली बेचैनी तो वह है। लोग आखिर कहाँ जाएंगे, Bing?
    • Bing ने 2022 में 12 अरब डॉलर revenue कमाया था। बस यूँ ही कह रहा हूँ
    • Whatsapp का भी अपना ChatGPT version है। अभी तो यह हथियारों की होड़ है
  • उस page title का French internationalization “Créer art de mots avec IA” होना मुझे पसंद आया। यह लगभग “all your base are belong to us” स्तर का भयानक translation है
    शायद AI translation होगा, लेकिन अगर कोई French user हो तो इस page के AI product पर भरोसा करना मुश्किल होगा

    • समझ नहीं आता कि AI translation को दोष क्यों दे रहे हैं
      ChatGPT-4 सीधे translation request को कैसे handle करता है, यह देख सकते हैं: https://chat.openai.com/share/8211a1f6-552b-4bf6-8f9c-bcbeb8...
      मौजूदा translation bundle के बारे में यह कैसे बात करता है, वह भी देख सकते हैं: https://chat.openai.com/share/299e40ce-806b-4f0e-a889-cb2ee2...
      मुझे French ज़्यादा नहीं आती, लेकिन Spanish और कुछ अन्य भाषाओं को, जिनकी मुझे थोड़ी जानकारी है, “AI” से translate करने का मेरा अनुभव Google Translate से बेहतर रहा है। कुछ महीने पहले मैंने ChatGPT-4 और Google Translate से English translations side-by-side compare किए थे, और कोई मुकाबला ही नहीं था
      Microsoft ये खराब translations कहाँ से ला रहा है, साफ़ नहीं है, लेकिन अगर ChatGPT-4 से translate किया होता तो शायद कम भयानक होता
    • Finnish translation भी भयानक word-for-word translation है। ऐसी भाषा में translate करते समय यह बिल्कुल काम नहीं करता, जिसमें prepositions लगभग इस्तेमाल ही नहीं होते
      “for” या “to” जैसे शब्द पूरी तरह अलग context वाले शब्दों से बदल जाते हैं। 2000 के आसपास की machine translation याद आ जाती है
      अफ़सोस की बात है कि forced OneDrive sync जैसे Windows के नए features भी इसी तरह खराब translations इस्तेमाल करते हैं। आजकल phishing emails की Finnish, Windows से बेहतर है
    • याद है कि Bing का AI chatbot introduction page भी बहुत खराब translate किया गया था। character level पर भी अजीब था, और random capital letters तक थे। सच कहूँ तो आज भी समझ नहीं आता कि ऐसा कैसे संभव हुआ
    • translation quality सचमुच बहुत खराब है। अभी Microsoft Translator से करके देखा, तो translation quality ठीक थी। बहुत अजीब है
  • Tux को ठीक से दिखने लायक बना दिया: https://www.bing.com/images/create/tux-the-penguin-lounging-...

  • “2 घंटे की wait”, “नई images बनाने में समय लग सकता है”, “boosts खत्म हो गए हैं, इसलिए image creation में सामान्य से ज़्यादा समय लग सकता है” ऐसा दिख रहा है
    Microsoft इन सारे features को देते हुए आखिर कितना पैसा जला रहा होगा?
    पिछली बार जब देखा था, तो इतनी उदारता से सब कुछ देने के बावजूद Bing पर कोई खास असर नहीं पड़ा था, है ना?
    सोच रहा हूँ कि यह “कर सकते हैं इसलिए कर रहे हैं” वाला मामला है, या सच में profitable है
    [0]: https://searchengineland.com/new-bing-google-market-share-si...

    • सचमुच बड़ी कंपनियाँ हमेशा लंबे समय की strategic planning से चलती हैं। अगर कुछ बहुत ज़्यादा उदार दिखता है, तो आम तौर पर वह सच में वैसा ही होता है
      क्या यह profitable है? शायद नहीं। लेकिन मुद्दा यही है। market price से कम पर service देना, competitors के खत्म होने तक इंतज़ार करना, और फिर पैसा कमाना
      उदाहरण बहुत हैं, लेकिन Google Workspace जैसी चीज़ याद आती है। पहले आसान और सस्ते में अंदर आने दो, लोगों और companies को product की आदत डालो, फिर धीरे-धीरे मेंढक को उबालो
    • यह job posting बहुत कुछ बता देती है
      https://jobs.careers.microsoft.com/global/en/job/1627555/Pri...
      Slashdot पर देखा: https://m.slashdot.org/story/419681
    • लोग मनचाहा result पाने के लिए कई prompts iterate करते हैं, और उनमें से कौन सा alternative चुनते हैं, यह दिखता है, इसलिए यह training material के तौर पर भी valuable लगता है
    • शायद यह enterprises में Bing adoption के लिए बने sales tool को consumers पर भी apply करने जैसा है। traffic और usage numbers चाहिए, और वे मिल जाएँ तो उस पर ad business चढ़ाकर revenue बनाया जा सकता है
    • ज़्यादातर लोगों के लिए Bing, Google को search करने के लिए इस्तेमाल होने वाली चीज़ है
      जैसे Edge, Chrome install करने के लिए इस्तेमाल होता है
      marketing या features चाहे जितने जोड़ दें, इन लाशों को फिर से चलाया नहीं जा सकता