13 पॉइंट द्वारा GN⁺ 2025-03-21 | 2 टिप्पणियां | WhatsApp पर शेयर करें
  • डेवलपर्स OpenAI API के नए text-to-speech मॉडल को आज़मा सकें, इसके लिए एक इंटरैक्टिव डेमो
  • प्रॉम्प्ट के जरिए voice effects, tone, speed, emotions, pronunciation, pauses आदि को विस्तार से निर्दिष्ट किया जा सकता है

डेमो

  • आवाज़ चयन: Alloy, Ash, Ballad, Coral, Echo आदि कुल 11 विकल्प
  • विभिन्न Vibe चयन: Sincere, Friendly, Noir Detective, Robot, Auctioneer आदि
  • उदाहरण: Sincere
    Voice Affect: Calm, composed, and reassuring. Competent and in control, instilling trust.  
    Tone: Sincere, empathetic, with genuine concern for the customer and understanding of the situation.  
    Pacing: Slower during the apology to allow for clarity and processing. Faster when offering solutions to signal action and resolution.  
    Emotions: Calm reassurance, empathy, and gratitude.  
    Pronunciation: Clear, precise: Ensures clarity, especially with key details. Focus on key words like "refund" and "patience."   
    Pauses: Before and after the apology to give space for processing the apology.  
    
  • उदाहरण: Medieval Knight
    Voice Effect: गहरी, आदेशात्मक और हल्की नाटकीय अनुभूति, जो प्राचीन English कथाओं की भव्यता को दर्शाती है  
    Tone: उदात्त, वीरतापूर्ण और औपचारिक, जो मध्यकालीन शूरवीर और महाकाव्यात्मक साहसिक यात्रा के सार को पकड़ता है  
    Emotions: उत्साह, अपेक्षा, रहस्य और नियति व कर्तव्य की गंभीरता का संयोजन  
    Pronunciation: स्पष्ट, सावधानीपूर्ण और हल्की औपचारिक लय; "hast", "thou", "doth" जैसे शब्दों को प्राचीन English उच्चारण पैटर्न के अनुसार धीरे और ज़ोर देकर बोलना  
    Pauses: "Lo!", "Hark!" जैसे प्राचीन English वाक्यांशों के बाद विराम, और "Choose thy path" जैसी clauses के बीच विराम ताकि निर्णय के महत्व पर ज़ोर दिया जा सके और श्रोता quest की गंभीरता पर विचार कर सके  
    

2 टिप्पणियां

 
GN⁺ 2025-03-21
Hacker News की राय
  • इन मॉडलों की कीमत ElevenLabs की तुलना में काफ़ी कम है

    • gpt-4o-mini-tts मॉडल के मामले में, ऑडियो की लागत $0.015 प्रति मिनट है, जो ElevenLabs से 85% सस्ती है
    • ElevenLabs का Business प्लान $1100 प्रति माह में 11,000 मिनट TTS देता है, यानी 10 सेंट प्रति मिनट
    • OpenAI 11,000 मिनट TTS को $165 में उपलब्ध करा सकता है
    • हिसाब सही है या नहीं, इसकी पुष्टि करने का अनुरोध
  • OpenAI के Jeff ने बताया कि नए ऑडियो मॉडल जारी किए गए हैं

    • दो speech recognition मॉडल और एक नया TTS मॉडल जारी किया गया
    • Agents SDK सपोर्ट, जिससे text agents को voice agents में आसानी से बदला जा सकता है
    • कोई सवाल हो तो बताने के लिए कहा गया
  • text-to-speech और speech-to-text मॉडलों की reliability समस्याओं का ज़िक्र

    • यह वास्तविक दुनिया के अनुप्रयोगों में कितना बड़ा मुद्दा होगा, इसे लेकर पक्का नहीं हैं
    • संबंधित नोट्स के लिए लिंक साझा किया गया
  • generated audio के साथ speech marks पाने का तरीका पूछा गया

    • AWS की Polly TTS सेवा में इस्तेमाल होने वाले speech marks की व्याख्या
    • text highlighting और lip-sync के लिए उपयोगी
  • हाल के बड़े text-to-speech और speech-to-text मॉडलों में प्रगति

    • offline, multilingual text-to-speech solution की ज़रूरत का ज़िक्र
    • उनका मानना है कि Tortoise TTS अक्सर शब्दों को विकृत कर देता है
    • Acapela SDK ही एकमात्र desktop app plugin solution है
    • उम्मीद है कि नए neural network-आधारित मॉडल सामान्य कंप्यूटरों पर कुशलता से चलें
  • vibe बॉक्स में डाले गए टेक्स्ट के अनुसार विभिन्न intonation और personality लागू की जा सकती हैं

    • intelligent prosody और intonation का स्तर चौंकाने वाला है
    • यह इतना आगे बढ़ गया है कि audiobooks रिकॉर्ड करने के लिए शायद सिर्फ़ celebrities की ज़रूरत रह जाए
    • कई मज़ेदार voice examples साझा किए गए
  • Navy Seal copypasta डालने पर प्रतिक्रिया

    • safety control vibe निर्देशों के अनुसार अलग-अलग तरीके से काम करता है
    • NYC taxi driver वाला बिना समस्या के काम करता है और मज़ेदार है
  • नए मॉडल की आवाज़ में हल्का कंपन है, इसलिए यह Siri से कमतर लगती है

  • OpenAI के आधिकारिक tools नए मॉडल की घोषणा से जुड़े हुए हैं

  • आधिकारिक घोषणा से महत्वपूर्ण उद्धरण

    • डेवलपर मॉडल को सिर्फ़ क्या कहना है यह नहीं, बल्कि कैसे कहना है यह भी निर्देशित कर सकते हैं
    • vibes UI में दिए जाने वाले निर्देश हैं
    • नया मॉडल सूक्ष्म अंतर को बेहतर तरीके से स्वीकार करता है
    • gpt-4o-mini-tts ऑडियो आउटपुट की लागत $0.015 प्रति मिनट है, जो व्यावहारिक है
    • और अधिक परीक्षण की योजना है
 
sylee999 2025-03-21

हिंदी भी पूरी तरह से काम कर रही है।