• Google द्वारा नया जारी किया गया text-to-speech model, जो पहले की तुलना में बेहतर स्वाभाविकता और अभिव्यक्ति प्रदान करता है, और developers, enterprises तथा आम users सभी के लिए AI voice applications बनाने में सहायता करता है
  • नए पेश किए गए audio tags फीचर की मदद से प्राकृतिक भाषा के commands को सीधे text में डालकर voice style, speed और delivery को बारीकी से नियंत्रित किया जा सकता है
  • Artificial Analysis TTS leaderboard पर इसने Elo score 1,211 दर्ज किया है, और इसे उच्च-गुणवत्ता voice generation तथा कम लागत के आदर्श संयोजन के रूप में आंका गया है
  • 70 से अधिक भाषाओं का समर्थन करता है और native multi-speaker conversation क्षमता built-in है
  • सभी generated audio पर SynthID watermark लागू होता है, जिससे AI-generated content की विश्वसनीय detection और misinformation की रोकथाम संभव होती है

लॉन्च और उपलब्धता चैनल

  • Gemini 3.1 Flash TTS नवीनतम text-to-speech model है, जो बेहतर control, expressiveness, और quality प्रदान करता है
  • यह फिलहाल निम्न चैनलों के माध्यम से preview में उपलब्ध है:
    • developers के लिए: Gemini API और Google AI Studio
    • enterprises के लिए: Vertex AI
    • Workspace users के लिए: Google Vids

बेहतर voice quality और controllability

  • कुल voice quality में सुधार हुआ है, और यह अब तक का सबसे स्वाभाविक और expressive model है
  • Artificial Analysis TTS leaderboard पर हजारों blind human preference evaluations के आधार पर Elo 1,211 हासिल किया
  • Artificial Analysis ने Gemini 3.1 Flash TTS को उच्च-गुणवत्ता voice generation और कम लागत के आदर्श संयोजन के रूप में "most attractive quadrant" में रखा
  • native multi-speaker conversation, 70 से अधिक भाषाओं का समर्थन, और प्राकृतिक भाषा आधारित बारीक creative control इसे अलग बनाते हैं

audio tags के जरिए बेहतर अभिव्यक्ति

  • नए audio tags फीचर के आने से voice style, speed और delivery को सहज रूप से नियंत्रित किया जा सकता है
  • text input में प्राकृतिक भाषा commands को सीधे insert करके AI voice output को बारीकी से समायोजित किया जा सकता है
  • enterprises, Vertex AI के भीतर audio tags का उपयोग कर अगली पीढ़ी के enterprise applications बना सकते हैं
  • Google AI Studio में developers को "director's chair" में बैठाने वाले configurable controls दिए गए हैं:
    • Scene direction: environment को define करके और specific dialogue instructions सेट करके ऐसा worldbuilding context देना, जिससे characters कई turns में स्वाभाविक रूप से प्रतिक्रिया दें
    • Speaker-level specificity: अलग Audio Profile के साथ characters को cast करना, Director's Notes से speed, tone और intonation समायोजित करना, और inline tags के जरिए वाक्य के बीच में भी expression बदलना
    • Seamless export: तैयार parameters को Gemini API code में export किया जा सकता है, ताकि अलग-अलग projects और platforms में एकसमान voice बनी रहे
  • इन व्यवस्थाओं के माध्यम से developers यादगार characters और immersive audio experiences बना सकते हैं

global scale support

  • 70 से अधिक भाषाओं में high-fidelity voice और precise control प्रदान करता है
  • प्रमुख बाजारों के लिए उन्नत style, speed और intonation control के माध्यम से localized voice experiences बनाए जा सकते हैं
  • शुरुआती testers, developers और enterprises ने 3.1 Flash TTS की प्रभावशाली controllability और expressiveness की काफी सराहना की
    • feedback के अनुसार, audio tags नया स्तर की creative precision देते हैं और साधारण text को high-fidelity vocal performance में बदल देते हैं

SynthID watermarking

  • Gemini 3.1 Flash TTS द्वारा बनाए गए सभी audio पर SynthID watermark लागू होता है
  • एक imperceptible watermark सीधे audio output में embed किया जाता है, जिससे AI-generated content की विश्वसनीय detection संभव होती है
  • यह misinformation prevention के लिए एक safeguard की तरह काम करता है, और model card के माध्यम से safety और responsibility पर विस्तृत जानकारी प्रदान की जाती है

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.