1 पॉइंट द्वारा GN⁺ 2 일 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • वॉइस बायोमेट्रिक्स और सरकार द्वारा जारी पहचान पत्र को एक ही डेटा लाइन में जोड़े हुए बड़े पैमाने का लीक हुआ है, और लीक हुए सैंपल इंडेक्स के आधार पर इसमें 40,000 से अधिक AI कॉन्ट्रैक्टर्स शामिल हैं
  • प्रति कॉन्ट्रैक्टर औसतन 2~5 मिनट की साफ़ रिकॉर्डिंग शामिल है, जो केवल लगभग 15 सेकंड के रेफरेंस ऑडियो से भी संभव वॉइस क्लोनिंग की सीमा से काफ़ी अधिक है
  • लीक हुए डेटा में वॉइस क्लोन और सत्यापित पहचान एक साथ उपलब्ध हैं, इसलिए इसका दुरुपयोग बैंक वॉइस ऑथेंटिकेशन बायपास, कार्यस्थल-लक्षित vishing, डीपफेक वीडियो कॉल, इंश्योरेंस क्लेम फ्रॉड, और परिवार के सदस्य बनकर किए जाने वाले इमरजेंसी कॉल में हो सकता है
  • अगर आपने Mercor या 2025 तक संचालित किसी अन्य AI training ब्रोकर पर वॉइस सैंपल अपलोड किए थे, तो इन्हें लीक हुए पासवर्ड की तरह मानना चाहिए; सार्वजनिक वॉइस हटाना, कोडवर्ड सेट करना, और वॉइस प्रिंट का दोबारा रजिस्ट्रेशन व निष्क्रियकरण ज़रूरी है
  • संदिग्ध आवाज़ों की फॉरेंसिक जांच में codec mismatch, breathing pattern, micro-jitter, formant trajectory, room acoustics consistency, prosody और speaking rate की विसंगतियाँ देखनी चाहिए; यह वॉइस ऑथेंटिकेशन की व्यापक कमजोरी को भी उजागर करता है

उल्लंघन का सार

  • 4 अप्रैल 2026 को Lapsus$ ने Mercor को अपनी लीक साइट पर पोस्ट किया, और लीक का आकार लगभग 4TB बताया गया
  • लीक आर्काइव में वॉइस बायोमेट्रिक्स और उसी व्यक्ति के सरकार द्वारा जारी पहचान पत्र एक साथ जुड़े हुए थे, और लीक हुए सैंपल इंडेक्स के आधार पर 40,000 से अधिक कॉन्ट्रैक्टर्स शामिल थे
  • प्रभावित लोग वे कॉन्ट्रैक्टर्स थे जिन्होंने AI training के लिए data labeling, script narration recording, और verification calls करने हेतु रजिस्ट्रेशन किया था
  • पोस्ट होने के 10 दिनों के भीतर कॉन्ट्रैक्टर्स की 5 मुकदमे दायर हुए, जिनमें आरोप था कि वॉइस प्रिंट्स को "training data" के रूप में इकट्ठा करते समय यह स्पष्ट नहीं किया गया कि यह एक स्थायी बायोमेट्रिक पहचानकर्ता है

यह लीक अलग क्यों है

  • पिछले 10 वर्षों के वॉइस लीक आमतौर पर या तो ऐसी कॉल रिकॉर्डिंग्स थे जिन्हें पहचान से जोड़ना कठिन था, या फिर ऑडियो के बिना ID·selfie leaks थे
  • Mercor की रजिस्ट्रेशन प्रक्रिया ने passport या driver's license scan, webcam selfie, और शांत वातावरण में स्क्रिप्ट पढ़कर की गई वॉइस रिकॉर्डिंग को एक ही डेटा लाइन में जोड़ दिया
  • यह संयोजन ठीक उसी रूप में है जिसकी synthetic voice cloning services को input के तौर पर ज़रूरत होती है
  • फरवरी 2026 की Wall Street Journal रिपोर्ट के अनुसार, बाज़ार में उपलब्ध tools को high-quality voice cloning के लिए केवल लगभग 15 सेकंड का साफ़ reference audio चाहिए
  • बताया गया कि Mercor की रिकॉर्डिंग्स में प्रति कॉन्ट्रैक्टर औसतन 2~5 मिनट की studio-grade आवाज़ थी, जो cloning threshold से काफ़ी आगे है
  • जब इसके साथ सत्यापित पहचान दस्तावेज़ भी जुड़ जाएँ, तो हमलावर के पास वॉइस क्लोन के साथ उसे वास्तविक हमले में इस्तेमाल करने योग्य credentials भी आ जाते हैं

चुराए गए वॉइस डेटा से संभव हमले

  • बैंक ऑथेंटिकेशन बायपास

    • कई अमेरिकी और ब्रिटिश बैंक अब भी voice print matching को दो फ़ैक्टरों में से एक मानते हैं
    • अगर अकाउंट होल्डर का वॉइस क्लोन challenge phrase पढ़ दे, तो ऑडियो गेट पार किया जा सकता है, और फिर केवल knowledge-based questions बचते हैं, जो इसी लीक डेटा सेट से आ सकते हैं
  • कार्यस्थल-लक्षित vishing

    • HR या finance department को कर्मचारी बनकर कॉल करके payroll destination बदलने, wire transfer मांगने, या workstation unlock कराने की कोशिश की जा सकती है
    • Krebs on Security archive में 2023 के बाद सत्यापित ऐसे 24 से अधिक मामले जमा हैं
  • डीपफेक वीडियो कॉल

    • 2024 में Arup में multi-person deepfake video call के बाद finance कर्मचारी ने लगभग 25 million dollar ट्रांसफर कर दिए
    • उस समय आवाज़ और चेहरा सार्वजनिक वीडियो से बनाए गए थे, लेकिन Mercor लीक में सार्वजनिक वीडियो से बेहतर studio audio और verified IDs दोनों मौजूद हैं
  • इंश्योरेंस क्लेम फ्रॉड

    • Pindrop ने गिना कि 2025 भर में insurance call centers पर synthetic voice attacks साल-दर-साल 475% बढ़े
    • फ़ोन पर प्रोसेस होने वाले auto, life, और disability claims मुख्य लक्ष्य हैं
  • परिवार के सदस्य बनकर इमरजेंसी कॉल फ्रॉड

    • FBI Internet Crime Complaint Center ने 2026 में 60 वर्ष से अधिक आयु के पीड़ितों का नुकसान 2.3 billion dollar बताया
    • सबसे तेज़ी से बढ़ने वाली श्रेणी वह थी जिसमें कॉल करने वाला दावा करता है कि कोई रिश्तेदार संकट में है

वॉइस दुरुपयोग की पुष्टि और तुरंत प्रतिक्रिया

  • अगर आपने Mercor या 2025 तक सक्रिय किसी अन्य AI training ब्रोकर पर वॉइस सैंपल अपलोड किए थे, तो उन्हें लीक हुए पासवर्ड की तरह मानें
  • आवाज़ स्वयं बदली नहीं जा सकती, लेकिन जिन authentication methods को वह खोलती है उन्हें बदला जा सकता है
  • सार्वजनिक ऑडियो footprint की जाँच

    • YouTube, podcast directories, और पुराने Zoom recordings में सार्वजनिक रूप से indexed वॉइस सैंपल खोजने चाहिए
    • जिन सार्वजनिक आवाज़ों को हटाया जा सकता है, उन्हें जितना संभव हो हटाना बेहतर है
    • जितना कम public reference audio होगा, हमलावर के clone की मजबूती उतनी कम होगी
  • परिवार और वित्तीय संपर्कों के साथ मौखिक codeword सेट करें

    • ऐसा phrase चुनना चाहिए जो न कभी रिकॉर्ड हुआ हो और न चैट में टाइप किया गया हो
    • इसे उन लोगों के साथ पहले से साझा करना चाहिए जो आपकी ओर से धन-संबंधी कार्य संभालते हैं
    • पैसे माँगने वाली कॉल में codeword को अनिवार्य प्रक्रिया बनाना अधिक सुरक्षित है
  • जहाँ voice print उपयोग होता है वहाँ पुनः पंजीकरण

    • Google Voice Match, Amazon Alexa Voice ID, Apple personal voice, और बैंक voice print registration को हटाकर बदला जा सकता है
    • लीक हुए सैंपल से अलग acoustic environment में नई रिकॉर्डिंग के साथ दोबारा पंजीकरण करना बेहतर है
  • बैंक की voice print authentication निष्क्रिय कराना

    • आप लिखित में अनुरोध कर सकते हैं कि voice print को authentication factor से हटाया जाए
    • app token या hardware key के साथ knowledge-based factor जोड़कर multi-factor authentication माँगना बेहतर है
    • कई बैंक voice को primary authentication factor से हटाने का विकल्प देते हैं, लेकिन इसका व्यापक प्रचार नहीं करते
  • संदिग्ध रिकॉर्डिंग की फॉरेंसिक जांच

    • अगर आपको कोई audio file या voice message मिले जिसमें कोई परिचित व्यक्ति होने का दावा करके पैसे, access, या urgent response माँगा जाए, तो तुरंत कार्रवाई न करें; पहले उसे deepfake detector से जाँचें
    • ORAVYS उल्लंघन-पीड़ितों द्वारा भेजे गए पहले 3 samples की मुफ्त जाँच देता है
    • Run a forensic check →

फॉरेंसिक विश्लेषण चेकलिस्ट

  • फॉरेंसिक विश्लेषण की शुरुआत पहले synthetic voice की सामान्य त्रुटियाँ खोजने से होती है
  • codec mismatch तब दिखता है जब फ़ोन कॉल बताई जा रही ऑडियो की spectral signature, ज्ञात टेलीफ़ोन codecs से मेल नहीं खाती
  • breathing pattern में, वास्तविक वक्ता वाक्य की लंबाई और फेफड़ों की क्षमता के अनुसार साँस लेता है, जबकि synthetic voice अक्सर साँस छोड़ देती है या उसे गलत syllable boundary पर डाल देती है
  • micro-jitter प्राकृतिक vocal-fold vibration की सूक्ष्म अनियमितता को दर्शाता है, जबकि generated audio millisecond स्तर पर अत्यधिक साफ़ हो सकती है
  • formant trajectory वास्तविक मुख-उच्चारण अंगों द्वारा बनने वाले vowel transition path का पालन करती है, जबकि cloned voice कभी-कभी formants के बीच भौतिक रूप से असंभव छलाँग लगाती है
  • room acoustics consistency में फ़ाइल की शुरुआत से अंत तक reverberation characteristics एक जैसी होनी चाहिए, लेकिन generated audio सूखी हो सकती है और जोड़ा गया आसपास का संदर्भ reverberant हो सकता है
  • prosody flattening तब दिखती है जब synthetic voice में असली वक्ता की तुलना में pitch और energy variation की सीमा संकरी हो
  • speaking rate stability वास्तविक मानव की स्वाभाविक गति-परिवर्तन के विपरीत, generated voice लंबे हिस्सों में metronome जैसी स्थिर गति बनाए रखती है

ORAVYS की जाँच विधि

  • हर सबमिट किए गए sample पर 3,000 से अधिक forensic engines समानांतर चलाए जाते हैं, जो signal, prosody, articulation, codec, और provenance क्षेत्रों को साथ में देखते हैं
  • AudioSeal watermark detection watermark बने रहने पर प्रमुख commercial voice models द्वारा बनाए गए files को चिह्नित कर सकती है, और watermark मिलने पर निर्णायक positive result देती है
  • anti-spoofing module ASVspoof public benchmark पर train किया गया है और यह score करता है कि sample रिकॉर्डिंग नहीं बल्कि synthetic होने की कितनी संभावना है
  • यह RGPD-compliant biometric processing लागू करता है, और स्पष्ट सहमति के बिना audio को commercial model training में उपयोग नहीं करता तथा निर्धारित retention schedule के अनुसार उसे delete करता है
  • अगर आप Mercor कॉन्ट्रैक्टर हैं और आपकी आवाज़ पहले से circulation में हो सकती है, तो यह शुरुआती 3 संदिग्ध samples का मुफ्त विश्लेषण करता है
  • मुफ्त रिपोर्ट में watermark detection, anti-spoofing score, और ऊपर दी गई artifact checklist शामिल होती है
  • यह भी कहा गया है कि card information की ज़रूरत नहीं है और usage-limit barrier भी नहीं है

स्रोत और सीमाएँ

  • स्रोतों में Lapsus$ leak site index, फरवरी 2026 का Wall Street Journal, Pindrop Voice Intelligence Report 2025, FBI IC3 Elder Fraud Report 2026, और Krebs on Security archive का उल्लेख किया गया है
  • ORAVYS लीक डेटा सेट को host या redistribute नहीं करता और न ही उसे input के रूप में स्वीकार करता है

1 टिप्पणियां

 
GN⁺ 2 일 전
Hacker News की राय
  • इसमें विडंबना बहुत है। AI कंपनी को मेरी आवाज़ मिलने से होने वाले नुकसान को कम करने के लिए फिर किसी दूसरी AI कंपनी को ही आवाज़ भेजो, यह काफ़ी बेतुका लगता है
    Mercor ने भी शायद स्पष्ट सहमति को terms में डालकर कानूनी तौर पर निकलने का रास्ता बना रखा होगा

    • मुफ़्त analysis के प्रस्ताव से भी ज़्यादा कड़वी बात यह है कि शुरुआत से ही Mercor की contract structure ठीक उसी पैटर्न पर बनी हुई लगती थी
      स्टूडियो-ग्रेड voice recording और ID scan जमा करने पड़ते थे, लेकिन असली data labeling काम में इन दोनों में से किसी की भी ज़रूरत नहीं थी, सहमति terms के काफ़ी अंदर छिपी हुई थी, और लोगों को पैसे की ज़रूरत थी इसलिए वे बस click करने को मजबूर थे
      अब 40,000 लोगों ने यह सीख लिया कि biometric जानकारी password नहीं होती, और यह भी साफ़ हो गया कि आवाज़ बदली नहीं जा सकती
    • CYA जैसा शब्द हक़ीक़त को बहुत हल्के ढंग से पेश करने वाला लगता है
      आदर्श रूप में कानून हिंसा की जगह विवाद सुलझाने का सुलभ साधन होना चाहिए, लेकिन अभी यह ज़्यादा बार एक Kafkaesque system की तरह इस्तेमाल होता है जो व्यक्ति के ऊपर corporate power बनाए रखता है
      हक़ीक़त में यह कानूनी remedy के लगभग सारे रास्ते बंद कर देता है, और बाकी जवाबी उपायों की लगातार भारी लागत होती है, जैसे कई residences बनाए रखना या security hire करना
      इसका मतलब हिंसा का समर्थन करना नहीं है, बल्कि यह है कि ज़्यादा समान और सुलभ कानूनी व्यवस्था की ज़रूरत है
    • पिछले हफ़्ते के WSJ article को देखें तो Mercor contract के grey area को target करता दिखता है। मामला सिर्फ़ आवाज़ का नहीं था
      बहुत से लोग असल में अपने ख़ुद के और अपनी कंपनी के भी wiretap का हिस्सा बन गए थे
      भले ही Mercor contractors Insightful के ज़रिए excessive data collection का आरोप लगाएँ, कंपनी के नज़रिए से यह काफ़ी चालाक structure भी है। क्योंकि अगर वे ज़ोर से शिकायत करें तो सिर्फ़ अपना main job नहीं खोएँगे, बल्कि जानबूझकर किए गए violation के लिए unlimited liability तक का डर भी रहेगा
      https://www.wsj.com/tech/ai/mercor-ai-startup-personal-data-lawsuit-0b5c349b?st=5qmCSK&reflink=desktopwebshare_permalink
    • जब मैंने Airbnb account delete करने की कोशिश की थी, तब उन्होंने ID के front और back scan माँगे, तो मैंने बस छोड़ दिया और उसके बाद उस कंपनी का फिर इस्तेमाल नहीं किया
    • यह कुछ-कुछ वैसा लगता है जैसे identity theft settlement पाने के लिए पहले अपनी पहचान verify करनी पड़े
  • मैं ही इस पोस्ट का लेखक हूँ। इस महीने की शुरुआत में Lapsus$ ने leak site पर डाला हुआ Mercor archive देखकर मैंने यह लिखा
    मेरे लिए सबसे ज़्यादा ध्यान खींचने वाली बात voice sample और ID scan का combination था। आम तौर पर leak में इन दोनों में से एक होता है, लेकिन इस बार तो deepfake में सीधे इस्तेमाल होने वाली पूरी kit ही दे दी गई
    मैं व्यावहारिक तरीके से यह समेटना चाहता था कि attacker इस combination के साथ वास्तव में क्या कर सकता है, जैसे bank voice authentication bypass, Arup-शैली video call impersonation, insurance fraud, और leak हुए contractors के लिए 5-step checklist
    forensic detection पर भी बात हो सकती है। AudioSeal watermark, AASIST anti-spoofing, और अगर voice biometrics बड़े पैमाने पर leak होने लगें तो detection landscape कैसे बदलेगा, यह भी अहम है

    • दिलचस्प सामग्री थी। घटना के बाद Mercor ने लगभग कोई public statement नहीं दिया
      social media post शायद आधिकारिक announcement न हो, लेकिन California में दायर किया गया यह breach notice sample मिला
      अब देखना होगा कि हमारे lawmakers इस बार data privacy को गंभीरता से लेते हैं या नहीं
      https://oag.ca.gov/ecrime/databreach/reports/sb24-621099
    • कुछ साल पहले जब HSBC ने voice authentication की पेशकश की थी, तब मैंने तुरंत मना कर दिया था
      Apple devices पर भी मैं biometrics नहीं इस्तेमाल करता, सिर्फ़ 6-digit PIN रखता हूँ
      मुझे यह शुरू से ही बेवकूफ़ी भरा idea लगा
      convenience और security में चुनाव कराते समय जो लोग convenience नहीं चुनते उन्हें paranoid कहा जाता है, फिर घटना सच में हो जाने के बाद भी किसी और वजह से उन्हें फिर paranoid ही कहा जाता है
  • सिर्फ़ वही data चोरी या leak नहीं हो सकता जो अस्तित्व में ही न हो। यह users और companies दोनों के लिए कड़वा सबक है
    German में इस विचार के लिए Datensparsamkeit जैसा शब्द भी है। मोटे तौर पर इसका मतलब data को किफ़ायत से इस्तेमाल करना है

    • German में ऐसा शब्द होने के पीछे ऐतिहासिक संदर्भ भी है
      1970s के Germany में privacy और data storage को लेकर बड़ी बहसें हुई थीं, और Datenschatten जैसे शब्द भी इस्तेमाल होते थे
      शायद यह परंपरा World War II के बाद के आत्ममंथन और administrative systems पर विचार से निकली है
    • LLM से पहले यह बात पूरी तरह कही जा सकती थी कि गैर-ज़रूरी data सिर्फ़ liability और risk बढ़ाता है
      अब हर कोई हर चीज़ को AI data के नाम पर और ज़्यादा इकट्ठा करना चाहता है
    • data कोई physical वस्तु नहीं है, इसलिए सख़्ती से कहें तो इसे चुराया नहीं जाता
      इसे copy किया जा सकता है या delete किया जा सकता है, और कभी-कभी दोनों एक साथ भी हो सकते हैं
      data सचमुच तभी ग़ायब माना जा सकता है जब उसकी आख़िरी copy भी मिटा दी जाए
    • लेकिन companies यह सबक लगभग कभी नहीं सीखतीं
      enterprise threat model में उनके अपने users भी शामिल होते हैं, और operating model इस threat के जवाब में जितनी हो सके उतनी जानकारी जमा करते रहने की तरफ़ जाता है
    • जो data पहले से public है, उसके लिए leak या theft की अवधारणा लागू करना मुश्किल है
      उदाहरण के लिए Mozilla का Common Voice dataset ऐसी चीज़ नहीं है जिसे कोई चुरा ले
  • कल Houston में मैं कुछ पूर्व agency लोगों और GS15 पृष्ठभूमि वाले लोगों के पास था, और वहाँ यह समझाया गया कि Israeli cybersecurity पक्ष पिछले 20 सालों में कहीं voicemail supply chain में घुस गया और सबकी voicemail ले गया
    आजकल audio data का इस्तेमाल करने के इतने सारे तरीके हैं कि यह काफ़ी डरावना लगता है

  • तो क्या अब सबको अपनी आवाज़ बदल लेनी चाहिए
    मज़ाक अलग, लेकिन मेरी जानकारी में ज़्यादातर आम लोग biometrics बस क्योंकि यह आसान है इसलिए दे देते हैं
    biometrics को permanent password की तरह brand करना चाहिए, ताकि लोग समझें कि bank account access या Disney World entry के बदले वे असल में क्या दे रहे हैं

    • कार्यात्मक रूप से biometrics password से ज़्यादा username के क़रीब हैं
      fingerprint, DNA, iris, gait जैसी चीज़ें लगभग बदली न जा सकने वाली permanent identifiers हैं, और email address की तरह दुनिया के सामने बार-बार उजागर होती रहती हैं
      ऊपर से अमेरिकी कानून में पुलिस fingerprint देने के लिए मजबूर कर सकती है, लेकिन password को Fifth Amendment का संरक्षण मिलता है
    • जो लोग कहते हैं क्योंकि यह आसान है, उनका mindset ही अलग होता है
      वे सामाजिक भरोसे और plausible deniability के साथ काफ़ी सहज रहते हैं, और अगर गलती उनकी अपनी न हो तो आम तौर पर उन्हें नतीजों की ज़्यादा परवाह नहीं होती
      वे ख़ुद को risk में डालने और अपनी ज़िम्मेदारी बनने वाली बात को एक ही चीज़ नहीं मानते
      एक मायने में थोड़ी ईर्ष्या भी होती है। वे इस धारणा के साथ जीते हैं कि दुनिया ऐसी ही होनी चाहिए
    • जब मैं bank में काम करता था, तब forever passwords जैसा शब्द उल्टा सकारात्मक अर्थ में इस्तेमाल होता था
      मतलब यह कि customer इसे भूलेगा नहीं और support की ज़रूरत कम पड़ेगी, इसलिए बहुत से लोग इस phrase को अच्छी चीज़ मान सकते हैं
  • Mercor का 40,000 contractors को धोखा देना और data security को बुरी तरह संभालना सच में बहुत ख़राब है
    ऐसे मामलों में और कड़ी जवाबदेही होनी चाहिए

    • अभी जो हो रहा है वह यह है कि अनजान CTOs, जो इस company को पहले नहीं जानते थे, अब इसका नाम जान जाएँगे
      इसलिए यह भी संभव लगता है कि इस पूरे हंगामे का नतीजा उल्टा Mercor के additional business के रूप में निकले
      Crowdstrike के समय भी कुछ ऐसा ही देखा था
    • कम से कम अगर कोई voiceprint collect करता है, तो उस पर सामान्य training data की तुलना में कहीं ज़्यादा सख़्त consent, retention और security requirements होनी चाहिए
  • अगर attacker के पास किसी की साफ़ पढ़ी हुई 30-second voice clip और driving license scan हो, तो वह काफ़ी कुछ कर सकता है
    सिर्फ़ मेरे bank और brokerage को ही देख लें, वे voice ID इस्तेमाल करते हैं

  • ऐसा भी लगता है कि इस company का मक़सद ही ऐसा data निकालना है

    • privacy policy देखें तो यह और साफ़ हो जाता है
      video, audio वगैरह बहुत कुछ बड़े पैमाने पर collect किया जा रहा है
  • अगर यह सच है, तो बड़ा मसला शायद breach ख़ुद नहीं भी हो सकता
    हम चुपचाप ऐसी दुनिया में पहुँच रहे हैं जहाँ सिर्फ़ voice + ID से किसी की पूरी तरह नकल की जा सकती है, लेकिन ज़्यादातर systems अब भी उस हक़ीक़त को आधार मानकर design नहीं किए गए हैं

  • यहाँ एक असहज labor issue भी है
    जो लोग इन systems को label और train करते हैं, वही data pipeline के attack surface बन जाने पर सबसे कम सुरक्षित स्थिति में होते हैं