अपना AI मॉडल ट्रेन करना

(posthog.com)

1 पॉइंट द्वारा GN⁺ 2026-05-29 | 1 टिप्पणियां | WhatsApp पर शेयर करें

PostHog ने AI installation wizard, PostHog AI और MCP के बाद, अधिक सक्रिय और स्वायत्त उत्पाद बनाने के लिए आंतरिक डेटा पर मॉडल ट्रेन करने की कोशिश शुरू की है
मुख्य लक्ष्य PostHog Code है, जो ऐसे उत्पाद दिशा का समर्थन करता है जो उपयोगकर्ता की ओर से जवाब और समाधान ढूंढकर उन्हें लागू करे और समय के साथ बेहतर होता जाए
सेशन रिप्ले विश्लेषण, सिंथेटिक यूज़र टेस्टिंग और यूज़र व्यवहार पूर्वानुमान को बेहतर बनाकर समस्या पहचान की लागत कम करना और डिप्लॉयमेंट से पहले त्रुटियाँ व भ्रम वाले बिंदु ढूंढना इसका उद्देश्य है
ट्रेनिंग डेटा को anonymize किया जाएगा और केवल वही डेटा इस्तेमाल होगा जो पहले से PostHog instance में मौजूद है; इसे थर्ड-पार्टी मॉडल प्रोवाइडर्स को न बेचा जाएगा और न भेजा जाएगा
EU cloud और ट्रेनिंग-सीमित अनुबंध वाले ग्राहक डिफ़ॉल्ट रूप से बाहर रहेंगे, जबकि US cloud डिफ़ॉल्ट रूप से शामिल होगा; उपयोगकर्ता 29 जून से पहले opt out कर सकते हैं

PostHog की अपने AI मॉडल को ट्रेन करने की योजना

PostHog ने पिछले एक साल में AI installation wizard, PostHog AI और MCP जैसी AI सुविधाएँ अपने उत्पाद में जोड़ी हैं, और आगे चलकर वह और अधिक सक्रिय व स्वायत्त उत्पाद बनाना चाहता है
PostHog का अगला चरण ऐसे उत्पाद बनाने की दिशा है जो उपयोगकर्ता की ओर से जवाब और समाधान खोजें, उन्हें लागू करें और समय के साथ बेहतर होते जाएँ
अभी beta में मौजूद PostHog Code इस दिशा का मुख्य उत्पाद है, और इसे संभव बनाने के लिए PostHog अपने आंतरिक डेटा से मॉडल ट्रेन करना चाहता है

वे कौन-सी सुविधाएँ बनाना चाहते हैं

लक्ष्य है मौजूदा उत्पादों को अधिक स्मार्ट और सक्रिय बनाना, और PostHog Code जैसे नए उत्पादों के जरिए टीमों को बेहतर उत्पाद तेजी से बनाने में मदद करना
सेशन रिप्ले विश्लेषण
- PostHog AI पहले से रिप्ले में समस्याएँ पहचान सकता है, लेकिन इसकी लागत अधिक है, इसलिए बड़े पैमाने पर विस्तार के लिए यह उपयुक्त नहीं है
- यदि व्यक्तिगत यूज़र समस्याओं के निदान की तरह बड़े पैमाने पर भी रिप्ले का प्रभावी उपयोग करना है, तो रिप्ले बनाने वाले आधारभूत डेटा पर ट्रेन किया गया मॉडल चाहिए
सिंथेटिक यूज़र टेस्टिंग
- सिंथेटिक यूज़र टेस्टिंग का विचार यह है कि यूज़र व्यवहार के ज्ञान का उपयोग करके उन जगहों या फ्लो को production deployment से पहले खोजा जाए जहाँ उपयोगकर्ता भ्रमित हो सकते हैं या चीजें टूट सकती हैं
- जैसे-जैसे coding models बेहतर हो रहे हैं, testing और review का काम काफी बढ़ रहा है, और PostHog इस काम को automate करना चाहता है ताकि उपयोगकर्ता खुद उत्पाद पर ध्यान केंद्रित कर सकें
यूज़र व्यवहार पूर्वानुमान
- यदि यूज़र व्यवहार पूर्वानुमान बेहतर हो जाए, तो पहले से डिप्लॉय की गई सुविधाओं में भी conversion rate बढ़ाने और यूज़र शिकायतें घटाने वाले बदलाव सुझाए जा सकते हैं
- automation संभव होने पर manual analysis में लगने वाला समय घटेगा और इस प्रक्रिया में खर्च होने वाले tokens भी कम होंगे
- ये विचार अभी भी प्रयोगात्मक हैं, और मॉडल को प्रभावी ढंग से ट्रेन करने तथा वास्तव में उपयोगी डेटा खोजने के लिए कई बार दोहराव करना होगा
- PostHog इस प्रयास का आधार इस बात को मानता है कि जब AI ने उत्पादों को अधिक सरल या अधिक शक्तिशाली बनाया, तब अच्छे परिणाम मिले

यह कैसे काम करेगा और डेटा उपयोग के सिद्धांत

यह योजना मौजूदा सुविधाओं को अधिक शक्तिशाली बनाने और ऐसे फ़ीचर देने पर केंद्रित है जो उत्पाद को अधिक सक्रिय रूप से बेहतर करें
कई टूल्स सर्वोत्तम code देने पर केंद्रित होते हैं, लेकिन PostHog का ध्यान इस बात पर है कि उपयोगकर्ता का अपना उत्पाद बेहतर बने
इसी वजह से वह PostHog Code को product editor कहता है
मुख्य चिंता यह है कि PostHog में मौजूद डेटा को मॉडल ट्रेनिंग में इस्तेमाल किया जाएगा, और PostHog इसे terms update के भीतर छिपाने के बजाय खुलकर बताना चाहता है
डिफ़ॉल्ट लागू होने का तरीका
- EU cloud instances के उपयोगकर्ता डिफ़ॉल्ट रूप से बाहर रहेंगे
- जिन उपयोगकर्ताओं के पास BAA, MSA या ऐसे ही अनुबंध हैं जो ट्रेनिंग को रोकते हैं, वे भी डिफ़ॉल्ट रूप से बाहर रहेंगे
- इसके अलावा US cloud instances के उपयोगकर्ता डिफ़ॉल्ट रूप से शामिल होंगे
डेटा प्रोसेसिंग और सीमाएँ
- ट्रेनिंग में इस्तेमाल होने से पहले सभी डेटा को anonymize किया जाएगा
- केवल वही डेटा इस्तेमाल होगा जो उपयोगकर्ता के PostHog instance में पहले से मौजूद है
- मॉडल ट्रेनिंग सीधे PostHog द्वारा की जाएगी
- उपयोगकर्ता डेटा को किसी थर्ड-पार्टी मॉडल प्रोवाइडर को न बेचा जाएगा, न भेजा जाएगा
opt out
- उपयोगकर्ता कभी भी PostHog organization settings में जाकर opt out कर सकते हैं
- organization settings बदलने के लिए admin अधिकार चाहिए
- ट्रेनिंग 29 जून तक शुरू नहीं होगी, इसलिए उपयोगकर्ताओं के पास निर्णय लेने का समय है

संचार योजना

PostHog सभी ग्राहकों को एक ऐसा ईमेल भेजेगा जिसमें उद्देश्य स्पष्ट रूप से बताया जाएगा
जो उपयोगकर्ता ईमेल नहीं पढ़ते, उनके लिए in-app notification के जरिए भी सभी को सूचित किया जाएगा
यह योजना सार्वजनिक रूप से घोषित करने के तरीके से आगे बढ़ाई जा रही है
लक्ष्य ग्राहकों के लिए PostHog उत्पाद को बेहतर बनाना है, न कि उपयोगकर्ता डेटा पर ट्रेन किए गए मॉडल को उजागर करना, बेचना या डेटा से कमाई करना

opt in नहीं, opt out क्यों

डिफ़ॉल्ट opt in के बजाय डिफ़ॉल्ट शामिल, फिर opt out का विकल्प इसलिए चुना गया है क्योंकि अन्यथा इतना डेटा इकट्ठा नहीं होगा कि वास्तव में उपयोगी मॉडल ट्रेन किए जा सकें
यदि कोई opt out चुनता है, तो वह इन मॉडलों से बनाई गई नई सुविधाओं का उपयोग नहीं कर पाएगा
जो उपयोगकर्ता डिफ़ॉल्ट रूप से बाहर हैं, जैसे EU cloud instances, वे यदि PostHog के साथ उनके कानूनी अनुबंध इसकी अनुमति देते हों, तो मैन्युअली opt in कर सकते हैं
PostHog ने इसे चुपचाप रोल आउट करने के बजाय पहले से सार्वजनिक करने का तरीका चुना है
PostHog इस काम के लिए AI researcher की hiring भी कर रहा है

1 टिप्पणियां

GN⁺ 2026-05-29

Hacker News की राय

“डिफ़ॉल्ट opt-in” अपने आप में विरोधाभास है। अगर वह डिफ़ॉल्ट है, तो मैंने सहमति नहीं दी, वह बस डिफ़ॉल्ट रूप से चालू है
- यह बात भी खीज पैदा करती है। opt-in का मतलब है कि डिफ़ॉल्ट रूप से शामिल नहीं होते, और चाहें तो शामिल होने का चुनाव कर सकते हैं
  opt-out का मतलब है कि डिफ़ॉल्ट रूप से शामिल होते हैं, और चाहें तो बाहर निकल सकते हैं, लेकिन आजकल इसे उल्टा इस्तेमाल किया जा रहा है, इसलिए अब अतिरिक्त समझाना पड़ता है
  मैंने पहले एक पोस्ट देखी थी जिसमें सचमुच सही opt-in telemetry की बात थी, फिर भी शीर्ष टिप्पणी ने उसे “डिफ़ॉल्ट शामिल” समझकर हमला किया। अब तो लगता है यह शब्द लगभग उल्टा अर्थ भी रखने लगा है
- “डिफ़ॉल्ट opt-in” बस opt-out है। जो शब्द पहले से मौजूद है, वही इस्तेमाल कर लो
- आपको डिफ़ॉल्ट रूप से “सहमत” घोषित कर देना, क्या ही शानदार बात है
- सही बात है। मैं PostHog पर विचार कर रहा था, लेकिन ऐसी भाषा बहुत भ्रामक लगती है और इससे मन हट जाता है
- CEO टाइप लोग हमेशा चालाक शब्दों का खेल ही खेलते हैं
PostHog ऐसा सिस्टम था जिसे एक बार सेट कर दो, कभी-कभी देख लो, और थोड़ा-बहुत मूल्य मिल जाता था; इसे वैसे ही छोड़ देने पर भी ज़्यादातर नुकसान नहीं होता था
लेकिन अब यह एक और ऐसा टूल बन गया है जिस पर सक्रिय रूप से शक करना पड़ेगा, और अगर डिफ़ॉल्ट असहनीय दिशा में बढ़ते गए, तो इसे सिस्टम से हटाकर आगे बढ़ जाना ज़्यादा आसान है
- PostHog डेवलपर-फर्स्ट अप्रोच, अच्छे टूल और ठीक-ठाक प्राइसिंग की वजह से शानदार analytics solution था
  पिछले 20 साल में मैंने सफल कंपनियों को बढ़ते हुए बदल जाने के इस पैटर्न को इतनी बार देखा है कि अब गिन भी नहीं सकता। AI लहर में PostHog भी पूरी तरह कूद पड़ा है, और लगता है no-code tools जैसी चीज़ें भी तलाश रहा है
  Supabase भी शानदार था, लेकिन अब वह भी AI की गहराई में उतरता हुआ लगता है। शायद बदल न पाने वाला सिर्फ मैं ही हूँ, और समस्या मुझमें ही है, इसलिए शायद मुझे अपने नए AI शासकों को स्वीकार कर लेना चाहिए और सब कुछ AI की ओर ले जाना चाहिए
ज़्यादातर कंपनियाँ ऐसे बदलावों को किसी उबाऊ terms update में छिपा देतीं, लेकिन हम transparency को महत्व देते हैं, इसलिए आपको जो जानना चाहिए उसे इंटरनेट-फ्रेंडली numbered list में प्रकाशित कर रहे हैं
EU cloud instance उपयोगकर्ता डिफ़ॉल्ट रूप से बाहर हैं, और जिन उपयोगकर्ताओं के कॉन्ट्रैक्ट में training रोकने की शर्त है, वे भी बाहर हैं
इसके अलावा US cloud instance उपयोगकर्ता डिफ़ॉल्ट रूप से शामिल हैं
उनका कहना है कि training से पहले सारा डेटा anonymize किया जाएगा, सिर्फ वही डेटा इस्तेमाल होगा जो पहले से PostHog instance में है, और model training वे खुद करेंगे ताकि डेटा किसी third-party model provider को बेचा या भेजा न जाए
organization settings में कभी भी बाहर निकला जा सकता है, इसके लिए admin अधिकार चाहिए, और training 29 जून से पहले शुरू नहीं होगी, इसलिए निर्णय लेने के लिए पर्याप्त समय है
- “इसके अलावा US cloud instance उपयोगकर्ता डिफ़ॉल्ट रूप से शामिल हैं” — बहुत बढ़िया। मतलब कंपनी ही तय करेगी कि उपयोगकर्ता ने किस बात पर “सहमति” दी है, और उपयोगकर्ता की ओर से किसी इनपुट की ज़रूरत नहीं है
  तो मैं भी इस वीकेंड आपका समय अपनी टैरेस दोबारा बनाने में “स्वयंसेवा” के तौर पर लगा देता हूँ। चिंता मत कीजिए, मैंने आपकी तरफ़ से स्वेच्छा से नाम लिख दिया है
- अगर business model यह है कि “हमें पता है लोग खुद सहमति देंगे तो पर्याप्त डेटा नहीं मिलेगा, इसलिए हम सबको शामिल कर देंगे”, तो शायद अब दोबारा सोचने का समय है
- डिफ़ॉल्ट opt-in जैसी कोई चीज़ नहीं होती। ग्राहक goodwill को इस तरह जलाना वही कंपनी कर सकती है जिसकी market share बहुत बड़ी हो और जिसके ग्राहकों के लिए छोड़ना मुश्किल हो
  बेहतर होता कि सहमति देने वालों को discount दे देते
- “हम transparency को महत्व देते हैं” वाला बचाव काफ़ी खराब दिखता है। साफ़-साफ़ बताना अच्छी बात है, लेकिन मैं नहीं चाहता कि मेरा analytics system कोड लिखे
  इस काम में पहले से ही मुझसे बेहतर कई खिलाड़ी हैं, और मैं उनमें से किसी को PostHog analytics से जोड़ना ज़्यादा पसंद करूँगा
- “training से पहले सारे डेटा को anonymize किया जाएगा” में anonymization का मानदंड क्या है, यही अहम है। अगर GDPR वाला मानदंड है, तो वह दहलीज़ बहुत ऊँची है
  यह भी देखना होगा कि “इसके अलावा US cloud instance उपयोगकर्ता डिफ़ॉल्ट रूप से शामिल हैं” में EU end users भी आते हैं या नहीं। क्योंकि personal data सीधे data subjects से लिया गया है, इसलिए GDPR की Article 13 notice obligation लागू होगी
  Article 13 की कमी को बाद में retroactively ठीक नहीं किया जा सकता। यह दिखाना होगा कि सभी ग्राहकों ने इस processing को कवर करने वाली पर्याप्त Article 13 notice दी थी। और लगभग निश्चित है कि यह 3(2)(b) के दायरे में आएगा
यह मेरे लिए अपना analytics tool खुद बनाने और self-host करने की शानदार याद दिलाने वाली बात है। PostHog ने एक ग्राहक खो दिया
हर ग्राहक को ईमेल भेजकर पूछना आसान था कि वे यह चाहते हैं या नहीं, लेकिन ऐसी धारणा दिखाती है कि उन्हें न अपने ग्राहकों की, न ही ग्राहकों के ग्राहकों की, product sense है। अलविदा
- तंज नहीं कर रहा, लेकिन अपना analytics platform खुद “vibe coding” से बनाने के बजाय बस opt-out क्यों नहीं कर लेते, यह जानने की जिज्ञासा है
  मेरा डेटा AI training में इस्तेमाल होना असहज करता है, लेकिन मेरी मुख्य चिंता यह है कि डेटा कहाँ जा रहा है और क्या मुझे इसकी सूचना है और मैं इससे अवगत हूँ। PostHog यहाँ उन सवालों के ठीक-ठाक जवाब दे रहा है
पिछले कुछ महीनों से मैं migration को लेकर हिचक रहा था, लेकिन नए AI products और अजीब UI लगातार खटक रहे थे। यह आख़िरी कील है
मेरी नज़र में opt-in एक भयानक business model है
- सहमत। मौजूदा product से इसे उखाड़ फेंकने लायक मुझे यह अभी नहीं खलता, लेकिन नए product में मैं इसे कभी नहीं जोड़ूँगा
  मुझे याद है जब लोग “OS” web redesign की तारीफ़ कर रहे थे। debugging के लिए session replay खोजते समय वह सबसे उलझाऊ और अनावश्यक UX complexity थी। बाद में उन्होंने ऊपर दाईं ओर navigation जोड़ दी थी
“डिफ़ॉल्ट opt-in” आख़िर opt-out ही तो है, है न?
- opt का मतलब होता है चुनना या विकल्प लेना। ये लोग या तो अक्षम हैं, या जानबूझकर झूठ बोल रहे हैं
अब यह काफ़ी साफ़ हो गया है, लेकिन इन “SF-स्टाइल सनकीपन” वाली कंपनियों के बारे में कुछ कहना है
जैसे OS redesign, “सेक्सी legal documents”, अजीब subject line वाले ईमेल, या CEO action figure बेचने वाली merch shop
जब ये user-friendly कदम के रूप में adoption बढ़ाते हैं, तब यह फ़ायदा हो सकता है। लेकिन जब revenue growth के लिए उपयोगकर्ता-विरोधी फैसले लेने हों, तब यह अपमान पर अपमान जैसा लगता है
मैं यह व्यापक बात नहीं कह रहा कि टेक मज़ेदार नहीं होनी चाहिए, लेकिन जब messaging नेतृत्व के फैसलों से मेल नहीं खाती, तब समस्या बहुत बड़ी हो जाती है
- शुरुआत अच्छी थी। यह डेवलपर-ओरिएंटेड analytics tool था और प्रतिस्पर्धी products की तुलना में ताज़गी भरा लगता था
  लेकिन लगता है अच्छी चीज़ों का भी अंत होता है, खासकर अगर वह कोई कंपनी हो। पिछले 2 साल में यह पूरी तरह अजीब दिशा में चला गया, और AI ने सब कुछ और खराब कर दिया
  लगता है अब फिर से open source projects खंगालने पड़ेंगे
तर्क यह है: “opt-in की जगह opt-out क्यों? सीधी बात यह है कि वरना हमारे पास इतना डेटा नहीं होगा कि हम वास्तव में उपयोगी model train कर सकें”
अगर लोगों से सीधे कहा जाए कि वे एक और AI गैर-सेवा को अपना डेटा देने के लिए सहमति दें, और वे नहीं चाहते, तो उसका मतलब कुछ तो है — बड़ी अजीब बात है
अगर डेटा पाने का एकमात्र तरीका यह है कि “मान लो ले सकते हैं, और लोगों से कहो कि रोकना हो तो खुद आकर रोकें”, तो इसका क्या मतलब निकलता है, यह सोचने पर मजबूर करता है। शायद यह एक ऐसा रहस्य है जिसे कोई सुलझा ही नहीं सकता
यह खराब communication का सबक होना चाहिए। वे किस चीज़ पर training कर रहे हैं, इसे स्पष्ट न करना बड़ी गलती थी
इस घोषणा ने PostHog की शर्मनाक रूप से ज़रूरत से ज़्यादा उछलती brand philosophy की कमियों को पूरी तरह उजागर कर दिया
हर दिन EU regulation के लिए और आभार महसूस होता है। अभी कहने को बस यही है
- वह regulation अपने आप में नैतिक रूप से बचाव योग्य है। लेकिन पूरे सिस्टम को देखें तो एक दिलचस्प बात होती है
  EU कानून उस data extraction और platform lock-in रणनीतियों को रोकते हैं जिन्हें Big Tech ने पहले से monopoly बनाने में इस्तेमाल किया था
  लेकिन बड़े platforms को न तो पहले से हासिल बढ़त वापस करनी पड़ती है, न ही अब जिन तरीकों को सीमित या अवैध माना जा रहा है, उनके लिए कीमत चुकानी पड़ती है। इसलिए वे और लंबे समय तक जमी हुई स्थिति से चुपचाप rent निकाल सकते हैं, जबकि बाकी सभी को वह सीढ़ी इस्तेमाल करने से रोका जाता है जिससे वे ऊपर चढ़े थे
- 2008 के बाद के यूरोप और अमेरिका के आर्थिक विकास दर देखे बिना ही ऐसा महसूस हो सकता है

अपना AI मॉडल ट्रेन करना

PostHog की अपने AI मॉडल को ट्रेन करने की योजना

वे कौन-सी सुविधाएँ बनाना चाहते हैं

सेशन रिप्ले विश्लेषण

सिंथेटिक यूज़र टेस्टिंग

यूज़र व्यवहार पूर्वानुमान

यह कैसे काम करेगा और डेटा उपयोग के सिद्धांत

डिफ़ॉल्ट लागू होने का तरीका

डेटा प्रोसेसिंग और सीमाएँ

opt out

संचार योजना

opt in नहीं, opt out क्यों

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय