बॉट, बहुत सारे बॉट

(wakatime.com)

1 पॉइंट द्वारा GN⁺ 2024-10-02 | 1 टिप्पणियां | WhatsApp पर शेयर करें

ProductHunt 10 लाख से ज़्यादा subscribers वाला product launch platform है, लेकिन public data analysis में 60% से ज़्यादा subscribers को automated bot accounts के रूप में classify किया गया
Product description में LLM prompt injection डालकर खुद launch करने पर लगभग सभी comments automated निकले, और हाल के comments का बड़ा हिस्सा भी ChatGPT द्वारा बनाए गए जैसा दिखा
Bot है या नहीं, यह public data से पक्का कहना मुश्किल है, इसलिए activity period, upvote patterns, दूसरे bots के साथ overlap, और comment content को मिलाकर risk score से पहचान की गई
2018 के बाद से bot signups ने real user signups को पीछे छोड़ दिया, और 2022 में bot upvotes real upvotes से आगे निकल गए, जिससे voting rings के rankings को प्रभावित करने की संभावना बढ़ गई
ProductHunt launch अब भी exposure का मौका दे सकता है, लेकिन comments का जवाब देने और SEO effect की उम्मीद करने के बजाय कम तैयारी करना और ज़्यादा समय न लगाना अधिक practical है

ProductHunt पर दिखी bot activity

ProductHunt 2014 की शुरुआत से latest tech product launches देखने, comments के जरिए similar tools खोजने, या अपने product feedback जुटाने में उपयोगी रहा है
हाल में product comments में से ज़्यादातर ChatGPT-generated comments जैसे दिखे, इसलिए product description में एक simple LLM prompt injection डालकर खुद launch करके देखा गया
Launch के बाद लगभग सभी comments automated निकले, जिससे यह सवाल बढ़ा कि ProductHunt launchers के लिए comments का जवाब देना समय की बर्बादी हो सकता है
पैसे लेकर upvotes देने की emails लगातार आती रहती हैं, और Reddit पर ProductHunt upvotes दो बार खरीदने का एक उदाहरण भी है

Analysis में इस्तेमाल public data

Publicly accessible ProductHunt users, launches, upvotes, और comments lists का analysis किया गया
Data scale इस प्रकार है
- User signups: 10 लाख से ज़्यादा
- Launches: 3 लाख से ज़्यादा
- Comments: 25 लाख
- Upvotes: 2 करोड़
हर product के पास launch date के आधार पर PDT midnight से 24 घंटे बाद का score, यानी daily rank, होता है
- 1st place daily rank 1 होता है
- कुछ products का rank null होता है, जिसकी वजह deletion, reporting, या unlaunched status हो सकती है

Bot accounts पहचानने का तरीका

केवल public data से bot detection मुश्किल है, इसलिए कोई एक criterion पर्याप्त नहीं था
शुरुआत में user comment time zones का analysis करके trends खोजने की कोशिश की गई
- एक user ने 677 days की membership, 2,009 comments, और 4,649 upvotes दर्ज किए, जिससे वह automation इस्तेमाल करने वाला power user लगा, लेकिन उसे bot classify नहीं किया गया
- दूसरे user ने 140 days की membership, 173 comments, और 246 upvotes दर्ज किए; comment intervals regular थे और chart smooth नहीं बल्कि box-shaped दिखा
अंततः कई signals को जोड़कर हर user को risk score दिया गया
- Account activity period
- समय के साथ upvote patterns
- दूसरे bots के साथ shared upvotes की संख्या
- Comment content
ChatGPT-generated comments में game-changer जैसे शब्द ज़्यादा बार दिखते हैं
Bot comments में आम तौर पर type करना मुश्किल em-dash जैसे characters, या बहुत लंबे या ™ वाले product names को ज्यों का त्यों डालने के मामले थे
कुछ bot accounts ने real लोगों के LinkedIn names और bios को ज्यों का त्यों इस्तेमाल किया, लेकिन उन लोगों ने जवाब दिया कि उन्होंने ProductHunt account कभी बनाया ही नहीं
Clustering कुछ हद तक effective थी, लेकिन कई bot accounts इस्तेमाल के बाद छोड़ दिए जाते हैं, इसलिए अक्सर कई random votes में से सिर्फ एक vote ही दूसरे bots से overlap करता है
- cupy और cudf में GPU पर जरूरी methods implemented नहीं थे, इसलिए clustering केवल छोटे datasets पर चलाई गई
- अधिक experience वाला कोई व्यक्ति approach करे तो bot detection बेहतर हो सकता है
Analysis के नतीजे में user signups के 60% से ज़्यादा automated bot accounts के रूप में detect हुए
- यह conservative number है क्योंकि सभी bots पकड़े नहीं गए
- ProductHunt internal data हो तो bot activity को और सटीक ढंग से खोजना आसान होगा

समय के साथ bot activity में बदलाव

User signups
- 2018 के बाद से real users की तुलना में ज़्यादा bot users बनाए गए
Comments
- 2022 के अंत से bot comments काफी बढ़ गए
- यह समय ChatGPT के widely available होने के समय जैसा है
- 2024 की तेज़ बढ़ोतरी की वजह यह हो सकती है कि समय के साथ bot accounts delete हो जाते हैं
- Latest accounts के अभी delete न हुए होने की संभावना ज़्यादा है, इसलिए comments तक access आसान है
Upvotes
- 2022 में bot upvotes real user upvotes से आगे निकल गए
- Bots ने ProductHunt newsletter में आने की संभावना बढ़ाने के लिए voting rings बनाए
Rankings
- ज़्यादातर launches को real upvotes केवल कुछ ही मिलते हैं
- Bots random तरीके से vote करके खुद को mix हुआ दिखाने की कोशिश करते हैं, इसलिए bot upvote trendline real user upvote trendline से ज़्यादा smooth है

Daily rank और bot upvotes का संबंध

ProductHunt पर 1st place launch को daily और weekly newsletters में feature किया जाता है
1st place पाने के लिए 15% bot votes safe level जैसा दिखा
जिन launches में bot votes 60% से ज़्यादा हैं, वे किसी कारण से 1st place पर नहीं पहुंचते दिखे
2020 के बाद के launches ही देखें तो हाल के top posts में bots upvotes का बड़ा हिस्सा रखते हैं
Upvotes खरीदने वाले launches high-quality products न होने की संभावना रखते हैं, इसलिए वे 1st place के बजाय अक्सर top 5 में ही रहते हैं, ऐसा माना गया

ProductHunt launch की वास्तविक उपयोगिता

Comments और upvotes में से ज़्यादातर bots हों, फिर भी ProductHunt पर कुछ real users अब भी हो सकते हैं
Bots को पैसे देकर newsletter में feature होने पर ज़्यादा real लोगों के product देखने की संभावना हो सकती है
ProductHunt launch का backlink SEO effect नहीं है
- Google backlink के रूप में count करे, इसके लिए product की ओर जाने वाले a link element में nofollow नहीं होना चाहिए
- ProductHunt के product links में nofollow शामिल होता है, इसलिए search engines इसे backlink के रूप में count नहीं करते
- अगर product में केवल एक link enter किया जाए, तो वह real link नहीं बल्कि JavaScript से product page खोलने वाला button element होता है
- दूसरे aggregation sites launch को उठा कर link कर सकते हैं, लेकिन ProductHunt खुद backlink के रूप में count नहीं होता
Investors में कुछ groups ProductHunt #1 badge को important मानते हैं, इसलिए investors से बात करते समय यह मददगार हो सकता है
कुल मिलाकर ProductHunt launch try करने लायक है, लेकिन launch preparation में कुछ minutes से ज़्यादा न लगाना और comments के जवाब देने में समय बर्बाद न करना बेहतर है

बाकी analysis और related projects

Bot votes हटाने पर उस दिन का 1st place launch बदलता है या नहीं, यह देखने के लिए bot votes के बिना launches की list बनाना चाहा गया
जिन launches ने असल में पैसा नहीं दिया लेकिन bot upvotes ज़्यादा हैं, उन्हें point out नहीं करना चाहते, और paid launches को additional promotion भी नहीं देना चाहते, इसलिए वह analysis future post के लिए टाल दिया गया
Related discussion HN पर है
ProductHunt समस्या को सुधारने की कोशिश के रूप में wonderful.dev और wonderful.dev/alan भी साथ में紹介 किए गए

1 टिप्पणियां

GN⁺ 2024-10-02

Hacker News की टिप्पणियां

सोचता हूं कि ProductHunt कोई CAPTCHA solution इस्तेमाल करता भी है या नहीं
CAPTCHA को आम तौर पर बहुत आलोचना झेलनी पड़ती है, लेकिन ऐसे ज्यादातर spam attacks रोकने में मुझे अभी भी इसकी बड़ी वैल्यू दिखती है। Usability, accessibility और privacy की समस्याएं पिछले कुछ सालों में ऐसे तरीकों से बेहतर हुई हैं जो user input के बिना काम करते हैं और privacy भी बचाते हैं। और advanced bots इसे bypass कर सकते हैं—इस आलोचना के बावजूद, कम-effort वाले bots रोकने के लिए traditional techniques अब भी काफी उपयोगी हैं। असली इंसानों का इस्तेमाल करने वाले attacks के लिए CAPTCHA शुरू से ही सही उपाय नहीं है, इसलिए site को अलग defense रखना होगा, लेकिन मुझे नहीं लगता कि आज दिखने वाले spam का मुख्य कारण वही है
- इन दिनों मैं सोच रहा हूं कि क्या इंसान होने की ज्यादा संभावना साबित करने वाला, एक तरह का stake वाला system बनाया जा सकता है
  उदाहरण के लिए, किसी “prover” site पर आप अपनी पसंद की charity को एक बार $5 donate करें, तो आपको पैसे खर्च करने का proof token मिले; HN जैसी partner sites उस token को burn करके account को इंसान होने की ज्यादा संभावना वाला, या कम-से-कम ऐसा bot जिसके block होने पर owner को नुकसान हो, के रूप में mark कर सकें। यह कई national ID lookup systems से कहीं ज्यादा privacy-friendly होगा, और भले ही यह “बोलने का अधिकार पैसे से खरीदना” जैसा लगे, free systems में लगने वाले समय, travel cost और paperwork से असल में सस्ता हो सकता है। बड़ी समस्याएं शायद stolen cards से token खरीदने वाले fraudulent payments, पैसा लेकर गायब हो जाने वाली prover sites, proof tokens को चुपके से collect करने वाली destination sites, और कई donation sites व account sites द्वारा अलग-अलग tokens पर भरोसा करने की decentralized handling होंगी
- CAPTCHA solve कराने वाली services की industry पहले से मौजूद है, और ज्यादातर सस्ती labor वाले इलाकों के इंसानों का इस्तेमाल करती है
  एक popular service में प्रति reCAPTCHA $0.001–$0.002 के आसपास खर्च आता है, इसलिए इसे इस्तेमाल करने के लिए ज्यादा technical skill भी नहीं चाहिए। अगर हर comment के लिए CAPTCHA जरूरी हो, तब भी सालाना करीब $50 में रोज 100 comments के साथ एक site पर spam किया जा सकता है। Average script kiddie शायद filter हो जाए, लेकिन अगर spam से पैसा कमाया जा सकता है तो आसानी से profit बचेगा। ऐसी services को “edge case” कहना मुश्किल है
- Website operators data को public रखना चाहते हैं, लेकिन copy करने नहीं देना चाहते
  यह काम न करने वाले DRM जैसा intrinsic contradiction है। Web developers भी MBs के JavaScript और जरूरत से ज्यादा जटिल design से sites को बहुत फुला देते हैं; इसके बजाय static site और CDN इस्तेमाल करना कहीं सस्ता हो सकता है
- लगभग perfect solution है हर submission की manual review
  Automated system को spam की first line of defense बनाइए, और जो submissions pass हों उन्हें इंसानों को hire करके एक-एक कर check कराइए। इंसान द्वारा पोस्ट की गई चीजों में भी इस process से एक तय quality standard सुनिश्चित किया जा सकता है। Initial spam filter में फंस गए legitimate submissions email आदि से appeal करके manual review queue में डाले जा सकते हैं। यह आसान नहीं है और publish होने में समय लग सकता है, लेकिन spam और low-quality content लगभग 0 के करीब लाए जा सकते हैं
- VPN इस्तेमाल करने की वजह से मुझे पहले ही अक्सर CAPTCHA झेलना पड़ता है, इसलिए उम्मीद है यह और न बढ़े
  सोचना चाहिए कि इन चीजों में कितना human time बर्बाद हुआ है
करीब 5 साल पहले जब मैंने ProductHunt पर product launch किया था, तब भी #1 rank guarantee वाली promotion offers दर्जनों मिली थीं
पोस्ट करने के literally एक घंटे के अंदर messages की बाढ़ आ गई थी, और अब शायद हालत और खराब होगी
Users bot हैं या नहीं, इसे verify करने का कोई तरीका न रखने वाली arbitrary classification से analysis शुरू करना समस्या है
अगर वह classification गलत है, तो पूरी analysis गलत है। खासकर “2022 के अंत में ChatGPT के widely used होने के आसपास bot comments अचानक बढ़े” वाला हिस्सा ध्यान खींचता है, क्योंकि classification criteria में से एक है कि “ChatGPT-generated comments में game-changer जैसे words की frequency ज्यादा होती है, em dash या ™ जैसे type करने में मुश्किल characters होते हैं, और लंबे product names जस के तस शामिल होते हैं।” यानी जो ChatGPT जैसा behave करे उसे bot classify कर दिया, और फिर ChatGPT launch के बाद ऐसे users बढ़े तो उसे दिलचस्प discovery की तरह देखा। इससे पहले भी bots बहुत रहे होंगे, लेकिन वे अलग software इस्तेमाल करके अलग तरह behave करते थे, इसलिए शायद detect नहीं हुए
- बात सही है, लेकिन अगर ChatGPT इस्तेमाल करने वाले bots की classification accurate है, तो ChatGPT-generated comments का सचमुच तेजी से बढ़ना अपने-आप में noteworthy है
  और अगर classification सही है, तो ChatGPT न इस्तेमाल करने वाले bots समेत total bot count को undercount कर रहे हों, तब भी यह महत्वपूर्ण है कि bot-generated comments actual human comments से बहुत आगे निकल गए। बेशक, जैसा कहा गया, इसमें काफी “अगर” हैं, और premise गिरता है तो conclusion भी गिरता है
- लेख prompt injection test से शुरू होता है, और premises के साथ evidence दिया गया है
  अगर ऐसा नहीं है तो alternative classification method पेश करनी चाहिए; नहीं तो यह malicious लगता है और helpful नहीं है
- ऐसी statistical method यह तय करने में accurate हो सकती है कि comment section bots से भरा है या नहीं, लेकिन किसी एक individual comment को bot बताने में यह काफी कम accurate होती है
ProductHunt पर असल में कौन लोग हैं, यही core question है
Customers? शक है। Indie hackers? संभव है। हमें सोचना चाहिए कि हम किसे बेच रहे हैं, और शुरुआत में ही PH पर launch करने का मतलब है भी या नहीं
- बहुत अच्छा point है
  PH पर launch करके उस दिन #1 और उस हफ्ते #1 हुए, लेकिन नए customers लगभग नहीं बढ़े; इसके बजाय investors से काफी inbound मिला। अगर fundraising कर रहे हों तो value है, लेकिन नहीं तो वहां जाना चाहिए जहां customers हैं। हमारे customers PH users नहीं थे
Analysis शानदार है, लेकिन ProductHunt का “real” website होना ही उल्टा ज्यादा हैरान करता है
मैंने काफी पहले ublacklist से PH को block कर दिया था, क्योंकि यह SEO promotion/कचरे जैसा दिखता था और उन “VS/comparison/best 5 apps” type sites से बहुत मिलता-जुलता था जिनमें content लगभग नहीं होता। ऐसी sites हाथ से filter करने की speed से भी तेजी से पैदा होती रहती हैं। दोबारा check करके यह जानने के बाद भी कि यह purely generated content नहीं है, अगर search results में अचानक मिल जाए तो भी मुझे इसका value proposition समझ नहीं आएगा
- मैं कई companies को जानता हूं जो PH पर अच्छी ranking को काफी important मानती हैं, लेकिन reaction वही था
  क्या actual end users या companies सच में इस जगह की परवाह करते हैं?
Bots और humans का trend थोड़ा unsettling है
Detected humans समय के साथ votes और comments कम करते दिखते हैं, जबकि bots उल्टा बढ़ रहे हैं। क्या यह dead internet theory के सही होने का एक और संकेत है?
- DIT का नाम गलत रखा गया है
  यह अभी हुआ नहीं है, लेकिन future में सच होगा—इस अर्थ में dead internet prophecy बेहतर expression होता
- इसी से जुड़ा, HN पर actual humans 6 घंटे में 5 comments तक limited हैं, लेकिन malicious actors सैकड़ों accounts बनाकर इस limit से बच सकते हैं
पहले वेबसाइटों पर वोट करने वाला Web of Trust (WOT) हुआ करता था
क्या इंसानों के लिए बना trust web बॉट से बचाव में मदद कर सकता है? अगर मेरे पास दर्जन भर ऐसे accounts हों जो यह गारंटी दे सकें कि मैं सचमुच इंसान हूं, और दूसरे लोग भी मुझे वोट कर सकें, तो एक trust network बनाया जा सकता है। बेशक seed की जरूरत होगी, लेकिन verified accounts या social media connections और interactions से इसे अपेक्षाकृत आसानी से बनाया जा सकता है। X और Meta को शायद काफी भरोसे से पता होगा कि कौन-से accounts bot हैं, लेकिन वे इस जानकारी को service के रूप में देने में रुचि नहीं रखते दिखते
- AI लगातार बेहतर होता रहेगा
  ऐसा AI आने में ज्यादा समय नहीं है जिसका मकसद ऐसी online presence बनाना हो जिससे लगे कि पीछे कोई असली इंसान है। नकली व्यक्ति सामान्य गतिविधियां करते हुए generated videos भी डाल सकता है। आखिरकार Web of Trust, proofs, और agent reputation scores की जरूरत पड़ेगी, जिसमें real world की आमने-सामने interactions, सरकार का कुछ समर्थन, और footage तथा metadata को authenticate कर सकने वाले cameras जैसी चीजें शामिल करनी होंगी। जो लोग content consume करते हुए उसकी authenticity जांचना चाहते हैं, उन्हें इस व्यवस्था में शामिल होना पड़ेगा या मौजूदा media पर टिके रहना पड़ेगा, और कुछ देश ऐसे कानून बना सकते हैं जो नागरिकों को सच्ची news consume करने में मदद करें। हालांकि मुझे नहीं लगता कि सामने वाले की identity सच में जाने बिना काफी मजबूत trust network बनाने का कोई तरीका है। इसलिए यह trust network criminals और governments द्वारा targets ढूंढने के लिए भी इस्तेमाल होगा। AI को इंसान बनकर पेश आने देने की सामाजिक लागत इतनी बड़ी है कि इसे प्रतिबंधित करने वाला कानून valuable हो सकता है
- आखिर में याद रखना चाहिए कि ग्राहक आप नहीं हैं, कोई advertiser ग्राहक है
  ज्यादा ads बेचने के लिए user count को बढ़ा-चढ़ाकर दिखाना ही इन services का मुख्य function है
- ऐसी व्यवस्था national convenience के उद्देश्यों के हिसाब से बहा दी जाएगी और विकृत कर दी जाएगी
Reddit पर मेरी कुछ posts हैं जिन पर comments ज्यादा नहीं हैं, लेकिन लगभग हर हफ्ते कोई GPT-based bot आकर “वाह! यह सच में सोचने लायक है, मुझे जानना है कि यह क्यों महत्वपूर्ण है” जैसे बहुत ही स्पष्ट सवाल छोड़ जाता है
यह मुझे ऐसा लगता है जैसे मुझे system में और data feed कराने की कोशिश हो। अगर Reddit खुद engagement बढ़ाने के लिए ऐसे bots चला रहा हो, तो मुझे हैरानी नहीं होगी
- Reddit का इतिहास देख लीजिए
  bots संभव होने से पहले, इंसान सीधे manage किए गए fake accounts से curation करते थे, और अब जब bots संभव हो गए हैं, तो मेरा मजबूत विश्वास है कि popular subreddits के comments और posts में से ज्यादातर bots हैं। उनमें से काफी Reddit खुद चला रहा है, ऐसा मुझे लगता है

बॉट, बहुत सारे बॉट

ProductHunt पर दिखी bot activity

Analysis में इस्तेमाल public data

Bot accounts पहचानने का तरीका

समय के साथ bot activity में बदलाव

User signups

Comments

Upvotes

Rankings

Daily rank और bot upvotes का संबंध

ProductHunt launch की वास्तविक उपयोगिता

बाकी analysis और related projects

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की टिप्पणियां