1 पॉइंट द्वारा GN⁺ 2024-11-30 | 1 टिप्पणियां | WhatsApp पर शेयर करें

परिचय

  • यह प्रोजेक्ट machine learning और TensorFlow के ज्ञान को बेहतर बनाने के लिए एक learning experience के रूप में शुरू हुआ।
  • लक्ष्य ऐसा machine learning model बनाना था जो browser में 4Chan CAPTCHA को 80% से अधिक accuracy के साथ हल कर सके।

शब्दावली

  • CAPTCHA: यह जांचने के लिए एक टेस्ट कि कंप्यूटर या वेबसाइट उपयोगकर्ता इंसान है या नहीं।
  • 4Chan: एक anonymous imageboard वेबसाइट जो विभिन्न विषयों पर discussion board उपलब्ध कराती है।
  • सामान्य CAPTCHA: 4Chan CAPTCHA जो 5~6 alphanumeric characters से बना होता है।
  • Slider CAPTCHA: CAPTCHA का एक जटिल रूप जिसमें background image और foreground image एक-दूसरे पर ओवरलैप होती हैं।

डेटा संग्रह

  • machine learning समस्याओं में सबसे कठिन हिस्सा डेटा इकट्ठा करना होता है।
  • 4Chan से CAPTCHA scrape करना और उनके solution प्राप्त करना मुख्य चुनौती थी।

4Chan से CAPTCHA scrape करना

  • HTTP requests का विश्लेषण करके CAPTCHA डेटा को JSON format में निकालने का तरीका मिला।
  • CAPTCHA की कठिनाई को मैनेज करने के लिए requests के बीच अंतराल को नियंत्रित करना पड़ता था।

solution प्राप्त करना

  • commercial CAPTCHA-solving services का उपयोग किया गया, लेकिन accuracy कम थी।
  • खुद हल करने या किसी भरोसेमंद व्यक्ति से हल करवाने के तरीके भी आज़माए गए, लेकिन वे सीमित थे।

synthetic data बनाना

  • 4Chan CAPTCHA की नकल करके synthetic data बनाया गया।
  • background और characters को अलग करके synthetic CAPTCHA बनाने वाला एक algorithm विकसित किया गया।

model बनाना

  • model बनाने के लिए LSTM CNN architecture का उपयोग किया गया।
  • model को Keras और TensorFlow का उपयोग करके implement किया गया।

डेटा प्रोसेसिंग

  • सभी CAPTCHA images को 300x80 pixels में समायोजित करके model में input किया गया।
  • documentation के महत्व पर ज़ोर दिया गया और इस बात का ध्यान रखना पड़ा कि उसके details छूट न जाएँ।

model training

  • लगभग 500 manually created images और 50,000 synthetic images का उपयोग करके model को train किया गया।
  • training NVIDIA RTX A4000 GPU पर की गई।

TensorFlow.js में model का उपयोग

  • model को TensorFlow.js में convert किया गया ताकि उसे browser में चलाया जा सके।
  • Python 3.12 में conversion script काम नहीं करती।
  • Keras 3 models को TensorFlow.js में support नहीं मिलता।

वास्तविक प्रदर्शन

  • वास्तविक 4Chan CAPTCHA पर 90% से अधिक success rate दिखा।
  • 4-character CAPTCHA पर भी वही प्रदर्शन दिखा।

निष्कर्ष

  • इस प्रोजेक्ट के माध्यम से machine learning और computer vision के बारे में बहुत कुछ सीखा गया।
  • लक्ष्य हासिल हुआ और संतोषजनक परिणाम मिले।

1 टिप्पणियां

 
GN⁺ 2024-11-30
Hacker News राय
  • visualization data को parse करने के लिए JSON script का उपयोग करना एक जटिल काम है
    • 4chan ने email verification की मांग शुरू कर दी है
  • Keras और Tensorflow.js के बीच interoperability की समस्या, Tensorflow की एक सामान्य समस्या है
    • TF एक unified product से ज़्यादा संबंधित tools के collection जैसा लगता है
    • Google की लगभग सभी open source libraries/tools का भी ऐसा ही एहसास होता है
  • लोगों के distorted text-based CAPTCHA से बचने की एक वजह है
    • यह उस स्तर तक पहुंच चुका है जहां computer इसे इंसानों से बेहतर हल कर सकते हैं
    • इस विषय पर एक दिलचस्प paper है
  • हैरानी की बात है कि कई text-based CAPTCHA को कुछ lines की shell script से हल किया जा सकता है
    • imagemagik का उपयोग करके grayscale में बदलने के बाद teserract से process किया जा सकता है
  • 2captcha.net जैसी साइटें भी मौजूद हैं
    • CAPTCHA मूल रूप से सिर्फ़ न्यूनतम मेहनत की मांग जैसा है
  • यह सोचना दिलचस्प है कि क्या CAPTCHA का रूप देकर user behavior और timing का analysis करना बेहतर होगा
    • किसी AI को train करके यह तय कराया जा सकता है कि सामने वाला इंसान है या नहीं, यानी एक 'reverse Turing test' बनाया जा सकता है
  • Silk Road CAPTCHA पर 2014 का एक analysis मौजूद है
  • 4chan की सही प्रतिक्रिया इंसानी काम को सरल बनाना होगी
    • जटिल CAPTCHA इंसानों की असुविधा बढ़ाते हैं और machine द्वारा हल किए जाने की संभावना कम नहीं करते
  • संभव है कि 4chan CAPTCHA में characters का चयन इस तरह जानबूझकर किया गया हो कि नस्लवादी/चरमपंथी slogans बन सकें
    • कुछ खास characters बार-बार इस्तेमाल होते हैं
    • यह random दिखता है, लेकिन कुछ निश्चित patterns अक्सर सामने आते हैं
  • 4chan CAPTCHA को हल करने वाला एक project मौजूद है
  • 4chan इस्तेमाल करने की कोशिश की थी, लेकिन CAPTCHA पार नहीं कर पाया था
  • यह जानने की जिज्ञासा है कि क्या 4chan, Google CAPTCHA की तरह bot behavior detection करता है