1 पॉइंट द्वारा GN⁺ 2025-02-10 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • remarkable2 पर हस्तलिखित इनपुट को पहचानने, gestures या स्क्रीन के कंटेंट के आधार पर प्रतिक्रिया देने, और फिर स्क्रीन पर दोबारा लिखने का एक प्रयोग
    • हस्तलिपि और स्क्रीन इंटरैक्शन का अन्वेषण करने वाला प्रोजेक्ट

सेटअप/इंस्टॉलेशन

  • OPENAI_API_KEY जैसे environment variables सेट करने होंगे।
  • remarkable पर binary इंस्टॉल करके चलाना होगा।

उपयोग

  • remarkable पर ghostwriter शुरू करना होगा।
  • स्क्रीन पर ड्रॉ करें, और ऊपर दाईं ओर टैप करके assist features सक्रिय कर सकते हैं।
  • प्रोसेसिंग के दौरान बिंदु बनते हैं, और typed या drawn response देखे जा सकते हैं।

स्थिति / लॉग

  • 2024-10-06: बुनियादी proof of concept पूरा। स्क्रीन पर दोबारा ड्रॉ करने की सुविधा ठीक से काम नहीं कर रही।
  • 2024-10-07: बुनियादी gestures और status display लागू।
  • 2024-10-10: virtual keyboard सेटअप शुरू।
  • 2024-10-20: text output और अन्य modes जोड़े गए।
  • 2024-10-21: binary release build पूरा।
  • 2024-10-23: code refactoring और नए Anthropic models के टेस्ट की योजना।
  • 2024-11-02: tool provisioning में बदलाव।
  • 2024-11-07: Claude/Anthropic जोड़ा गया।
  • 2024-11-22: evaluation system का स्केच शुरू।
  • 2024-12-02: बुनियादी image segmentation step जोड़ा गया।
  • 2024-12-15: engine integration।
  • 2024-12-18: system upgrade समस्याओं का समाधान।
  • 2024-12-19: local network VLM mode का प्रयास।
  • 2024-12-22: evaluation system बनाना शुरू।
  • 2024-12-25: CLI को सरल और विस्तारित किया गया।
  • 2024-12-28: usability में सुधार।

आइडिया

  • gestures या कंटेंट से request trigger करना।
  • screenshot को vision model में देना, और परिणाम स्क्रीन पर आउटपुट करना।
  • keyboard events भेजे जा सकते हैं।
  • बुनियादी evaluation system बनाना।
  • prompt library विकसित करना।
  • शुरुआती सेटअप को automate करना।
  • diagram generation फीचर जोड़ना।
  • बाहरी जानकारी खोजने और भेजने की सुविधा जोड़ना।
  • conversation mode लागू करना।
  • network local VLM के उपयोग का प्रयास।

संदर्भ सामग्री

  • Awesome reMarkable से संसाधनों का उपयोग।
  • reSnap से screen capture तकनीक लागू।
  • rmkit lamp से स्क्रीन ड्रॉइंग की प्रेरणा मिली।
  • resvg से SVG को png में बदलना।
  • rM-input-devices से keyboard input device बनाना।
  • reMarkableAI में OCR→OpenAI→PDF→Device प्रोसेस मिला।
  • rMAI एक अलग ऐप है जो model API service के लिए replicate का उपयोग करता है।
  • Crazy Cow टेक्स्ट को pen strokes में बदलने का एक टूल है।

1 टिप्पणियां

 
GN⁺ 2025-02-10
Hacker News राय
  • मैं इस प्रोजेक्ट का लेखक हूँ। प्रोजेक्ट लगातार जारी है, और सबसे बड़ी insight visual model की spatial understanding की सीमाएँ हैं

    • बुनियादी evaluation के उदाहरण https://github.com/awwaiid/ghostwriter/blob/main/evaluation_results/2024-12-29_21-05-47/results.md में देखे जा सकते हैं
    • अगला लक्ष्य इसे yaml+shellscript agent framework/tool के रूप में बनाना और extraction जारी रखना है
    • spatial understanding के लिए pre-segmentation या अन्य तरीकों की खोज जारी रखना है
    • बहुत सारे points की जगह असली pen strokes भेजने वाला reSvg backend लिखना है
  • यह वाकई शानदार है। लोगों को reMarkable tablet के लिए app hack करते देखना अच्छा लगता है

    • मैंने भी reMarkable के लिए एक छोटा app बनाया था, और कुछ समय पहले इसे यहाँ साझा किया था: https://digest.ferrucc.io/
  • काश reMarkable tablet इतना locked down न होता

    • यह मेरे पसंदीदा hardware में से एक है, और काश इसके लिए और apps होते
  • शानदार

    • मैं कई महीनों से इसे implement करने की कोशिश करना चाहता था। बहुत बढ़िया काम किया
  • यह सच में शानदार है। मैं इसे इस weekend आज़माऊँगा

    • मैं इस विचार के साथ खेल रहा था कि PDF को email किया जाए, LLM को भेजा जाए, और जब मैं to-do items लिखूँ तो वह अपने आप tasks बना दे
    • यह प्रोजेक्ट real time में उस लक्ष्य तक पहुँचने का एक बेहतर रास्ता खोलता है
  • PDF document readers के लिए, मैं सोच रहा हूँ कि क्या reMarkable का 11-inch size पर्याप्त है

    • मेरे पास 13-inch Sony DPT 2nd gen version है, और viewing experience बिल्कुल perfect है
    • लेकिन ऐसे प्रोजेक्ट लगातार मुझे reMarkable products की ओर खींचते हैं
  • मुझे यह प्रोजेक्ट बहुत पसंद है। एक vector diffusion model है; अगर model यह तय करे कि उसे कुछ draw करना है, तो क्या उसे tool call के ज़रिए outsource करना दिलचस्प होगा?

    • फिर coordinate range और prompt निर्दिष्ट किए जा सकते हैं
  • handwriting input और LLM को मिलाने वाला यह use case बेहतरीन है

    • मैं जानना चाहता हूँ कि यह बिखरी हुई handwriting को कितना अच्छी तरह संभालता है, और क्या personal notes पर fine-tuning समय के साथ recognition को बेहतर बना सकती है
  • मेरे पास एक boox tablet (पूरा Android tablet और eink screen) है, और यह उसके लिए एकदम सही होगा

    • मैं सोचता हूँ कि क्या 5 साल में mobile hardware इसे local पर support कर पाएगा
  • Android-आधारित Onyx Boox e-reader पर इस प्रोजेक्ट का क्या होगा?

    • क्या यह संभव होगा?