मैं visual novel पसंद करने वाला एक साधारण ओटाकू हूँ.
सुना है कि पहले EasyTrans या AralTrans का इस्तेमाल करके अनुवाद किया जाता था.
आजकल MORT का इस्तेमाल करके OCR translator चलाया जा सकता है,
लेकिन खुद इस्तेमाल करके देखा तो settings और features बहुत ज़्यादा और जटिल थे,
और सबसे बढ़कर, स्क्रीन recognition rate बहुत खराब था.
अनुवाद में भी DeepL translation API key न डालो तो बार-बार error आता था,
और आजकल local AI भी काफी बेहतर हो गया है, तो सोचा
अगर local OCR AI model और
local AI translation model जोड़ दें तो अच्छा नहीं होगा?
इसीलिए इसे बनाया.
बनाते-बनाते लगा कि speech recognition करके अनुवाद करने वाला feature भी जोड़ना अच्छा रहेगा,
और इस तरह scope धीरे-धीरे बड़ा होता गया,
तो मैंने एक ऐसा ऐप बनाया जो एक ही ऐप में स्क्रीन/वॉइस को पहचानकर अनुवाद करता है.
भाषा सिर्फ जापानी है (क्योंकि मूल उद्देश्य ही visual novel था...).
स्क्रीन recognition translation में
अस्थायी क्षेत्र को स्थायी क्षेत्र के रूप में रजिस्टर करने के बाद, बस translation बटन को क्लिक-क्लिक करना होता है, फिर अनुवाद होकर overlay में दिखाई देता है,
और वॉइस recognition में, पूरा audio file एक साथ ले आने पर script तैयार करके overlay पर दिखाने वाला तरीका है.

बनाने की प्रक्रिया आसान नहीं थी.
मैं मूल रूप से programming से बिल्कुल असंबंधित विषय में पढ़ा हूँ, और बिल्कुल असंबंधित नौकरी कर रहा हूँ,
और program के नाम पर बस हाई स्कूल की information class में DevC++ थोड़ी देर छुआ था, जहाँ if/while तक ही किया था.
मैं आप सबको दिखाना चाहता था कि GPT-5.5 से इस स्तर तक बनाया जा सकता है.
इस्तेमाल किए गए tokens की संख्या लगभग 72 करोड़ tokens है.
कृपया GN के सभी लोगों से ढेर सारा feedback चाहूँगा!

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.