LLaVaVision - llama.cpp/llava से बना "Be My Eyes" वेबऐप
(github.com/lxe)- दृष्टिबाधित लोगों के लिए स्वयंसेवकों से जोड़कर स्क्रीन पढ़कर सुनाने वाली "Be My Eyes" सेवा जैसा समाधान AI से लागू किया गया है
- मल्टीमॉडल बैकएंड के जरिए वीडियो देखकर यह रीयल-टाइम में बताने वाला वेबऐप है कि उसमें क्या है
- ओपन सोर्स मल्टीमॉडल मॉडल SkunkworksAI के BakLLaVA-1 मॉडल को llama.cpp पर चलाया जाता है और आवाज़ Web Speech API से आउटपुट की जाती है
4 टिप्पणियां
वाह, ऐसी चीज़ें देखकर इंजीनियर होने पर गर्व महसूस होता है। लगता है यह दृष्टिबाधित लोगों के लिए सच में बहुत मददगार होगा।
YouTuber One Shot Hansol ने इस्तेमाल किया हुआ 'Sullivan Plus' नाम का एक ऐप भी है.
लगता है कि यह सिर्फ text recognition ही नहीं, बल्कि वस्तुओं की विशेषताओं को भी समझ लेता है.
https://youtu.be/EAKGU-uW6Ek
https://www.mysullivan.org/
Be My Eyes - दृष्टिबाधित लोगों को दृष्टि दें
MS का image captioning AI अब इंसानों की तरह तस्वीरों का वर्णन करने लगा है
ऐसी ख़बर सुनकर बहुत खुशी हुई, हा हा। मेरी बेटी दृष्टिबाधित है।