Issen (YC F24), व्यक्तिगत AI भाषा ट्यूटर लॉन्च

(news.ycombinator.com)

2 पॉइंट द्वारा GN⁺ 2025-06-28 | 1 टिप्पणियां | WhatsApp पर शेयर करें

यह एक ऐसा ऐप है जो विदेशी भाषा सीखने में सबसे कमी रहने वाले वास्तविक speaking practice को AI voice tutor से बदलकर, scheduling coordination और tutor खोजने की लागत कम करना चाहता है
इसकी शुरुआत उस अनुभव से हुई जिसमें Japanese और French speaking practice tools ढूँढ़ना मुश्किल था, और मानव tutors की प्रति घंटा लागत व booking का बोझ मुख्य समस्या माना गया
इसकी अपनी voice AI pipeline STT, TTS, LLM, long-term memory, interruption, turn-taking को जोड़ती है और Gemini Flash, Whisper, Scribe, GPT-4o-transcribe का उपयोग कर recognition errors घटाती है
gamification की बजाय immersive conversation पर फोकस है, और AI voice chat में सीखे नए शब्दों को wordbook और SRS flashcards से जोड़ा जाता है
यह web, iOS, Android पर उपलब्ध है और 20 मिनट का free trial देता है; कीमत अवधि और क्षेत्र के अनुसार प्रति माह 20~29 डॉलर है

Issen जिस भाषा-सीखने के अनुभव को लक्ष्य बना रहा है

Issen एक voice tutor app है जिसे इस तरह डिज़ाइन किया गया है कि विदेशी भाषा सीखने वाले तुरंत बोलना शुरू करें और target language में डूब सकें
मानव tutor प्रभावी हो सकते हैं, लेकिन प्रति घंटा शुल्क, scheduling coordination, और सही tutor खोजने तक की search cost बोझ बनती है
लक्ष्य छोटे quiz या score से अधिक, यथार्थपूर्ण पूरी बातचीत के ज़रिये वास्तविक speaking skill बढ़ाना है
gamification पर बहुत अधिक ध्यान नहीं है
- उनका मानना है कि ऐप के भीतर लंबा streak बनाए रखना या ऊँचा score पाना, ज़रूरी नहीं कि वास्तविक fluency में बदले

voice AI pipeline और learning features

ऐप अपनी voice AI pipeline से बातचीत को process करता है
- यह STT, TTS, LLM, long-term memory, interruption, turn-taking आदि को जोड़ता है
- सीखने वालों के accent, कई भाषाओं के मिले-जुले वाक्य, और noisy environment में STT accuracy बनाए रखना मुश्किल होता है
- conversation flow बनाए रखने के लिए Gemini Flash, Whisper, Scribe, GPT-4o-transcribe का साथ में उपयोग किया जाता है
AI voice chat में सीखे गए नए शब्द wordbook और SRS flashcards से जुड़े होते हैं
- इनका उपयोग vocabulary और speaking skill को तेज़ी से सुधारने में होता है
हर छात्र के goals, interests, और preferences के अनुसार custom curriculum बनाया जाता है
speed, turn-taking, formality level जैसी settings को customize किया जा सकता है
demo उपलब्ध है
यह web, iOS, Android पर चलता है, और 20 मिनट के free trial के बाद कीमत अवधि और क्षेत्र के अनुसार प्रति माह 20~29 डॉलर है

1 टिप्पणियां

GN⁺ 2025-06-28

Hacker News राय

मैं यह कहना चाहता/चाहती हूँ कि language learning में innovation की ज़रूरत है।
मैंने web app में शुरुआती Greek सीखने की कोशिश की, और यह ChatGPT या Gemini voice mode से बेहतर अनुभव था।
लेकिन लगभग 5 मिनट बाद मैं उलझन में पड़ गया/गई, क्योंकि AI tutor न तो मेरी अपनी learning plan समझ पा रहा था और न ही मेरी कठिनाइयाँ।
उदाहरण के लिए, उसने मेरे शौक पूछे और फिर तुरंत पहाड़ पर hiking करने के बारे में लंबा Greek वाक्य बोल दिया।
मैं पूरी तरह beginner हूँ, इसलिए मैं उस वाक्य का जवाब भी नहीं दे सका/सकी, यहाँ तक कि उसे दोहराना भी मुश्किल था।
मुझे यह तक समझ नहीं आ रहा था कि मुझे अभी क्या करना चाहिए।
अगर कोई असली teacher होता, तो वह वाक्य का कुछ हिस्सा दोहराता, उसका अनुवाद देता या कुछ समझाता।
लेकिन AI tutor बस इंतज़ार करता रहा कि मैं कुछ बोलूँ, और फिर अचानक beach vacation की बात आगे बढ़ाने लगा।
फिर भी यह मौजूदा AI से बेहतर लगा, इसलिए मैं इसे एक बार फिर आज़माने की योजना बना रहा/रही हूँ।
- Swedish में भी मुझे कुछ ऐसा ही लगा।
  ChatGPT के advanced voice mode से बहुत बड़ा फ़र्क नहीं है, और मुझे ही बातचीत चलानी पड़ती है, इसलिए कुल मिलाकर यह काफ़ी arbitrary लगा।
  बातचीत बार-बार परिचित topics पर लौट आती है, जिससे practice का मतलब ही कम हो जाता है।
  मैं एक ज़्यादा structured, guide-style learning plan की उम्मीद कर रहा/रही था/थी, जो नए domains और skills को व्यवस्थित रूप से बढ़ाए।
- मुझे लगता है Language Transfer किसी भी AI-based course से बेहतर language education material है।
  क्योंकि सालों तक human instructors ने curriculum को व्यवस्थित रूप से डिज़ाइन किया है, इसलिए यह किसी भी चीज़ से ज़्यादा logical है।
  खासकर Greek course शानदार है, इसमें ads भी नहीं हैं और यह पूरी तरह free है।
  मैं भरोसे से इसे अपने द्वारा इस्तेमाल किए गए सबसे अच्छे language learning tools में से एक कह सकता/सकती हूँ।
  https://www.languagetransfer.org/
- मैंने कहा कि मेरी native language Greek है, तो error आया और onboarding guide reset हो गया।
  जब मैंने झूठ बोलकर कहा कि मेरी native language English है, तब सब सामान्य चला।
  लेकिन फिर इसने मेरे दिए हुए नाम की जगह मुझे Anton कहकर बुलाया।
- मुझे लगा कि STT->LLM->TTS संरचना की सीमाएँ काफ़ी साफ़ हैं।
  जब मैं हकलाता/हकलाती हूँ या मुश्किल महसूस करता/करती हूँ, तो वह nuance text conversion की प्रक्रिया में पूरी तरह गायब हो जाता है।
- मैंने अपनी French सुधारने के लिए Memrise का paid subscription लिया था।
  Scripted lessons शानदार थे, लेकिन AI conversation mode lesson में सीखी गई vocabulary और grammar level को भूलकर idioms में बात करने लगा।
  आख़िरकार मेरी रुचि खत्म हो गई और मैंने उसका इस्तेमाल बंद कर दिया।
मैं Duolingo का इस्तेमाल कभी नहीं कर पाया/पाई क्योंकि उसमें gamification बहुत ज़्यादा है, इसलिए अच्छा लगा कि इस app में वह हिस्सा कम है।
मुझे जानना है कि क्या मेरी native language और target language के बीच switching स्वाभाविक रूप से हो सकती है, और क्या बातचीत के दौरान English में सवाल पूछना ठीक है।
- मुझे लगता है कि ये apps पूरे user group के optimization पर केंद्रित हैं और individual users के लिए tailored experience नहीं दे पातीं।
  Global optimization पर papers तक publish हुए हैं।
  Learning metrics या content production आसान है, लेकिन किसी ने भी individual learner के लिए सही adaptation loop नहीं बनाया है।
  Duolingo में भी 'training' दबाने पर कोई प्रगति नहीं होती और हर बार वही Bread and water जैसा बासी content सामने आता है।
- मैं यह ज़ोर देकर कहना चाहता/चाहती हूँ कि हमने STT और TTS के multilingual integration पर लंबे समय तक वास्तविक research की है, इसलिए कई भाषाओं के मिश्रण में भी यह अच्छी तरह काम करता है।
- मुझे लगता है Babbel, Duolingo से बेहतर है।
मैं language learning में TTS (speech synthesis) पर पूरी तरह भरोसा नहीं कर पाता/पाती।
उच्चारण ग़लत internalize हो सकता है, और आपको पता भी नहीं चलेगा।
Duolingo के Japanese course में मुझे लगा कि वह real recording है, लेकिन 'oyogu' कुछ 'oyNHYAOgu' जैसा अजीब synthesized सुनाई दिया।
अगर कोई beginner हो, तो मुझे डर है कि वह ऐसी ग़लती को ज्यों का त्यों कॉपी कर लेगा।
बेशक, अगर immersion time लंबा हो तो ग़लतियाँ सुधर सकती हैं, लेकिन शुरुआत से ग़लत सीखना ज़्यादा मेहनत माँगता है।
खासकर Japanese जैसी भाषा में pitch accent महत्वपूर्ण है, लेकिन बहुत-से materials और लोग इसे नज़रअंदाज़ करते हैं।
उदाहरण: 'ima' में दूसरे syllable की pitch के अनुसार 'अभी' और 'living room' का अर्थ बदल जाता है।
यह समस्या Japanese जैसी Sino-vocabulary वाली भाषाओं में और बड़ी हो सकती है।
- Minimax का नया TTS model काफ़ी उत्कृष्ट है।
  मैं कुछ Japanese tutors में उसकी voice इस्तेमाल कर रहा/रही हूँ, और pitch accent भी लगभग perfect है।
  कभी-कभी kanji या misreading होती है, लेकिन जब furigana बदलती है तो तुरंत पता चल जाता है।
- मुझे लगता है Japanese TTS की कठिनाई उम्मीद से ज़्यादा है।
  मैंने भी language learning app बनाते समय कई vendors (11labs, OpenAI, play.ht, Azure, Google, Polly आदि) के TTS इस्तेमाल किए, लेकिन हर तीन वाक्यों में से एक में error था।
  उसे ठीक करने में लगभग एक हफ़्ता लगा, और अब स्थिति error-free है।
  यह समस्या ख़ास तौर पर Japanese में गंभीर थी; ज़्यादातर tonal languages में tone तो सही था।
  वह कितना natural लगता है, यह आँकने की योग्यता शायद मुझमें नहीं है, लेकिन Japanese जैसी गंभीर mismatch मुझे और कहीं नहीं मिली।
- AI speech recognition (transcription) अच्छी है, AI translation भी language pair के हिसाब से ठीक-ठाक है।
  लेकिन TTS अब भी ज़्यादातर भाषाओं में quality के मामले में कमज़ोर है।
- मैं भी Japanese का beginner हूँ और pitch accent की अहमियत बहुत गहराई से महसूस करता/करती हूँ।
  हर भाषा में syllable emphasis का तरीका अलग होता है।
  Spanish में vowel length, Icelandic में volume, English में length+volume, और Swedish/Japanese में pitch महत्वपूर्ण है।
  English में भी stress ग़लत हो तो communication टूट सकता है।
  Japanese में homophones बहुत हैं, और pitch के अनुसार अर्थ बदलता है, इसलिए यह और भी खास मामला है।
  सही pitch सच में बेहद ज़रूरी है।
यह app सच में बेहतरीन अनुभव है।
एक Argentinian व्यक्ति के साथ बातचीत बहुत स्वाभाविक ढंग से चलती रही।
मैं Buenos Aires में 18 साल से ज़्यादा रहा/रही हूँ, इसलिए pronunciation और intonation भी काफ़ी अच्छी है।
Basic grammar की कमी के कारण मेरे ज्ञान में कई gaps थे, और इस app ने उन हिस्सों को बहुत बारीकी से सुधारा।
iOS UX में settings modal खुलने पर close button (CTA) ठीक से दिखाई नहीं देता, यह थोड़ा खला।
Settings button की clicked और disabled state के colors लगभग एक जैसे हैं।
समाधान: ऊपर दाईं ओर close X button जोड़ें, और click होने पर color change होना चाहिए।
अगर और UX feedback चाहिए, तो मुझसे visualsitemaps.com पर संपर्क करें।
मैंने Vietnamese सीखने की कोशिश की, लेकिन lessons की quality बहुत कम थी और कुछ जानकारी ग़लत भी थी।
जब कोई पुरुष अपने लिए बोलता है तो Anh mệt सही है, लेकिन Em mệt सिर्फ़ महिलाओं के लिए है — यह ग़लत explanation है।
'Anh' ज़्यादा उम्र के पुरुष के लिए होता है, और 'Em' लिंग से परे कम उम्र के व्यक्ति के लिए इस्तेमाल होता है।
कई महिलाएँ अपनी असली उम्र से छोटी दिखना चाहती हैं, इसलिए Em पसंद करती हैं, लेकिन युवा पुरुष भी Em इस्तेमाल कर सकते हैं।
एक अच्छा tutor उम्र और संबंध के आधार पर context समझाता।
ऐसी errors भी थीं जहाँ English वाक्यों को Vietnamese accent में बोला गया।
कभी यह मेरी level से बहुत कठिन वाक्य देता था, और कभी मेरी request के बावजूद focus भटक जाता था।
हालाँकि Southern Vietnamese ज़्यादा common है, tutors ज़्यादातर Northern Vietnam से थे।
Speech recognition (STT) भी pronunciation ग़लत होने पर बहुत उदार था, या English और Vietnamese में फ़र्क नहीं कर पाता था।
उदाहरण: "Phai" को "bye" के रूप में पहचानना।
यह काफ़ी सस्ता है और schedule के बिना सीखा जा सकता है, इसलिए उम्मीद थी, लेकिन accuracy पर भरोसा करना मुश्किल है।
फ़िलहाल मैं एक Vietnamese tutor को प्रति lesson $20, यानी महीने के $160 दे रहा/रही हूँ।
- Quality अभी पर्याप्त नहीं है, इसके लिए माफ़ी चाहता/चाहती हूँ; Vietnamese को हम अभी तक test नहीं कर पाए हैं।
  समस्या उठाने के लिए धन्यवाद।
- इस तरह की ग़लतियाँ LLM में अक्सर दिखने वाला सामान्य pattern हैं।
  एक अच्छे language learning platform की सख़्त ज़रूरत है।
- Vietnamese सीखने वाले साथी से मिलकर अच्छा लगा।
  मैं सहमत हूँ कि feedback ने बिल्कुल सही मुद्दे पकड़े हैं।
  मैं basic sentence practice में मदद करने वाला एक tool बना रहा/रही हूँ और उस पर feedback चाहता/चाहती हूँ https://envn.app
मैंने Japanese में इसे आज़माया, और यह काफ़ी frustrating था।
मैं beginner हूँ, फिर भी tutor सिर्फ़ Japanese में ही बात करता रहा, जबकि मैंने कई बार कहा कि मैं समझ नहीं पा रहा/रही।
मैंने कहा कि English से धीरे-धीरे Japanese की ओर बढ़ें, लेकिन उसने सिर्फ़ एक वाक्य English में कहा और तुरंत फिर Japanese पर लौट आया।
काफ़ी सक्षम intermediate या उससे ऊपर के learners के लिए यह conversation practice में उपयोगी हो सकता है, लेकिन पूरी तरह beginners के लिए अनुभव बेहतर होना चाहिए।
क्योंकि model multimodal support करता है, इसलिए visual materials का और सक्रिय उपयोग अच्छा रहेगा।
जो Japanese लिखी जाए, उसे तुरंत romaji में भी दिखाया जाए तो और बेहतर होगा।
- मैं उस अनुभव से गहराई से सहमत हूँ।
  ईमानदारी से कहूँ तो अभी हमारा फ़ोकस B1 या उससे ऊपर के learners पर है।
  अगर पूरी तरह beginners को 0→1 चरण की learning चाहिए, तो traditional materials (खासकर जहाँ listening और speaking पर कम ज़ोर हो) शायद अधिक उपयोगी होंगे।
ChatGPT mobile app का hands-free voice conversation mode काफ़ी उपयोगी है।
लेकिन अगर topic न हो, तो बातचीत सपाट हो जाती है और हमेशा घिसे-पिटे विषयों तक सीमित रहती है।
इसलिए मैं पूरा news article और उससे जुड़े links कॉपी करके कहता/कहती हूँ, “इस topic पर language practice करें।”
इस तरह मैं Spanish में 1 घंटे की walk करते हुए practical practice करता/करती हूँ।
अगर मैं चाहूँ, तो ChatGPT से अपने native language में ही सवाल पूछता/पूछती हूँ, और सामने वाला (chatbot) सिर्फ़ target language में जवाब देता है, जिससे listening पर केंद्रित training मिलती है।
मुझे जानना है कि Issen ने इस अनुभव को कितना बेहतर बनाया है।
- मैं भी लगभग इसी बिंदु से शुरू हुआ/हुई था/थी।
  Voice models की प्रगति की रफ़्तार भी तेज़ है।
  मुझे लगता है language learning के लिए एक specialized end-to-end experience चाहिए — customized curriculum, prompts, accurate recognition के लिए AI model, flashcards/dictionary आदि।
  Hands-free mode भी उपलब्ध है, और slang, speaking speed, target language usage ratio जैसे कई factors को customize किया जा सकता है।
मैंने Russian में practice की; अभ्यास खुद तो अच्छा था, लेकिन सभी language learning apps में एक साझा कमी है: मेरे pronunciation errors को पकड़ने और सुधारने की क्षमता।
मैं बस लगभग सही बोल दूँ तो automatic recognition (STT) उसे pass कर देता है।
मैं उस दौर का इंतज़ार कर रहा/रही हूँ जब AI सच में मेरे उच्चारण को 'सुने' और ठीक-ठीक बताए कि कहाँ क्या ग़लत है।
अभी तो accent के अलावा case endings और word stress जैसी चीज़ें भी पकड़ में नहीं आतीं।
अगर AI सही intonation या form में दोहराकर सुनाए, तो correction में मदद ज़रूर मिलती है, लेकिन वह आत्मविश्वास नहीं देता जो एक इंसानी शिक्षक देता है।
एक product suggestion: transcription (subtitles) को बंद करने का option जोड़ें।
खासकर कुछ भाषाओं में लिखित text दिखना उल्टा बाधा बन सकता है, या beginners के लिए shortcut जैसा हो सकता है।
और अंत में, arbitrary और directionless बातचीत (जैसे “AI की कौन-सी बात आपको सबसे दिलचस्प लगती है?”) की जगह अगर कुछ ज़्यादा goal-oriented conversation structure हो, तो यह बहुत ज़्यादा मज़ेदार होगा।
Gamification के बिना भी debate-style format (“इस topic पर मुझे convince करो!”) या concrete experience से जुड़ाव (“इस साल काम में तुम्हारा सबसे महत्वपूर्ण goal क्या है?”) जैसी संरचनाएँ व्यावहारिक राय और अनुभव निकलवा सकती हैं।
अब तक जो देखा है, उनमें यह पहला product लगता है जिसे मैं सच में इस्तेमाल कर सकता/सकती हूँ — इसके लिए प्रशंसा।
- Debate club lesson का idea मुझे बहुत पसंद आया।
  जब speech-to-speech models mature होंगे, तब सच में बहुत उत्साहजनक होगा।
  OpenAI/Gemini में भी तेज़ प्रगति हो रही है, इसलिए हम इसे जल्द लागू करने की योजना बना रहे हैं।
मैं जानना चाहता/चाहती हूँ कि पहली playback के बाद video को login के पीछे lock करके रखने की ज़रूरत क्यों है।
मैंने feedback देखा कि यह app B1+ को target करता है, लेकिन demo video में A1~C1 तक सब कुछ दिखाया गया है।
A1~C1 की पूरी range की ज़रूरत वाले users कम होते हैं; हर स्तर का अपना अलग market है, इसलिए उन्हें अलग-अलग स्पष्ट करना चाहिए।
French TTS (speech synthesis), ChatGPT की default voice जितनी natural नहीं लगती।
अगर user level के हिसाब से one-click tasks हों — जैसे news पढ़ना-फिर चर्चा, nuance और inference — तो यह बहुत लोकप्रिय हो सकता है।
खासकर कई users को यह एहसास ही नहीं होता कि उनकी speech में cohesion की कमी है; अगर कोई संरचना threshold proficiency के मुख्य हिस्से के रूप में इस पर रोशनी डाले, तो वह सचमुच मददगार होगी।
App बहुत अच्छा बनाया है, और मैं इसे अपने आसपास लगभग 10 लोगों को पहले ही recommend कर चुका/चुकी हूँ।
कुछ सवाल हैं:

LinkedIn पर employees सिर्फ़ दो दिखते हैं; आपने इतनी सारी भाषाओं में QA कैसे किया?
Urdu काफ़ी अच्छा चला, लेकिन उसमें सिर्फ़ female voice ही क्यों है, male voice क्यों नहीं?
Sesame team बड़ी है, फिर भी developer के रूप में आपकी राय जानना चाहता/चाहती हूँ कि Sesame की voice असली इंसान जैसी इतनी natural क्यों लगती है (मैं मानता/मानती हूँ कि multilingual support न होने वाले Sesame की तुलना में आपका challenge कहीं बड़ा है)।
- प्रशंसा के लिए धन्यवाद।
  हमने सबसे लोकप्रिय भाषाओं पर test और tuning पर ध्यान दिया।
  User feedback के आधार पर जिन भाषाओं में समस्याएँ ज़्यादा थीं, उन्हें हमने वास्तव में हटा भी दिया, और कुछ भाषाएँ ऐसी भी हैं जिन्हें हम अभी तक ठीक से verify नहीं कर पाए हैं।
  Voice options, TTS services (Openi, 11labs, minimax आदि) की quality पर निर्भर करते हैं।
  कुछ services में male voices हैं ही नहीं, या female voices ही बेहतर हैं।
  आगे और तरह-तरह की voices जोड़ने की योजना है।
  Sesame में user की असली voice को TTS में डालकर उसकी feel और tone से match किया जा सकता है, जबकि हम अभी तक सिर्फ़ original/off-the-shelf TTS का इस्तेमाल कर रहे हैं।
  Sesame की latency भी बेहद कम है, लेकिन language learning में यह उल्टा नुकसान हो सकता है।
  आगे हमारा लक्ष्य mature speech-to-speech models पर आधारित अनुभव देना है।

Issen (YC F24), व्यक्तिगत AI भाषा ट्यूटर लॉन्च

Issen जिस भाषा-सीखने के अनुभव को लक्ष्य बना रहा है

voice AI pipeline और learning features

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय