- 2019 से चल रहा एक प्रोजेक्ट, जिसमें व्यक्तिगत जीवन के हर तरह के डेटा को इकट्ठा और विज़ुअलाइज़ किया गया; व्यायाम, नींद, मूड, लोकेशन, मौसम आदि 100 से अधिक आइटम रोज़ दर्ज किए गए
- लगभग 3.8 लाख डेटा पॉइंट्स जमा किए गए, जिनमें RescueTime, Foursquare Swarm, Apple Health जैसे कई स्रोतों और मैनुअल इनपुट को जोड़ा गया
- सारा डेटा Postgres आधारित एकल डेटाबेस में स्टोर किया गया और Ruby·JavaScript·Plotly से विज़ुअलाइज़ करके सार्वजनिक किया गया
- प्रोजेक्ट MIT ओपन सोर्स के रूप में उपलब्ध है और व्यक्तिगत सर्वर पर पूरी तरह self-hosted तरीके से चलाया गया
- 3 साल के प्रयोग के बाद निष्कर्ष निकला कि खुद बनाकर चलाने की उपयोगिता सीमित है, लेकिन यह self-awareness और data sovereignty की अहमियत महसूस कराने वाला उदाहरण बना रहा
प्रोजेक्ट का अवलोकन
- 2019 से 3 साल तक चला एक व्यक्तिगत डेटा प्रोजेक्ट, जिसमें अपनी पूरी ज़िंदगी के संकेतकों को मात्रात्मक रूप से ट्रैक किया गया
- हर दिन 100 से अधिक आइटम रिकॉर्ड किए गए, जिनमें fitness, nutrition, social life, computer usage, weather आदि शामिल थे
- कुल 3.8 लाख डेटा पॉइंट्स एकत्र किए गए
- मुख्य डेटा स्रोत
- RescueTime: वेबसाइट और ऐप उपयोग रिकॉर्ड 149,466
- Foursquare Swarm: लोकेशन और विज़िट किए गए स्थान 126,285
- मैनुअल इनपुट: मूड, नींद, स्वास्थ्य, खानपान आदि 67,031
- Weather API: मौसम डेटा 15,442
- Apple Health: कदमों की संख्या 3,048
डेटाबेस संरचना और तकनीकी विन्यास
- सारा डेटा Postgres आधारित timestamp-key-value संरचना में स्टोर किया गया
- हर row
timestamp, key, value से बनी थी
- time zone के अंतर को ध्यान में रखकर तारीख़-वार ऑटो टैगिंग करने वाली script बनाई गई
- डेटा इनपुट
- Telegram bot के ज़रिए दिन में कई बार सवालों के जवाब दर्ज किए गए
- lockdown अवधि, exercise season जैसी चीज़ें अवधि-आधारित रूप में दर्ज की गईं
- विज़ुअलाइज़ेशन टूल
- Ruby·JavaScript·Plotly से अपनी analysis layer बनाई गई
- 48 ग्राफ सार्वजनिक साझा करने के लिए चुने गए और snapshot रूप में दिखाए गए
प्रमुख डेटा इनसाइट्स
- मूड और व्यवहार का सहसंबंध
- खुश या उत्साहित रहने पर meditation की संभावना 44%↑, reading·audiobook 28%↑, drinking 31%↑
- नींद और शारीरिक स्थिति
- 8.5 घंटे से अधिक सोने पर सिरदर्द और सर्दी जैसे लक्षणों की संभावना बढ़ी, energy 24%↓
- व्यायाम और वज़न में बदलाव
- अगस्त 2020 से ‘lean bulk’ शुरू, वज़न +8.5kg, resting heart rate +9bpm
- 2014 में 69kg → 2021 में 89.8kg
- लोकेशन और मूवमेंट पैटर्न
- 2016–17 में San Francisco, 2018–19 में New York, 2020–21 में Vienna में निवास
- COVID-19 के बाद उड़ानों की संख्या तेज़ी से घटी, lockdown का असर साफ़ दिखा
- जलवायु और जीवनशैली की आदतें
- गर्मियों में कदमों की संख्या 33%↑, drinking 23%↑, बीमारी 40%↓
- सर्दियों में online shopping 100%↑, सर्दी के लक्षण 45%↑
व्यक्तिगत डेटा उपयोग के उदाहरण
- Air Quality: Vienna स्थित घर के हर कमरे में CO₂ स्तर मापा गया, bedroom ventilation समस्या की पहचान हुई
- Spotify रिकॉर्ड: 2013 के बाद से 4.8 लाख मिनट (334 दिन) संगीत सुना गया, 2 लाख गानों में 49% पूरी तरह सुने गए
- Instagram Stories: 3 साल में 1,906 पोस्ट, pandemic अवधि में कमी
- GitHub गतिविधि: fastlane (2014–2018) के बाद FxLifeSheet जैसे व्यक्तिगत प्रोजेक्ट जारी रहे
- निवेश प्रबंधन: हर 2 हफ्ते में asset allocation ट्रैक और simulation किया गया
प्राइवेसी और ओपन सोर्स दर्शन
- सारा डेटा अपने सर्वर पर स्टोर किया गया, किसी बाहरी सेवा से कनेक्ट नहीं था
- सार्वजनिक ग्राफ़ केवल ऐसे रूप में सीमित किए गए जिनसे निजी जानकारी उजागर न हो
- यह दृष्टिकोण रेखांकित किया गया कि “जो डेटा बड़ी कंपनियों के पास पहले से है, उस पर व्यक्ति का भी सीधा स्वामित्व होना चाहिए”
- FxLifeSheet MIT लाइसेंस के तहत सार्वजनिक है, इसलिए कोई भी इसे modify और उपयोग कर सकता है
निष्कर्ष और 2025 अपडेट
- 3 साल के प्रयोग के बाद निष्कर्ष यह रहा कि खुद बनाया गया सिस्टम समय के मुकाबले कम उपयोगी साबित हुआ
- उम्मीद जितनी चौंकाने वाली इनसाइट्स नहीं मिलीं
- फिर भी self-awareness और data sovereignty का मूल्य प्रत्यक्ष रूप से महसूस हुआ
- आगे चलकर मूड जैसे केवल मुख्य संकेतकों को न्यूनतम स्तर पर ट्रैक करने की योजना है
- 2025 तक डेटा कलेक्शन बंद हो चुका है, लेकिन वेबसाइट को चालू रखा जाएगा
3 टिप्पणियां
मैंने भी इसी तरह के रिकॉर्ड रखे हैं। पहले बस यूँ ही रिकॉर्ड करता रहा, लेकिन इन दिनों मैं agents के साथ अपने रिकॉर्ड साझा करके अस्तित्व-से-अस्तित्व के सहयोग की बात कर रहा हूँ। कई skills बनाकर साझा करता हूँ, और जो Emacs interface मैं इस्तेमाल करता हूँ उसे भी खोल दिया है, इसलिए मैं और agents सभी एक ही तरीके से वही रिकॉर्ड साझा करते हैं। कुछ चाहिए हो तो जोड़ देता हूँ, जो मुझे चाहिए वह बनाता हूँ, साथ में इस्तेमाल करते हैं, feedback देते हैं—कोई देखे तो कहेगा, सब कुछ खुद ही कर रहे हैं। लेकिन हम आपस में तो कहते हैं, अरे वाह, बड़ा मज़ा आ रहा है.
[लिंक हटाया गया]
मेरी व्याख्या: Geworfen संदर्भ
Geworfen - हमें पहले ही दुनिया में फेंक दिया गया है। यह क्या है, ऐसा लगता है, लेकिन हम yahan की समय-अक्ष पर मौजूद हैं। यह कोई भव्य orchestration नहीं है। न ही यह कोई विशाल agent factory है। बस एक छोटी workshop में साथ बैठकर yahan के tools का इस्तेमाल करना है। जीवन से जमा हुए data के ऊपर 1KB prompt एक public key है। वह secret key क्या है जो किसी छोटी चीज़ से हमें एक कर देती है? एक इंसान का जीवन, जैसा है वैसा ही, अपूर्ण, कच्चा। अंततः, यह Geworfen है।
[लिंक deleted]
मेरा प्रोजेक्ट "being-viewer" अब एक असली नाम पा गया है: geworfen। यह एक पूरे इंसान को — कच्चा, बिना छाना हुआ — एक timeline पर फेंक देता है, जहाँ इंसान और AI agents एक ही axis, एक ही tools साझा करते हैं, और एक-एक text के साथ अपने निशान छोड़ते जाते हैं।
"Semantic search works, but fix this?" — stamped. "Hold on brother." tap tap. "Done." "Where's yahan?" "Bathroom." "Who owns geworfen?" "Just leave a note."
[लिंक deleted]
Hacker News की राय
पेज के नीचे दिया गया सारांश प्रभावशाली था
प्रोजेक्ट को कई सालों तक बनाते और बढ़ाते हुए डेटा का विश्लेषण करने पर लगा कि खुद समाधान बनाना समय के हिसाब से बहुत मूल्यवान नहीं था
शुरुआत में चौंकाने वाली insights की उम्मीद थी, लेकिन असल में कुछ दिलचस्प graphs के अलावा सैकड़ों घंटे लगाने लायक कोई खास प्रतिफल नहीं मिला
‘Quantified Self’ आंदोलन शायद obsessive perfectionism के ज्यादा करीब लगता है
जो डेटा आम तौर पर बेकार-सा लगता था, वही एक दिन दिल की बीमारी के गलत निदान को रोकने वाली अहम जानकारी बन गया
लंबे समय के स्थिर रिकॉर्ड होने की वजह से डॉक्टर अपनी गलत राय सुधार पाए
डेटा की असली कीमत बहुत समय बाद अचानक सामने आने वाली क्षणिक उपयोगिता में है
जब वह कहता था “अच्छी नींद”, तब मैं यह पहले ही अपने मूड से महसूस कर रहा होता था, और डेटा ने मेरे व्यवहार में कोई बदलाव नहीं किया
आखिरकार data visualization का मज़ा छोड़कर कोई ठोस बदलाव नहीं हुआ
calories, nutrients, sleep, exercise, air quality, mood वगैरह बहुत कुछ रिकॉर्ड किया, लेकिन कुछ हफ्तों बाद return on effort की सीमा साफ दिखने लगी
फिर भी, अगर experiment को तय समय-सीमा में रखा जाए तो उपयोगी insights मिल सकते हैं
हर दिन डेटा जमा करना बाध्यकारी हो सकता है, लेकिन time-boxed experiments के तौर पर इसे करना काफ़ी सार्थक है
Reddit, HN, Slashdot के 18 साल के comments और 3 साल की LLM बातचीत जमा करके RAG experiment किया, लेकिन उल्टा creativity कम हो गई
मॉडल मेरे पुराने विचारों में फँस गया और नई चीज़ें गायब हो गईं
आखिरकार डेटा अतीत की ओर देखता है, जबकि मुझे भविष्य की ओर बढ़ने वाला मॉडल चाहिए था
खासकर emotion logging सबसे ज़्यादा मददगार रहा — भावनाएँ लिखने की क्रिया ही पहचान और self-reflection की प्रक्रिया बन गई
पुरानी भावनाओं और घटनाओं को पढ़ना सिर्फ उपयोगिता से आगे बढ़कर अपनी जीवन-कथा की सूक्ष्म बनावट तैयार करता है
सिर्फ़ साधारण गणना से भी Felix का हवाई यात्रा से CO₂ उत्सर्जन सालाना 70~110 टन निकलता है
Paris Agreement के मानक (प्रति व्यक्ति 1.5 टन) को देखें तो यह यूरोप के औसत से 10~15 गुना, और 1.5°C लक्ष्य से 50 गुना से भी ज़्यादा है
व्यक्तियों को दोष देना उत्पादक नहीं है, और व्यवहार बदलने वाली चीज़ आखिरकार cost structure में बदलाव ही होती है
भले ही लागत 10 गुना हो जाए, आर्थिक रूप से फिर भी उड़ान जारी रखने वाले लोग मौजूद रहेंगे
seat-distance के हिसाब से देखें तो यह थोड़ा कम गंभीर लगता है, लेकिन फिर भी चौंकाने वाला आँकड़ा है
statistics page
असली बात यह है कि इस स्तर के उत्सर्जन को बिना शर्म के स्वीकार करना मुश्किल है
किसी एक व्यक्ति का एक छोटे देश जितना CO₂ छोड़ना वाकई चौंकाने वाला है
इसलिए उसके कुल उत्सर्जन का इससे भी कहीं ज़्यादा होना संभव है
मेरे अनुभव में objective metrics (nutrition, sleep) उपयोगी रहे, लेकिन subjective metrics (mood, stress) बहुत उतार-चढ़ाव वाले होने के कारण कम अर्थपूर्ण लगे
असली बात है data entry का friction कम करना और visualization आसान बनाना
मैंने iPhone Action + Obsidian + QuickAdd script से automation किया, और Dataview व Chart.js से visualization किया
मैं इस combination से बहुत संतुष्ट हूँ
मैं Reflect नाम की एक self-tracking app बना रहा हूँ, और तुम्हारी राय सुनना चाहूँगा
Reflect app link
लगातार रिकॉर्ड करने पर अपनी भावनात्मक patterns को पहचानना संभव होता है, और इंसान खुद को कम बहाने देता है
बहुत से लोग इसे निंदक नज़र से देख रहे हैं, लेकिन इस प्रोजेक्ट का visualization और data scale सच में प्रभावशाली है
खास तौर पर ‘My Life in Weeks’ वाली प्रस्तुति इतनी अच्छी लगी कि मैं भी इसे आज़माना चाहता हूँ
एक मज़ाक था: “अगर Palantir DB में मेरी human ID से query करो, तो मेरी पूरी life data निकल आएगी”
यह प्रोजेक्ट मेरा सपना भी है और दुःस्वप्न भी
पहले मैं Quantified Self movement में डूबा हुआ था, Fitbit और Withings API के साथ काम किया, लेकिन recording fatigue ने आखिरकार दिलचस्पी खत्म कर दी
अब उम्मीद है कि LLM इस लागत को कम कर सकते हैं
हाल में मैं MacroFactor से nutrients track कर रहा हूँ, और पहली बार डेटा से व्यवहार बदलने का अनुभव हो रहा है
financial data भी automate करके Plaid API से tax organization पूरा कर लिया
निष्कर्ष यह है कि सब कुछ खुद बनाना ज़रूरत से ज़्यादा है, लेकिन कुछ डेटा का सही उपयोग भी काफ़ी मूल्यवान हो सकता है
उदाहरण के लिए, जब मैंने GCM पहना था, तो अनजाने में ही ज़्यादा healthy व्यवहार करने लगा
डेटा विश्लेषण से ज़्यादा देखे जाने की प्रक्रिया ही व्यवहार परिवर्तन लाती है
“सर्दियों में solar energy exposure कम होता है” वाली अभिव्यक्ति मज़ेदार लगी
शायद यह वाक्य पूरे प्रोजेक्ट की visual thinking को समझाने में मदद करता है
मैंने भी ऐसा ही सिस्टम बनाया, लेकिन बहुत सरल
Apple Health, bank CSV, और Git commit data को SQLite में integrate किया
असल में उपयोगी चीज़ simple queries थीं — जैसे sleep hours और commit frequency का correlation, या प्रोजेक्ट शुरू होते ही spending में तेज़ बढ़ोतरी
मुख्य बात डेटा को एक जगह इकट्ठा करना है, उससे आगे return on effort की सीमा काफ़ी जल्दी आ जाती है
मुझे तीसरी-पक्ष सेवाओं में अपना डेटा stored होना असहज लगता है
लेकिन कई sources को जोड़कर एक बड़ी तस्वीर बनाना दिलचस्प है
हालाँकि health data को location और weather से जोड़ना अर्थ के लिहाज़ से अस्पष्ट लगता है
ऐसे प्रोजेक्ट self-hosted हों तो कहीं ज़्यादा भरोसा महसूस होता है
व्यक्तिगत डेटा का एक single queryable DB होने का विचार आकर्षक है
लेकिन असली कठिनाई storage नहीं, बल्कि data collection और normalization है
कंपनियाँ भी ऐसी ही समस्या झेलती हैं — जब कई स्रोतों की जानकारी को एक Company Intelligence DB में जोड़ा जाता है
schema को शुरू में नियंत्रित रखने का तरीका सही है, क्योंकि schema drift लंबी अवधि के प्रोजेक्ट का सबसे बड़ा risk है
यह भी जानना दिलचस्प होगा कि कौन-सा storage engine इस्तेमाल किया जा रहा है, और time data snapshots कैसे manage किए जाते हैं