Web Analytics

TimeCapsuleLLM

⭐ 545 stars Hindi by haykgrigo3

🌐 भाषा
अंग्रेज़ी | सरलीकृत चीनी | पारंपरिक चीनी (जल्द आ रहा है) | | जापानी | कोरियाई | हिन्दी (जल्द आ रहा है) | | थाई (जल्द आ रहा है) | | फ्रेंच (जल्द आ रहा है) | जर्मन (जल्द आ रहा है) | स्पेनिश (जल्द आ रहा है) | इटालियन (जल्द आ रहा है) | रूसी (जल्द आ रहा है) | पुर्तगाली (जल्द आ रहा है) | डच (जल्द आ रहा है) | पोलिश (जल्द आ रहा है) | अरबी (जल्द आ रहा है) | फारसी (जल्द आ रहा है) | तुर्की (जल्द आ रहा है) | वियतनामी (जल्द आ रहा है) | इंडोनेशियाई (जल्द आ रहा है)

टाइमकैप्सूल LLM

एक भाषा मॉडल जो शुरू से विशेष स्थानों और समय अवधियों के डेटा पर प्रशिक्षित किया गया है ताकि आधुनिक पक्षपात को कम किया जा सके और उस युग की आवाज़, शब्दावली और दृष्टिकोण का अनुकरण किया जा सके।

कल्पना कीजिए कि अगर एक एआई मॉडल केवल ऐतिहासिक बनने का दिखावा नहीं करता, बल्कि वास्तव में ऐतिहासिक होता।

v0 और v0.5 Andrej Karpathy के nanoGPT पर बनाए गए हैं। मुख्य प्रशिक्षण स्क्रिप्ट और मॉडल संरचना उन्हीं का कार्य है।

v1 Microsoft के Phi 1.5 पर आधारित है

Hugging Face लिंक

मॉडल व्यवहार और सीमाएँ

v0

शुरुआती प्रॉम्प्ट्स में मॉडल 1800 के दशक की भाषा और व्यवहार में प्रतिक्रिया देता है। उदाहरण: प्रॉम्प्ट: "Who art Henry?" और उत्तर: "I know that man, I have did not a black, the storm."

TimeLockLLM नमूना आउटपुट

v0.5

v0 की तुलना में महत्वपूर्ण सुधार।

TimeLockLLM नमूना आउटपुट

v1

पहला मॉडल जो डेटासेट से वास्तविक ऐतिहासिक घटना और उससे जुड़े व्यक्ति को याद और जोड़ सका।

उदाहरण: प्रॉम्प्ट: "It was the year of our Lord 1834"

आउटपुट: "It was the year of our Lord 1834 and the streets of London were filled with protest and petition. The cause, as many re counted, was not bound in the way of private, but having taken up the same day in the day of Lord Palmerston, the public will receive a short statement of the difficulties under which the day of law has reached us. It is a matter of deep regret, that the present events in the history of the world are clear, and consequently will be'known. It is not true that the very men who first settled in the Gospel at Jerusalem should have so extensive and so interesting a record of the prosperity and prosperity"

पहले मुझे लगा कि उसी वर्ष कोई विरोध प्रदर्शन संयोगवश हुआ होगा, लेकिन यह देखिए: 1834protest

यह क्यों महत्वपूर्ण है:

यह मेरे मॉडल्स का पहला उदाहरण है जहाँ किसी वर्ष को एक वास्तविक ऐतिहासिक घटना और उस घटना से जुड़े वास्तविक व्यक्ति (Lord Palmerston) से जोड़ा गया। पहले के मॉडल्स (v0 और v0.5) 19वीं सदी की लेखन शैली की नकल कर सकते थे लेकिन घटनाओं, लोगों और तथ्यों को हमेशा कल्पना करते थे। इससे पता चलता है कि मॉडल अब डेटासेट से चीजें याद रखना शुरू कर रहा है।

आगामी योजनाएँ

उपयोग कैसे करें

यह प्रोजेक्ट मुख्य रूप से ऐतिहासिक डेटा को संकलित करने, प्रशिक्षण के लिए तैयार करने और एक टोकनाइज़र बनाने पर केंद्रित है। मैं पूरी LLM प्रशिक्षण प्रक्रिया को कवर नहीं करने जा रहा हूँ, उसके लिए Andrej Karpathy की nanoGPT देखें।

चरण 1: ऐतिहासिक ग्रंथ एकत्रित करें और तैयार करें

चरण 2: कस्टम टोकनाइज़र बनाएं

चरण 3: अपना मॉडल ट्रेन करें

सामान्य प्रश्न

चयनात्मक कालिक प्रशिक्षण (Selective Temporal Training) क्या है?

चयनात्मक कालिक प्रशिक्षण (STT) एक मशीन लर्निंग पद्धति है जिसमें सभी प्रशिक्षण डेटा विशेष रूप से एक निश्चित ऐतिहासिक समय अवधि के भीतर चुना जाता है। इसका उद्देश्य उस युग की भाषा और ज्ञान को आधुनिक अवधारणाओं के प्रभाव के बिना मॉडल करना है। उदाहरण के लिए, वर्तमान मॉडल (v0.5) केवल 1800-1875 के डेटा पर प्रशिक्षित है, यह फाइन ट्यून नहीं किया गया है बल्कि शुरू से ही प्रशिक्षित है जिससे आउटपुट उस समय अवधि की भाषाई शैली और ऐतिहासिक संदर्भ को दर्शाता है।

बस फाइन-ट्यूनिंग या LoRA क्यों नहीं उपयोग करें?

इस परियोजना के लिए मैं ऐसा भाषा मॉडल बनाना चाहता हूँ जो आधुनिक पूर्वाग्रह से मुक्त हो। अगर मैं GPT-2 जैसा कुछ फाइन-ट्यून करता हूँ, तो वह पहले से ही प्री-ट्रेंड है और वह जानकारी नहीं हटेगी। यदि मैं शुरू से ट्रेन करता हूँ तो भाषा मॉडल पुराना होने का नाटक नहीं करेगा, वह वास्तव में वैसा ही होगा। इस परियोजना का उद्देश्य अभी ऐसा कुछ बनाना है जो केवल 1800 और 1875 के बीच लंदन में प्रकाशित किताबों के ज्ञान का उपयोग करके तर्क कर सके।

प्रशिक्षण के लिए आपने किस प्रकार का डेटा इस्तेमाल किया?

मैं 1800–1875 लंदन की किताबें, कानूनी दस्तावेज़, समाचार पत्र और अन्य लेखन का उपयोग कर रहा हूँ। मैंने जो सूची लिंक की है (v0 के लिए) उसमें लगभग 200 दस्तावेज़ हैं, लेकिन पहली ट्रेनिंग के लिए मैंने सिर्फ 50 फाइलें ~187 एमबी के बारे में इस्तेमाल की थीं। आप दस्तावेजों की सूची देख सकते हैं: https://github.com/haykgrigo3/TimeCapsuleLLM/blob/main/Copy%20of%20London%20Documents%20for%20Time%20Capsule%20LLM.txt

डेटासेट आकार: v0: ~187MB v0.5: ~435MB v1: ~6.25GB

मॉडल कितने बड़े हैं?

V0: 16M पैरामीटर

V0.5 123M पैरामीटर

V1: 700M पैरामीटर

प्रशिक्षण विशिष्टताएँ ?

V0/V0.5

GPU: Geforce rtx 4060 CPU: i5-13400F Ram: 16GB DDR5.

V1

GPU: A100 किराए पर लिया गया

--- Tranlated By Open Ai Tx | Last indexed: 2025-09-30 ---