Web Analytics

TimeCapsuleLLM

⭐ 545 stars Arabic by haykgrigo3

🌐 اللغة

تايم كابسول LLM

نموذج لغوي تم تدريبه من الصفر حصرياً على بيانات من أماكن وفترات زمنية محددة بهدف تقليل التحيزات الحديثة ومحاكاة أسلوب ومفردات ورؤية العصر.

تخيل لو أن نموذج الذكاء الاصطناعي لم يكن فقط يتظاهر بأنه تاريخي بل كان كذلك فعلاً.

الإصدار v0 و v0.5 تم بناؤهما اعتماداً على nanoGPT بواسطة Andrej Karpathy نصوص التدريب الأساسية وبنية النموذج هي من عمله.

v1 تم بناؤه على Phi 1.5 بواسطة Microsoft

رابط Hugging Face

سلوك النموذج والقيود

v0

المطالبات المبكرة تظهر النموذج يرد بلغة وسلوك القرن التاسع عشر. مثال: الطلب: "من هو هنري؟" ورد: "أنا أعرف ذلك الرجل، لم أفعل شيئًا أسودًا، العاصفة."

مخرج عينة TimeLockLLM

v0.5

تحسن كبير على الإصدار v0.

مخرج عينة TimeLockLLM

v1

أول نموذج يسترجع ويربط حدث تاريخي حقيقي بشخصية فعلية من مجموعة البيانات.

مثال: الطلب: "كان ذلك في سنة ربنا 1834"

الناتج: "كان ذلك في سنة ربنا 1834 وكانت شوارع لندن مليئة بالاحتجاجات والعرائض. السبب، كما روى الكثيرون، لم يكن مرتبطًا بالخصوصية، بل تم تناوله في نفس اليوم في يوم اللورد بالمرستون، سيتلقى الجمهور بيانًا موجزًا عن الصعوبات التي وصل إليها القانون. ومن المؤسف أن الأحداث الحالية في تاريخ العالم واضحة، وبالتالي ستعرف. ليس صحيحًا أن الرجال الذين أسسوا الإنجيل في القدس كان لديهم سجل واسع ومثير للاهتمام عن الرخاء والازدهار"

في البداية افترضت أن احتجاجًا قد حدث بالمصادفة في نفس السنة ولكن انظر لهذا: 1834protest

لماذا هذا مهم:

هذا هو أول مثال على أحد نماذجي يربط سنة بحدث تاريخي حقيقي وشخصية حقيقية مرتبطة بذلك الحدث (اللورد بالمرستون). النماذج السابقة (v0 و v0.5) كانت تستطيع تقليد أساليب الكتابة في القرن التاسع عشر ولكنها كانت تهلوس دائمًا الأحداث والأشخاص والحقائق. هذا يُظهر أن النموذج بدأ يتذكر أشياء من مجموعة البيانات

الخطط القادمة

كيفية الاستخدام

يركز هذا المشروع في الغالب على تنسيق البيانات التاريخية وتحضيرها للتدريب وبناء معالج الرموز. لن أغطي عملية تدريب النموذج اللغوي الكبير بالكامل، لذلك يُرجى الرجوع إلى nanoGPT بواسطة أندريه كارباتي.

الخطوة 1: جمع وتحضير النصوص التاريخية

الخطوة 2: بناء معالج الرموز المخصص

الخطوة 3: درّب نموذجك

الأسئلة الشائعة

ما هو التدريب الزمني الانتقائي؟

التدريب الزمني الانتقائي (STT) هو منهجية تعلم آلي حيث يتم اختيار كل بيانات التدريب لتكون ضمن فترة زمنية تاريخية محددة. يتم ذلك بهدف نمذجة اللغة والمعرفة لتلك الحقبة دون تأثير من المفاهيم الحديثة. على سبيل المثال، النموذج الحالي الذي أملكه الآن (الإصدار 0.5) مدرب فقط على بيانات بين 1800-1875، لم يتم ضبطه بدقة بل تم تدريبه من الصفر، مما ينتج عنه مخرجات تعكس الأسلوب اللغوي والسياق التاريخي لتلك الفترة.

لماذا لا أستخدم فقط الضبط الدقيق أو LoRA؟

في هذا المشروع أهدف إلى إنشاء نموذج لغوي خالٍ من التحيزات الحديثة. إذا قمت بضبط نموذج مثل GPT-2، فهو مدرب مسبقاً وتلك المعلومات لن تختفي. إذا دربت من الصفر، لن يتظاهر النموذج بأنه قديم، بل سيكون كذلك فعلاً. الهدف من هذا المشروع حالياً هو إنشاء شيء يمكنه الاستدلال حصرياً باستخدام معرفة من كتب لندن المنشورة بين 1800 و1875.

ما نوع البيانات التي استخدمتها في التدريب؟

أنا أستخدم كتبًا، وثائق قانونية، صحفًا، وكتابات أخرى من لندن في الفترة 1800–1875. القائمة التي قمتُ بربطها (لإصدار v0) تحتوي على حوالي 200 ملف، لكن في أول تدريب استخدمت فقط 50 ملفًا بحجم حوالي ~187 ميجابايت. يمكنك عرض قائمة الوثائق على الرابط: https://github.com/haykgrigo3/TimeCapsuleLLM/blob/main/Copy%20of%20London%20Documents%20for%20Time%20Capsule%20LLM.txt

أحجام مجموعات البيانات: v0: ~187 ميجابايت v0.5: ~435 ميجابايت v1: ~6.25 جيجابايت

ما حجم النماذج؟

V0: 16 مليون معلمة

V0.5: 123 مليون معلمة

V1: 700 مليون معلمة

مواصفات التدريب؟

V0/V0.5

GPU: Geforce rtx 4060 CPU: i5-13400F الرام: 16GB DDR5.

V1

GPU: A100 مستأجرة

--- Tranlated By Open Ai Tx | Last indexed: 2025-09-30 ---