Web Analytics

TimeCapsuleLLM

⭐ 545 stars Persian by haykgrigo3

🌐 زبان

تایم‌کپسول ال‌ال‌ام

یک مدل زبانی که از صفر فقط با داده‌های مربوط به مکان‌ها و دوره‌های زمانی خاص آموزش داده شده تا سوگیری‌های مدرن را کاهش داده و صدای، واژگان و جهان‌بینی آن عصر را شبیه‌سازی کند.

تصور کنید اگر یک مدل هوش مصنوعی فقط وانمود به تاریخی بودن نکند، بلکه واقعا تاریخی باشد.

نسخه‌های v0 و v0.5 بر پایه nanoGPT توسط آندری کارپاتی ساخته شده‌اند. اسکریپت‌های اصلی آموزش و معماری مدل متعلق به اوست.

نسخه v1 بر پایه Phi 1.5 توسط مایکروسافت ساخته شده است

لینک Hugging Face

رفتار مدل و محدودیت‌ها

نسخه v0

پرامپت‌های اولیه نشان می‌دهند که مدل با زبان و رفتار دهه ۱۸۰۰ پاسخ می‌دهد. مثال: پرامپت: "چه کسی هنری است؟" و پاسخ داد: "من آن مرد را می‌شناسم، من نکرده‌ام سیاه، طوفان."

نمونه خروجی TimeLockLLM

نسخه v0.5

بهبود قابل توجه نسبت به نسخه v0

نمونه خروجی TimeLockLLM

نسخه v1

اولین مدلی که توانست یک رویداد تاریخی واقعی را با یک شخصیت حقیقی از مجموعه داده مرتبط کند.

مثال: پرامپت: "در سال پروردگارمان ۱۸۳۴ بود"

خروجی: "در سال پروردگارمان ۱۸۳۴ بود و خیابان‌های لندن پر از اعتراض و دادخواست بود. علت، همانطور که بسیاری نقل کردند، به شیوه خصوصی محدود نبود، بلکه همان روز در روز لرد پالمرستون مطرح شد، عموم مردم بیانیه کوتاهی از دشواری‌هایی که قانون به ما رسانده است دریافت خواهند کرد. این موضوعی است که جای تأسف عمیق دارد، که رویدادهای کنونی در تاریخ جهان واضح هستند و بنابراین شناخته خواهند شد. درست نیست که همان مردانی که برای اولین بار در انجیل در اورشلیم ساکن شدند، باید چنین سابقه گسترده و جالبی از رونق و رفاه داشته باشند"

در ابتدا تصور می‌کردم که شاید به طور تصادفی اعتراضی در همان سال رخ داده باشد اما به این توجه کنید: 1834protest

چرا این موضوع اهمیت دارد:

این اولین نمونه‌ای است که یکی از مدل‌های من یک سال را هم به یک رویداد تاریخی واقعی و هم به یک فرد واقعی مرتبط با آن رویداد (لرد پالمرستون) متصل می‌کند. مدل‌های قبلی (v0 و v0.5) می‌توانستند سبک نوشتاری قرن نوزدهم را تقلید کنند اما همواره رویدادها، افراد و حقایق را هذیان می‌گفتند. این نشان می‌دهد که مدل شروع به به‌خاطر سپردن اطلاعات از مجموعه داده کرده است.

برنامه‌های آتی

نحوه استفاده

این پروژه عمدتاً بر گردآوری داده‌های تاریخی، آماده‌سازی آن برای آموزش و ساخت توکنایزر تمرکز دارد. من فرآیند کامل آموزش LLM را پوشش نمی‌دهم؛ برای این منظور به nanoGPT اثر Andrej Karpathy مراجعه کنید.

مرحله ۱: گردآوری و آماده‌سازی متون تاریخی

مرحله ۲: ساخت توکنایزر سفارشی

مرحله ۳: آموزش مدل خود

پرسش‌های متداول

آموزش زمانی گزینشی چیست؟

آموزش زمانی گزینشی (STT) روشی در یادگیری ماشین است که تمام داده‌های آموزشی به طور خاص برای قرار گرفتن در یک دوره تاریخی مشخص انتخاب می‌شوند. هدف آن مدل‌سازی زبان و دانش آن دوره بدون تأثیر مفاهیم مدرن است. به عنوان مثال، مدل فعلی من (نسخه ۰.۵) فقط با داده‌های ۱۸۰۰ تا ۱۸۷۵ آموزش دیده است؛ از ابتدا آموزش دیده و نه فقط تنظیم دقیق شده، بنابراین خروجی آن بازتاب‌دهنده سبک زبانی و زمینه تاریخی همان دوره است.

چرا فقط از تنظیم دقیق یا LoRA استفاده نمی‌کنید؟

برای این پروژه، هدفم ساخت یک مدل زبانی بدون سوگیری مدرن است. اگر چیزی مثل GPT-2 را تنظیم دقیق کنم، آن قبلاً آموزش دیده و اطلاعات آن باقی خواهد ماند. اگر مدل را از ابتدا آموزش دهم، مدل زبانی وانمود به قدیمی بودن نمی‌کند، واقعاً قدیمی خواهد بود. هدف فعلی این پروژه ساخت مدلی است که بتواند منحصراً با دانش کتاب‌های لندن منتشر شده بین ۱۸۰۰ و ۱۸۷۵ استدلال کند.

از چه نوع داده‌ای برای آموزش استفاده کردید؟

من از کتاب‌ها، اسناد حقوقی، روزنامه‌ها و سایر نوشته‌های لندن بین سال‌های ۱۸۰۰ تا ۱۸۷۵ استفاده می‌کنم. لیستی که لینک کردم (برای نسخه v0) حدود ۲۰۰ مورد دارد اما برای اولین آموزش فقط ۵۰ فایل به حجم تقریبی ۱۸۷ مگابایت را استفاده کردم. شما می‌توانید لیست اسناد را مشاهده کنید: https://github.com/haykgrigo3/TimeCapsuleLLM/blob/main/Copy%20of%20London%20Documents%20for%20Time%20Capsule%20LLM.txt

اندازه دیتاست‌ها: v0: تقریباً ۱۸۷ مگابایت v0.5: تقریباً ۴۳۵ مگابایت v1: تقریباً ۶.۲۵ گیگابایت

مدل‌ها چه اندازه هستند؟

V0: ۱۶ میلیون پارامتر

V0.5: ۱۲۳ میلیون پارامتر

V1: ۷۰۰ میلیون پارامتر

مشخصات آموزش؟

V0/V0.5

کارت گرافیک: Geforce rtx 4060 پردازنده: i5-13400F رم: ۱۶ گیگابایت DDR5.

V1

کارت گرافیک: A100 اجاره‌ای

--- Tranlated By Open Ai Tx | Last indexed: 2025-09-30 ---