تایمکپسول LLM
یک مدل زبانی که از پایه و منحصراً بر اساس دادههای مکانها و دورههای زمانی خاص آموزش دیده تا سوگیریهای مدرن را کاهش داده و لحن، واژگان و جهانبینی همان عصر را بازآفرینی کند.
تصور کنید اگر یک مدل هوش مصنوعی فقط نقش تاریخی بازی نمیکرد بلکه واقعاً تاریخی بود.
نسخههای v0 و v0.5 با استفاده از nanoGPT اثر آندری کارپاتی ساخته شدهاند. اسکریپتهای اصلی آموزش و معماری مدل متعلق به اوست.
نسخه v1 بر پایه Phi 1.5 توسط مایکروسافت ساخته شده است
نسخه v2 بر پایه llamaforcausallm ساخته شده است
رفتار مدل و محدودیتها
v0
در دستورات اولیه، مدل با زبان و رفتار قرن نوزدهم پاسخ میدهد. مثال: دستور: "Henry کیست؟" و پاسخ داد: "من آن مرد را میشناسم، من نکردهام سیاه، طوفان."

- هیچ اشارهای به مفاهیم مدرن
- عمدتاً واژگان متناسب با دوره تاریخی
- جملات عمدتاً نامفهوم (قابل انتظار به خاطر داده آموزشی ~187MB)
v0.5
پیشرفت قابل توجه نسبت به v0.
- سبک نگارش ویکتوریایی، نقطهگذاری صحیح، جملات عمدتاً دستوری
- هنوز نرخ هذیانگویی اطلاعاتی بالا
- نویز OCR («Digitized by Google») همچنان در خروجیها دیده میشود

v1
اولین مدلی که میتواند یک رویداد تاریخی واقعی را به یک شخصیت واقعی از دیتاست متصل کند.
مثال: دستور: "سال ۱۸۳۴ میلادی بود"
خروجی: "سال ۱۸۳۴ میلادی بود و خیابانهای لندن پر از اعتراض و طومار شده بود. علت، چنان که بسیاری نقل کردند، محدود به راه خصوصی نبود، بلکه همان روز در روز لرد پالمرستون نیز مطرح شد، عموم بیانیه کوتاهی از مشکلاتی که روز قانون به آن رسیده دریافت خواهند کرد. جای تاسف است که رویدادهای حاضر در تاریخ جهان روشن است و در نتیجه شناخته خواهد شد. درست نیست که همان مردانی که نخستین بار انجیل را در اورشلیم مستقر کردند، چنین سابقه گسترده و جالبی از رفاه و رونق داشته باشند"
ابتدا فکر میکردم شاید به طور تصادفی در همان سال اعتراضی رخ داده باشد اما به این نگاه کنید: 
v2mini-eval1
آموزش دیده با نمونهای ۱۵ گیگابایتی از دیتاست ۹۰ گیگابایتی نسخه v2. مدل فقط تا ۱۰ هزار گام آموزش داده شده است.
مشکلی در توکنیزاسیون وجود داشت که باعث شد خروجی به این شکل باشد:
درخواست: چارلز دیکنز کیست؟
W ho is Charles D ic ens ? D oes that work more of h ise x cell ent st ir ring , in his pl ays , int he G reat C omp any 's f arm ? What I have y et to qu ote from J ack P ick ett ? D oy oun ot know th att hey were as pe cies of g all oping , ors aw ing oft heir bre asts , or what w ast ob ed one about the t im ew hen J acks on was looking ont hew ind ow ? What ist hes uccess of an English man , and which h isson has not be end is cover ing t ome , where by to acc omp lish such a we ight ? D idy ou ever m ake ap ass age int othe old road way , ort o an anch or - b ree ze att he foot of our boat , which you m ust le ave us ? The fact is , that whe ther the wind would rise up from the pl ain on S atur day night orn o ont ide , ort ill then orth , or other wise , wes hall be com pelled t od esc ribe af orm idable bar rier , with t hes ame e ffect s ast he p resent . In th iss itu ation , at le ast , itis not to omuch t os ay that we have le ft that room . I bel ieve there are three c op ies int he " F ive H undred - fold ," to bere fer red to , ast he first n umber of our read ers wh ow is ht اصلاحشده:
"چارلز دیکنز کیست؟ آیا آثار بیشتری از برانگیختگی عالی او در نمایشنامههایش، در مزرعه شرکت بزرگ وجود دارد؟ هنوز چه چیزی باید از جک پیکت نقل کنم؟ آیا نمیدانید که آنها نوعی تاختوتاز، یا بریدن سینههایشان بودند، یا چه کاری باید انجام میشد در زمانی که جکسون از پنجره نگاه میکرد؟ موفقیت یک انگلیسی چیست، و آن چیزی که پسرش هنوز برای من کشف نکرده است، تا بتوان چنین وزنی را به انجام رساند؟ آیا تا به حال گذری به جاده قدیمی داشتهاید، یا به نسیم لنگر در پای قایقمان، که باید ما را ترک کنید؟ واقعیت این است که چه باد از دشت در شب شنبه یا ظهر، یا تا شمال، یا غیر از آن برخیزد یا نه، ما مجبور خواهیم بود مانعی عظیم را توصیف کنیم، با همان اثراتی که اکنون وجود دارد. حداقل در این وضعیت، گفتن اینکه ما آن اتاق را ترک کردهایم، چندان زیاد نیست. فکر میکنم سه نسخه در «پانصد نسخه» وجود دارد که باید به آنها اشاره شود، به عنوان اولین شماره خوانندگان ما که مایلند...[به]..."
v2mini-eval2
با استفاده از همان نمونه ۱۵ گیگابایتی که برای آموزش eval1 استفاده شده بود، آموزش داده شده است. مدل دوباره فقط تا ۱۰ هزار مرحله آموزش دیده است.
پرامپت: چارلز داروین
چارلز داروینECCEMACY. آقا، — مورد زیر برای من جالب است: — من دو هفته در لندن بودم و به شدت دچار حمله روماتیسم شدم. اولین حمله روماتیسم یک هفته قبل از دیدار با شما بود، و دومین زمانی که شما را دیدم، و سومین نیز زمانی که شما را دیدم، و سومین در همان زمان. با این حال، دومین حمله نقرس با هیچ علامت تب همراه نبود، اما با افزایش جریان ادرار و دفع بیشتر ادرار همراه بود. سومین حمله یک ساعت پس از دیدار با شما بود و با بازگشت حمله نقرس و بازگشت سریعتر نقرس دنبال شد. چهارمین حمله نیز با تب همراه بود اما همیشه با هیچ علامت تب همراه نبود. سومین حمله نقرس دو هفته پس از بیمار شدن شما بود و چهارمین با حمله نقرس دنبال شد. چهارمین حمله دو هفته پس از حمله به شما بود و با حس
دادهکاویها
v2
- ۹۰ گیگابایت متون لندن ۱۸۰۰-۱۸۷۵
- ۱۳۶,۳۴۴ سند
- کل ۹۰ گیگابایت هنوز در دسترس نیست زیرا هنوز توکنیزه نشده اما نمونه ۱۵ گیگابایتی را میتوانید در اینجا بیابید: https://huggingface.co/datasets/haykgrigorian/TimeCapsuleLLM-London-1800-1875-v2-15GB



برای اطلاعات بیشتر به گزارش سوگیری v2 مراجعه کنید.
نحوه استفاده
این پروژه عمدتاً بر گردآوری دادههای تاریخی، آمادهسازی آن برای آموزش و ساخت توکنایزر تمرکز دارد. من قرار نیست فرآیند کامل آموزش LLM را پوشش دهم، برای آن به nanoGPT توسط آندری کارپاتی مراجعه کنید.
مرحله ۱: جمعآوری و آمادهسازی متون تاریخی
- جمعآوری فایلهای .txt از کتابها، اسناد و غیره در دامنه عمومی از دوره زمانی انتخابی شما (مثلاً لندن ۱۸۰۰-۱۸۵۰)
- آنها را در بازه زمانی/مکانی انتخابشده خود نگه دارید
- فایلهای متنی را با استفاده از اسکریپت یا حذف دستی سرصفحه/پاصفحههای پروژه گوتنبرگ، حاشیهنویسیهای مدرن یا مواردی مانند خطاهای OCR پاکسازی کنید.
مرحله ۲: ساخت یک توکنایزر سفارشی
- train_tokenizer.py یا train_tokenizer_hf.py را روی دادههای پاکشده اجرا کنید.
- این کار به شما vocab.json و merges.txt را میدهد.
- این فایلها واژگان و قواعد ادغام را برای مدل شما تعریف میکنند.
مرحله ۳: مدل خود را آموزش دهید
- برای فرآیند آموزش به nanoGPT اثر آندری کارپاتی یا مستندات معماری انتخابی خود مراجعه کنید.
پرسشهای متداول
آموزش زمانی انتخابی چیست؟
آموزش زمانی انتخابی (STT) یک روش یادگیری ماشین است که در آن تمام دادههای آموزشی به طور خاص انتخاب میشوند تا در یک بازه تاریخی خاص قرار بگیرند. این کار برای مدلسازی زبان و دانش آن دوره بدون تأثیر مفاهیم مدرن انجام میشود. برای مثال، مدل فعلی من (v0.5) فقط بر اساس دادههای ۱۸۰۰-۱۸۷۵ آموزش دیده است، و از ابتدا آموزش داده شده تا خروجی آن بازتابدهنده سبک زبانی و زمینه تاریخی آن زمان باشد.
چرا فقط از فاینتیون یا LoRA استفاده نمیکنید؟
برای این پروژه من تلاش میکنم یک مدل زبانی بسازم که تحت تأثیر سوگیریهای مدرن نباشد. اگر چیزی مثل GPT-2 را فاینتیون کنم، آن مدل قبلاً آموزش دیده و آن اطلاعات از بین نمیرود. اگر از ابتدا آموزش دهم، مدل زبانی تظاهر به قدیمی بودن نمیکند، بلکه واقعاً قدیمی خواهد بود. هدف فعلی این پروژه ساخت مدلی است که فقط با استفاده از دانش کتابهای لندن منتشر شده بین ۱۸۰۰ تا ۱۸۷۵ استدلال کند.
چه نوع دادهای برای آموزش استفاده کردید؟
من از کتابها، اسناد حقوقی، روزنامهها و نوشتههای دیگر از لندن ۱۸۰۰–۱۸۷۵ استفاده کردم. لیستی که پیوند دادهام (برای v0) حدود ۲۰۰ مورد دارد اما برای اولین آموزش فقط از ۵۰ فایل با حجم ~۱۸۷ مگابایت استفاده کردم. میتوانید لیست اسناد را مشاهده کنید: https://github.com/haykgrigo3/TimeCapsuleLLM/blob/main/Copy%20of%20London%20Documents%20for%20Time%20Capsule%20LLM.txt
اندازه دیتاستها:
- v0: ~۱۸۷MB
- v0.5: ~۴۳۵MB
- v1: ~۶.۲۵GB
- v2mini-eval1: ۱۵GB
مدلها چقدر بزرگ هستند؟
v0: ۱۶ میلیون پارامتر
v0.5: ۱۲۳ میلیون پارامتر
v1: 700M Parameters
v2mini-eval1: 300M Parameters
Training Specs ?
v0/v0.5
GPU: Geforce rtx 4060 CPU: i5-13400F Ram: 16GB DDR5.v1
GPU: A100 SXM rentedv2mini-eval1
GPU: A100 SXM rented
--- Tranlated By Open Ai Tx | Last indexed: 2026-01-13 ---