🌐 زبان

تایم‌کپسول LLM

Name: TimeCapsuleLLM
Rating: 5 (1248 reviews)
Author: haykgrigo3

یک مدل زبانی که از پایه و منحصراً بر اساس داده‌های مکان‌ها و دوره‌های زمانی خاص آموزش دیده تا سوگیری‌های مدرن را کاهش داده و لحن، واژگان و جهان‌بینی همان عصر را بازآفرینی کند.

تصور کنید اگر یک مدل هوش مصنوعی فقط نقش تاریخی بازی نمی‌کرد بلکه واقعاً تاریخی بود.

نسخه‌های v0 و v0.5 با استفاده از nanoGPT اثر آندری کارپاتی ساخته شده‌اند. اسکریپت‌های اصلی آموزش و معماری مدل متعلق به اوست.

نسخه v1 بر پایه Phi 1.5 توسط مایکروسافت ساخته شده است

نسخه v2 بر پایه llamaforcausallm ساخته شده است

لینک Hugging Face

رفتار مدل و محدودیت‌ها

v0

در دستورات اولیه، مدل با زبان و رفتار قرن نوزدهم پاسخ می‌دهد. مثال: دستور: "Henry کیست؟" و پاسخ داد: "من آن مرد را می‌شناسم، من نکرده‌ام سیاه، طوفان."

نمونه خروجی TimeLockLLM

هیچ اشاره‌ای به مفاهیم مدرن
عمدتاً واژگان متناسب با دوره تاریخی
جملات عمدتاً نامفهوم (قابل انتظار به خاطر داده آموزشی ~187MB)

v0.5

پیشرفت قابل توجه نسبت به v0.

سبک نگارش ویکتوریایی، نقطه‌گذاری صحیح، جملات عمدتاً دستوری
هنوز نرخ هذیان‌گویی اطلاعاتی بالا
نویز OCR («Digitized by Google») همچنان در خروجی‌ها دیده می‌شود

v1

اولین مدلی که می‌تواند یک رویداد تاریخی واقعی را به یک شخصیت واقعی از دیتاست متصل کند.

مثال: دستور: "سال ۱۸۳۴ میلادی بود"

خروجی: "سال ۱۸۳۴ میلادی بود و خیابان‌های لندن پر از اعتراض و طومار شده بود. علت، چنان که بسیاری نقل کردند، محدود به راه خصوصی نبود، بلکه همان روز در روز لرد پالمرستون نیز مطرح شد، عموم بیانیه کوتاهی از مشکلاتی که روز قانون به آن رسیده دریافت خواهند کرد. جای تاسف است که رویدادهای حاضر در تاریخ جهان روشن است و در نتیجه شناخته خواهد شد. درست نیست که همان مردانی که نخستین بار انجیل را در اورشلیم مستقر کردند، چنین سابقه گسترده و جالبی از رفاه و رونق داشته باشند"

ابتدا فکر می‌کردم شاید به طور تصادفی در همان سال اعتراضی رخ داده باشد اما به این نگاه کنید: 1834protest

v2mini-eval1

آموزش دیده با نمونه‌ای ۱۵ گیگابایتی از دیتاست ۹۰ گیگابایتی نسخه v2. مدل فقط تا ۱۰ هزار گام آموزش داده شده است.

مشکلی در توکنیزاسیون وجود داشت که باعث شد خروجی به این شکل باشد:

درخواست: چارلز دیکنز کیست؟

W ho is Charles D ic ens ? D oes that work more of h ise x cell ent st ir ring , in his pl ays , int he G reat C omp any 's f arm ? What I have y et to qu ote from J ack P ick ett ? D oy oun ot know th att hey were as pe cies of g all oping , ors aw ing oft heir bre asts , or what w ast ob ed one about the t im ew hen J acks on was looking ont hew ind ow ? What ist hes uccess of an English man , and which h isson has not be end is cover ing t ome , where by to acc omp lish such a we ight ? D idy ou ever m ake ap ass age int othe old road way , ort o an anch or - b ree ze att he foot of our boat , which you m ust le ave us ? The fact is , that whe ther the wind would rise up from the pl ain on S atur day night orn o ont ide , ort ill then orth , or other wise , wes hall be com pelled t od esc ribe af orm idable bar rier , with t hes ame e ffect s ast he p resent . In th iss itu ation , at le ast , itis not to omuch t os ay that we have le ft that room . I bel ieve there are three c op ies int he " F ive H undred - fold ," to bere fer red to , ast he first n umber of our read ers wh ow is ht اصلاح‌شده:

"چارلز دیکنز کیست؟ آیا آثار بیشتری از برانگیختگی عالی او در نمایشنامه‌هایش، در مزرعه شرکت بزرگ وجود دارد؟ هنوز چه چیزی باید از جک پیکت نقل کنم؟ آیا نمی‌دانید که آنها نوعی تاخت‌وتاز، یا بریدن سینه‌هایشان بودند، یا چه کاری باید انجام می‌شد در زمانی که جکسون از پنجره نگاه می‌کرد؟ موفقیت یک انگلیسی چیست، و آن چیزی که پسرش هنوز برای من کشف نکرده است، تا بتوان چنین وزنی را به انجام رساند؟ آیا تا به حال گذری به جاده قدیمی داشته‌اید، یا به نسیم لنگر در پای قایقمان، که باید ما را ترک کنید؟ واقعیت این است که چه باد از دشت در شب شنبه یا ظهر، یا تا شمال، یا غیر از آن برخیزد یا نه، ما مجبور خواهیم بود مانعی عظیم را توصیف کنیم، با همان اثراتی که اکنون وجود دارد. حداقل در این وضعیت، گفتن اینکه ما آن اتاق را ترک کرده‌ایم، چندان زیاد نیست. فکر می‌کنم سه نسخه در «پانصد نسخه» وجود دارد که باید به آنها اشاره شود، به عنوان اولین شماره خوانندگان ما که مایلند...[به]..."

v2mini-eval2

با استفاده از همان نمونه ۱۵ گیگابایتی که برای آموزش eval1 استفاده شده بود، آموزش داده شده است. مدل دوباره فقط تا ۱۰ هزار مرحله آموزش دیده است.

پرامپت: چارلز داروین

چارلز داروینECCEMACY. آقا، — مورد زیر برای من جالب است: — من دو هفته در لندن بودم و به شدت دچار حمله روماتیسم شدم. اولین حمله روماتیسم یک هفته قبل از دیدار با شما بود، و دومین زمانی که شما را دیدم، و سومین نیز زمانی که شما را دیدم، و سومین در همان زمان. با این حال، دومین حمله نقرس با هیچ علامت تب همراه نبود، اما با افزایش جریان ادرار و دفع بیشتر ادرار همراه بود. سومین حمله یک ساعت پس از دیدار با شما بود و با بازگشت حمله نقرس و بازگشت سریع‌تر نقرس دنبال شد. چهارمین حمله نیز با تب همراه بود اما همیشه با هیچ علامت تب همراه نبود. سومین حمله نقرس دو هفته پس از بیمار شدن شما بود و چهارمین با حمله نقرس دنبال شد. چهارمین حمله دو هفته پس از حمله به شما بود و با حس

داده‌کاوی‌ها

v2

۹۰ گیگابایت متون لندن ۱۸۰۰-۱۸۷۵
۱۳۶,۳۴۴ سند
کل ۹۰ گیگابایت هنوز در دسترس نیست زیرا هنوز توکنیزه نشده اما نمونه ۱۵ گیگابایتی را می‌توانید در اینجا بیابید: https://huggingface.co/datasets/haykgrigorian/TimeCapsuleLLM-London-1800-1875-v2-15GB

### آمار سوگیری سوگیری ضمیر

سوگیری جغرافیایی

سوگیری زمانی

برای اطلاعات بیشتر به گزارش سوگیری v2 مراجعه کنید.

نحوه استفاده

این پروژه عمدتاً بر گردآوری داده‌های تاریخی، آماده‌سازی آن برای آموزش و ساخت توکنایزر تمرکز دارد. من قرار نیست فرآیند کامل آموزش LLM را پوشش دهم، برای آن به nanoGPT توسط آندری کارپاتی مراجعه کنید.

مرحله ۱: جمع‌آوری و آماده‌سازی متون تاریخی

جمع‌آوری فایل‌های .txt از کتاب‌ها، اسناد و غیره در دامنه عمومی از دوره زمانی انتخابی شما (مثلاً لندن ۱۸۰۰-۱۸۵۰)

آن‌ها را در بازه زمانی/مکانی انتخاب‌شده خود نگه دارید
فایل‌های متنی را با استفاده از اسکریپت یا حذف دستی سرصفحه/پاصفحه‌های پروژه گوتنبرگ، حاشیه‌نویسی‌های مدرن یا مواردی مانند خطاهای OCR پاک‌سازی کنید.

مرحله ۲: ساخت یک توکنایزر سفارشی

train_tokenizer.py یا train_tokenizer_hf.py را روی داده‌های پاک‌شده اجرا کنید.
این کار به شما vocab.json و merges.txt را می‌دهد.
این فایل‌ها واژگان و قواعد ادغام را برای مدل شما تعریف می‌کنند.

مرحله ۳: مدل خود را آموزش دهید

برای فرآیند آموزش به nanoGPT اثر آندری کارپاتی یا مستندات معماری انتخابی خود مراجعه کنید.

پرسش‌های متداول

آموزش زمانی انتخابی چیست؟

آموزش زمانی انتخابی (STT) یک روش یادگیری ماشین است که در آن تمام داده‌های آموزشی به طور خاص انتخاب می‌شوند تا در یک بازه تاریخی خاص قرار بگیرند. این کار برای مدل‌سازی زبان و دانش آن دوره بدون تأثیر مفاهیم مدرن انجام می‌شود. برای مثال، مدل فعلی من (v0.5) فقط بر اساس داده‌های ۱۸۰۰-۱۸۷۵ آموزش دیده است، و از ابتدا آموزش داده شده تا خروجی آن بازتاب‌دهنده سبک زبانی و زمینه تاریخی آن زمان باشد.

چرا فقط از فاین‌تیون یا LoRA استفاده نمی‌کنید؟

برای این پروژه من تلاش می‌کنم یک مدل زبانی بسازم که تحت تأثیر سوگیری‌های مدرن نباشد. اگر چیزی مثل GPT-2 را فاین‌تیون کنم، آن مدل قبلاً آموزش دیده و آن اطلاعات از بین نمی‌رود. اگر از ابتدا آموزش دهم، مدل زبانی تظاهر به قدیمی بودن نمی‌کند، بلکه واقعاً قدیمی خواهد بود. هدف فعلی این پروژه ساخت مدلی است که فقط با استفاده از دانش کتاب‌های لندن منتشر شده بین ۱۸۰۰ تا ۱۸۷۵ استدلال کند.

چه نوع داده‌ای برای آموزش استفاده کردید؟

من از کتاب‌ها، اسناد حقوقی، روزنامه‌ها و نوشته‌های دیگر از لندن ۱۸۰۰–۱۸۷۵ استفاده کردم. لیستی که پیوند داده‌ام (برای v0) حدود ۲۰۰ مورد دارد اما برای اولین آموزش فقط از ۵۰ فایل با حجم ~۱۸۷ مگابایت استفاده کردم. می‌توانید لیست اسناد را مشاهده کنید: https://github.com/haykgrigo3/TimeCapsuleLLM/blob/main/Copy%20of%20London%20Documents%20for%20Time%20Capsule%20LLM.txt

اندازه دیتاست‌ها:

v0: ~۱۸۷MB
v0.5: ~۴۳۵MB
v1: ~۶.۲۵GB
v2mini-eval1: ۱۵GB

مدل‌ها چقدر بزرگ هستند؟

v0: ۱۶ میلیون پارامتر

v0.5: ۱۲۳ میلیون پارامتر

v1: 700M Parameters

v2mini-eval1: 300M Parameters

Training Specs ?

v0/v0.5

GPU: Geforce rtx 4060 CPU: i5-13400F Ram: 16GB DDR5.

v1

GPU: A100 SXM rented

v2mini-eval1

GPU: A100 SXM rented

--- Tranlated By Open Ai Tx | Last indexed: 2026-01-13 ---