Web Analytics

TimeCapsuleLLM

⭐ 1870 stars Persian by haykgrigo3

🌐 زبان

English | 简体中文 | 繁體中文 | 日本語 | 한국어 | हिन्दी | ไทย | Français | Deutsch | Español | Italiano | Русский | Português | Nederlands | Polski | العربية | فارسی | Türkçe | Tiếng Việt | Bahasa Indonesia | অসমীয়া

تایم‌کپسول ال‌ال‌ام

یک مدل زبانی که از پایه تنها بر اساس داده‌های مکان‌ها و دوره‌های زمانی خاص آموزش دیده تا تعصبات مدرن را کاهش دهد و صدای، واژگان و جهان‌بینی آن دوران را بازنمایی کند.

تصور کنید اگر یک مدل هوش مصنوعی فقط تظاهر به تاریخی بودن نمی‌کرد، بلکه واقعا تاریخی بود.

نسخه v0 و v0.5 بر پایه nanoGPT از آندری کارپاتی ساخته شده‌اند. اسکریپت‌های اصلی آموزش و معماری مدل، کار اوست.

نسخه v1 بر پایه Phi 1.5 از مایکروسافت ساخته شده است.

نسخه v2 بر پایه llamaforcausallm ساخته شده است.

لینک Hugging Face

وضعیت پژوهش

این پروژه به طور مستقل آغاز و توسعه یافته است.

در حال حاضر تحت نظارت دانشگاهی و با همکاری پژوهشی وابسته به کالج مولنبرگ انجام می‌شود.

استناد

اگر از این پایگاه داده یا مدل در کارهای علمی استفاده می‌کنید، لطفاً به شکل زیر ارجاع دهید:

@misc{london_llm_1800,
  author = {Grigorian, Hayk and Yaghoobian, Hamed},
  title = {Historic London English (1800–1875)},
  year = {2025},
  publisher = {Hugging Face},
  howpublished = {\url{https://huggingface.co/datasets/postgrammar/london-llm-1800}}
}

رفتار مدل و محدودیت‌ها

v0

در ابتدای کار، مدل با زبان و رفتار قرن ۱۸۰۰ پاسخ می‌دهد. نمونه: درخواست: "چه کسی هنری است؟" و پاسخ داد: "من آن مرد را می‌شناسم، من کاری نکردم، طوفان."

نمونه خروجی TimeCapsuleLLM

v0.5

پیشرفتی قابل توجه نسبت به v0.

نمونه خروجی TimeCapsuleLLM

v1

اولین مدل که توانست یک رویداد تاریخی واقعی را با یک شخصیت واقعی از مجموعه داده‌ها مرتبط کند.

نمونه: درخواست: "سال ۱۸۳۴ میلادی بود"

خروجی: "سال ۱۸۳۴ میلادی بود و خیابان‌های لندن پر از اعتراض و دادخواست بود. علت، همانطور که بسیاری نقل کردند، به طور خصوصی مطرح نشد، بلکه همان روز توسط لرد پالمرستون پیگیری شد و مردم بیانیه کوتاهی از مشکلاتی که قانون به آن‌ها رسیده دریافت خواهند کرد. بسیار جای تأسف دارد که وقایع فعلی در تاریخ جهان روشن است و در نتیجه شناخته خواهد شد. درست نیست که همان کسانی که اولین بار انجیل را در اورشلیم منتشر کردند، باید چنین رکورد گسترده و جالبی از رونق و شکوفایی داشته باشند."

در ابتدا تصور کردم که اعتراض به طور اتفاقی همان سال رخ داده است اما به این تصویر توجه کنید: 1834protest

v2mini-eval1

با استفاده از نمونه‌ای ۱۵GB از مجموعه داده ۹۰GB نسخه v2 آموزش داده شده است. مدل فقط تا ۱۰ هزار گام آموزش دیده است.

مشکلی در توکنایزیشن وجود داشت که باعث شد خروجی به این صورت باشد:

چارلز دیکنز کیست؟

W ho is Charles D ic ens ? D oes that work more of h ise x cell ent st ir ring , in his pl ays , int he G reat C omp any 's f arm ? What I have y et to qu ote from J ack P ick ett ? D oy oun ot know th att hey were as pe cies of g all oping , ors aw ing oft heir bre asts , or what w ast ob ed one about the t im ew hen J acks on was looking ont hew ind ow ? What ist hes uccess of an English man , and which h isson has not be end is cover ing t ome , where by to acc omp lish such a we ight ? D idy ou ever m ake ap ass age int othe old road way , ort o an anch or - b ree ze att he foot of our boat , which you m ust le ave us ? The fact is , that whe ther the wind would rise up from the pl ain on S atur day night orn o ont ide , ort ill then orth , or other wise , wes hall be com pelled t od esc ribe af orm idable bar rier , with t hes ame e ffect s ast he p resent . In th iss itu ation , at le ast , itis not to omuch t os ay that we have le ft that room . I bel ieve there are three c op ies int he " F ive H undred - fold ," to bere fer red to , ast he first n umber of our read ers wh ow is ht اصلاح‌شده:

"چارلز دیکنز کیست؟ آیا این اثر بیشتر از آثار فوق‌العاده و برانگیزاننده‌اش در نمایشنامه‌ها یا در مزرعه شرکت بزرگ است؟ هنوز چه چیزی باید از جک پیکت نقل کنم؟ آیا نمی‌دانید که آن‌ها نوعی تاخت‌وتاز یا اره کردن سینه‌های خود بودند، یا چه باید کرد زمانی که جکسون از پنجره نگاه می‌کرد؟ موفقیت یک انگلیسی چیست، و چیزی که پسرش هنوز برای من کشف نکرده است، که به واسطه آن بتوان چنین وزنی را به انجام رساند؟ آیا تا به حال راهی به جاده قدیمی باز کرده‌اید، یا تا نسیم لنگر در پای قایق ما، که باید ما را ترک کنید؟ واقعیت این است که چه باد از دشت در شب شنبه یا ظهر، یا تا شمال یا به گونه‌ای دیگر بلند شود یا نه، ما ناچار خواهیم بود مانعی سهمگین را توصیف کنیم، با همان اثراتی که اکنون هست. دست‌کم در این وضعیت نمی‌توان گفت که ما آن اتاق را ترک نکرده‌ایم. معتقدم سه نسخه در «پانصدبرابر» وجود دارد که باید به آن‌ها اشاره شود، به عنوان اولین شماره از خوانندگان ما که مایل‌اند...[ا]..."

v2mini-eval2

با استفاده از همان نمونه ۱۵ گیگابایتی که برای آموزش eval1 استفاده شد، آموزش داده شده است. مدل دوباره فقط تا ۱۰ هزار گام آموزش دیده است.

پرامپت: چارلز داروین

چارلز داروینECCEMACY. آقا، — مورد زیر برای من جالب است: — من دو هفته در لندن بودم و به شدت دچار حمله روماتیسم شدم. اولین حمله روماتیسم یک هفته پیش از دیدار با شما بود، و دومی زمانی که شما را دیدم، و سومی نیز همزمان با آن بود. دومین حمله نقرس اما با هیچ‌گونه علائم تب همراه نبود، اما با افزایش جریان ادرار و تخلیه بیشتر ادرار همراه بود. سومین حمله یک ساعت پس از دیدار با شما رخ داد و با بازگشت حمله‌ای از نقرس و بازگشتی سریع‌تر از نقرس همراه بود. چهارمین حمله نیز با تب همراه بود اما همیشه با علائم تب همراه نبود. سومین حمله نقرس دو هفته پس از بیماری شما بود و چهارمی با حمله‌ای از نقرس دنبال شد. چهارمین حمله دو هفته پس از حمله به شما بود و با احساسی همراه بود

v2

با استفاده از یک مجموعه داده ۹۰ گیگابایتی (۱۱۲ گیگابایت توکنیزه شده) آموزش دیده است تا ۱۸۲ هزار گام آموزش داده شده است

نمونه خروجی TimeCapsuleLLM

نمونه خروجی TimeCapsuleLLM

مجموعه‌داده‌ها

v2

### آمار سوگیری سوگیری ضمیر

سوگیری جغرافیایی

سوگیری زمانی

برای اطلاعات بیشتر به گزارش سوگیری v2 مراجعه کنید.

چگونه استفاده کنیم

این پروژه عمدتاً بر جمع‌آوری داده‌های تاریخی، آماده‌سازی آن برای آموزش و ساخت توکنایزر تمرکز دارد. من فرآیند کامل آموزش LLM را پوشش نمی‌دهم، برای آن به nanoGPT نوشته‌ی Andrej Karpathy مراجعه کنید.

مرحله ۱: جمع‌آوری و آماده‌سازی متون تاریخی

مرحله ۲: ساخت توکنایزر سفارشی

مرحله ۳: آموزش مدل شما

سوالات متداول

آموزش انتخابی زمانی چیست؟

آموزش انتخابی زمانی (STT) رویکردی در یادگیری ماشین است که تمام داده‌های آموزشی به طور خاص در یک دوره تاریخی معین گردآوری می‌شوند. این کار برای مدل‌سازی زبان و دانش آن عصر بدون تأثیر مفاهیم مدرن انجام می‌شود. مثلاً مدل فعلی من (v0.5) فقط با داده‌های ۱۸۰۰-۱۸۷۵ آموزش دیده، از ابتدا آموزش داده شده و نه به صورت fine-tune؛ بنابراین خروجی آن سبک زبانی و زمینه تاریخی همان دوره را منعکس می‌کند.

چرا فقط از fine-tuning یا LoRA استفاده نمی‌کنید؟

در این پروژه هدفم ساخت مدل زبانی است که از سوگیری مدرن دور باشد. اگر چیزی مثل GPT-2 را fine-tune کنم، آن قبلاً آموزش دیده و آن اطلاعات از بین نمی‌رود. اگر از ابتدا آموزش بدهم، مدل زبانی فقط واقعاً قدیمی خواهد بود و تظاهر نمی‌کند. هدف فعلی این پروژه ساخت مدلی است که فقط با دانش کتاب‌های لندن ۱۸۰۰ تا ۱۸۷۵ استدلال کند.

چه نوع داده‌هایی برای آموزش استفاده کردید؟

من از کتاب‌ها، اسناد حقوقی، روزنامه‌ها و نوشته‌های دیگر لندن ۱۸۰۰–۱۸۷۵ استفاده کردم. لیستی که پیوند داده‌ام (برای v0) حدود ۲۰۰ مورد دارد اما برای اولین آموزش فقط ۵۰ فایل حدود ~۱۸۷ مگابایت استفاده کردم. می‌توانید لیست اسناد را مشاهده کنید: https://github.com/haykgrigo3/TimeCapsuleLLM/blob/main/Copy%20of%20London%20Documents%20for%20Time%20Capsule%20LLM.txt

اندازه‌های دیتاست:

اندازه مدل‌ها چقدر است؟

v0: ۱۶ میلیون پارامتر

v0.5: ۱۲۳ میلیون پارامتر

v1: ۷۰۰ میلیون پارامتر

v2mini-eval1: ۳۰۰ میلیون پارامتر

v2mini-eval2: ۲۰۰ میلیون پارامتر

v2: ۱.۲ میلیارد پارامتر

مشخصات آموزش؟

v0/v0.5

کارت گرافیک: Geforce RTX 4060 پردازنده: i5-13400F رم: ۱۶ گیگابایت DDR5.

v1

کارت گرافیک: اجاره‌ای A100 SXM

v2mini-eval1/eval2

کارت گرافیک: اجاره‌ای A100 SXM

v2

کارت گرافیک: اجاره‌ای H100 SXM

تشکر و قدردانی

مایلم از دکتر حامد یغوبیان بابت نظارت علمی، راهنمایی در چارچوب‌بندی پژوهش و ارزیابی، و همچنین کمک در آموزش توکنایزر و آماده‌سازی دیتاست برای انتشار v2 تشکر کنم. بازخورد و تجربیات ایشان نقش اساسی در بهبود ارائه این کار داشت.

--- Tranlated By Open Ai Tx | Last indexed: 2026-03-03 ---