Web Analytics

TimeCapsuleLLM

⭐ 1915 stars Persian by haykgrigo3

🌐 زبان

English | 简体中文 | 繁體中文 | 日本語 | 한국어 | हिन्दी | ไทย | Français | Deutsch | Español | Italiano | Русский | Português | Nederlands | Polski | العربية | فارسی | Türkçe | Tiếng Việt | Bahasa Indonesia | অসমীয়া

تایم‌کپسول ال‌ال‌ام

یک مدل زبانی که از پایه تنها بر اساس داده‌های مکان‌ها و دوره‌های زمانی خاص آموزش دیده تا تعصبات مدرن را کاهش دهد و صدای، واژگان و جهان‌بینی آن دوران را بازنمایی کند.

تصور کنید اگر یک مدل هوش مصنوعی فقط تظاهر به تاریخی بودن نمی‌کرد، بلکه واقعا تاریخی بود.

نسخه v0 و v0.5 بر پایه nanoGPT از آندری کارپاتی ساخته شده‌اند. اسکریپت‌های اصلی آموزش و معماری مدل، کار اوست.

نسخه v1 بر پایه Phi 1.5 از مایکروسافت ساخته شده است.

نسخه v2 بر پایه llamaforcausallm ساخته شده است.

لینک Hugging Face

وضعیت پژوهش

این پروژه به طور مستقل آغاز و توسعه یافته است.

در حال حاضر تحت نظارت دانشگاهی و با همکاری پژوهشی وابسته به کالج مولنبرگ انجام می‌شود.

استناد

اگر از این پایگاه داده یا مدل در کارهای علمی استفاده می‌کنید، لطفاً به شکل زیر ارجاع دهید:

@misc{london_llm_1800,
  author = {Grigorian, Hayk and Yaghoobian, Hamed},
  title = {Historic London English (1800–1875)},
  year = {2025},
  publisher = {Hugging Face},
  howpublished = {\url{https://huggingface.co/datasets/postgrammar/london-llm-1800}}
}

به دیسکورد Vintage LLM بپیوندید

اگر به مدل‌های زبان تاریخی، داده‌ مجموعه‌های مرتبط با زمان یا آینده پروژه‌هایی مانند TimeCapsuleLLM، Violet-1.4B، Mr. Chatterbox علاقه‌مند هستید، به جامعه ما بپیوندید.

ما از این سرور برای بحث درباره ایده‌ها، به اشتراک‌گذاری پیشرفت‌ها و ارتباط با دیگران در این حوزه استفاده می‌کنیم.

به دیسکورد بپیوندید

رفتار مدل و محدودیت‌ها

v0

دستورهای اولیه نشان می‌دهد مدل با زبان و رفتار دهه ۱۸۰۰ پاسخ می‌دهد. مثال: دستور: "Who art Henry?" و پاسخ: "I know that man, I have did not a black, the storm."

نمونه خروجی TimeCapsuleLLM

v0.5-london

پیشرفت چشمگیر نسبت به v0.

نمونه خروجی TimeCapsuleLLM

v1-london

اولین مدلی که یک رویداد واقعی تاریخی را با یک شخصیت واقعی از مجموعه داده‌ها به یاد آورده و ارتباط می‌دهد.

مثال: دستور: "It was the year of our Lord 1834"

خروجی: "It was the year of our Lord 1834 and the streets of London were filled with protest and petition. The cause, as many re counted, was not bound in the way of private, but having taken up the same day in the day of Lord Palmerston, the public will receive a short statement of the difficulties under which the day of law has reached us. It is a matter of deep regret, that the present events in the history of the world are clear, and consequently will be'known. It is not true that the very men who first settled in the Gospel at Jerusalem should have so extensive and so interesting a record of the prosperity and prosperity"

در ابتدا تصور می‌کردم که تظاهرات به طور تصادفی همان سال رخ داده اما به این تصویر نگاه کنید: 1834protest

v2mini-eval1-london

با استفاده از یک نمونه ۱۵ گیگابایتی از دیتاست ۹۰ گیگابایتی v2 آموزش داده شده است. مدل فقط تا ۱۰ هزار گام آموزش دیده است.

مشکلی در توکنیزاسیون وجود داشت که باعث شد خروجی به این شکل باشد:

درخواست: چارلز دیکنز کیست؟

W ho is Charles D ic ens ? D oes that work more of h ise x cell ent st ir ring , in his pl ays , int he G reat C omp any 's f arm ? What I have y et to qu ote from J ack P ick ett ? D oy oun ot know th att hey were as pe cies of g all oping , ors aw ing oft heir bre asts , or what w ast ob ed one about the t im ew hen J acks on was looking ont hew ind ow ? What ist hes uccess of an English man , and which h isson has not be end is cover ing t ome , where by to acc omp lish such a we ight ? D idy ou ever m ake ap ass age int othe old road way , ort o an anch or - b ree ze att he foot of our boat , which you m ust le ave us ? The fact is , that whe ther the wind would rise up from the pl ain on S atur day night orn o ont ide , ort ill then orth , or other wise , wes hall be com pelled t od esc ribe af orm idable bar rier , with t hes ame e ffect s ast he p resent . In th iss itu ation , at le ast , itis not to omuch t os ay that we have le ft that room . I bel ieve there are three c op ies int he " F ive H undred - fold ," to bere fer red to , ast he first n umber of our read ers wh ow is ht اصلاح‌شده:

«چارلز دیکنز کیست؟ آیا آن اثر بیشتر از آثار برانگیزاننده و عالی او، در نمایشنامه‌هایش، یا در مزرعه شرکت بزرگ بوده است؟ هنوز چه چیزی باید از جک پیکت نقل کنم؟ آیا نمی‌دانید که آن‌ها نوعی تاخت‌وتاز، یا سینه‌زنی، یا کاری که باید در زمانی انجام می‌شد که جکسون از پنجره نگاه می‌کرد، بودند؟ موفقیت یک انگلیسی چیست و چه چیزی را پسرش هنوز برای من کشف نکرده که بتوان با آن چنین باری را به انجام رساند؟ آیا تاکنون گذری به جاده قدیمی یا به نسیم لنگر در پای قایق ما داشته‌اید که باید ما را ترک کنید؟ واقعیت این است که چه باد از دشت در شب شنبه یا ظهر، یا تا شمال، یا به گونه‌ای دیگر برخیزد یا نه، ما ناچاریم مانعی هولناک را توصیف کنیم، با همان تأثیراتی که اکنون وجود دارد. در این وضعیت، حداقل، گفتن این که ما آن اتاق را ترک کرده‌ایم چندان اغراق نیست. فکر می‌کنم سه نسخه در «پانصدبرابر» وجود دارد که باید به آن‌ها مراجعه کرد، به‌عنوان اولین شماره از خوانندگانی که مایلند...[ی]...»

v2mini-eval2-london

آموزش داده شده با همان نمونه ۱۵ گیگابایتی که برای آموزش eval1 استفاده شده بود. مدل دوباره فقط تا ۱۰ هزار گام آموزش دیده است.

پرومپت: چارلز داروین

چارلز داروینECCEMACY. آقا، — مورد زیر برای من جالب است: — من دو هفته در لندن بودم و به شدت دچار حمله رماتیسم شدم. اولین حمله رماتیسم یک هفته قبل از دیدار با شما بود و دومین بار هنگام دیدار با شما و سومین بار نیز همزمان با آن. اما دومین حمله نقرس با هیچ نشانه تب‌آلودی همراه نبود، ولی با افزایش جریان ادرار و دفع بیشتر ادرار همراه بود. سومین حمله یک ساعت بعد از دیدار با شما رخ داد و پس از آن بازگشت حمله نقرس و بازگشت سریع‌تر نقرس اتفاق افتاد. حمله چهارم نیز با تب همراه بود اما همیشه با نشانه‌های تب‌آلود همراه نبود. سومین حمله نقرس دو هفته بعد از بیمار شدن شما رخ داد و چهارمین حمله با حمله نقرس دنبال شد. حمله چهارم دو هفته بعد از حمله به شما رخ داد و با حسی همراه بود

v2-london

آموزش داده شده با یک دیتاست ۹۰ گیگابایتی (۱۱۲ گیگابایت توکنیزه‌شده) آموزش تا ۱۸۲ هزار گام

نمونه خروجی TimeCapsuleLLM

نمونه خروجی TimeCapsuleLLM

گام بعدی چیست؟

این کار با همکاری پژوهشگرانی از دانشگاه کالج لندن (UCL) در حال انجام است و مشارکت‌های نهادی بیشتری در دست بررسی است.

دیتاست‌ها

v2

آمار سوگیری

سوگیری ضمیر

سوگیری جغرافیایی

سوگیری زمانی

برای اطلاعات بیشتر به گزارش سوگیری نسخه ۲ مراجعه کنید.

-

نحوه استفاده

این پروژه عمدتاً بر گردآوری داده‌های تاریخی، آماده‌سازی آن برای آموزش و ساخت توکنایزر متمرکز است. فرآیند کامل آموزش LLM در اینجا پوشش داده نمی‌شود؛ برای این منظور به nanoGPT توسط Andrej Karpathy مراجعه کنید.

مرحله ۱: جمع‌آوری و آماده‌سازی متون تاریخی

مرحله ۲: ساخت توکنایزر سفارشی

مرحله ۳: آموزش مدل شما

سوالات متداول

آموزش انتخابی زمانی چیست؟

آموزش انتخابی زمانی (STT) روشی در یادگیری ماشین است که در آن همه داده‌های آموزشی به طور خاص برای قرار گرفتن در یک دوره تاریخی خاص گردآوری می‌شوند. این کار به منظور مدل‌سازی زبان و دانش آن دوره بدون تأثیر مفاهیم مدرن انجام می‌شود. برای مثال، مدل فعلی من (نسخه ۰.۵) صرفاً بر داده‌های ۱۸۰۰-۱۸۷۵ آموزش دیده است، به صورت کامل از ابتدا آموزش داده شده و خروجی آن منعکس‌کننده سبک زبانی و زمینه تاریخی آن دوره است.

چرا فقط از فاین‌تیون یا LoRA استفاده نمی‌کنید؟

برای این پروژه من تلاش می‌کنم یک مدل زبانی بسازم که از سوگیری‌های مدرن پاک باشد. اگر چیزی مثل GPT-2 را فاین‌تیون کنم، آن قبلاً پیش‌آموزش داده شده و آن اطلاعات از بین نمی‌رود. اگر مدل زبانی را از ابتدا آموزش دهم، تظاهر به قدیمی بودن نمی‌کند، واقعاً همین‌گونه است. هدف فعلی این پروژه ساخت مدلی است که منحصراً با استفاده از دانش کتاب‌های لندن منتشرشده بین سال‌های ۱۸۰۰ تا ۱۸۷۵ استدلال کند.

از چه نوع داده‌ای برای آموزش استفاده کردید؟

من از کتاب‌ها، اسناد حقوقی، روزنامه‌ها و سایر نوشته‌های لندن بین سال‌های ۱۸۰۰ تا ۱۸۷۵ استفاده می‌کنم. لیستی که پیوند دادم (برای نسخه v0) حدود ۲۰۰ مورد دارد اما برای اولین آموزش فقط از ۵۰ فایل به حجم تقریبی ۱۸۷ مگابایت استفاده کردم. می‌توانید فهرست اسناد را مشاهده کنید: https://github.com/haykgrigo3/TimeCapsuleLLM/blob/main/Copy%20of%20London%20Documents%20for%20Time%20Capsule%20LLM.txt

اندازه دیتاست‌ها:

اندازه مدل‌ها چقدر است؟

v0: شانزده میلیون پارامتر

v0.5: صد و بیست و سه میلیون پارامتر

v1: هفتصد میلیون پارامتر

v2mini-eval1: سیصد میلیون پارامتر

v2mini-eval2: دویست میلیون پارامتر

v2: یک میلیارد و دویست میلیون پارامتر

مشخصات آموزش؟

v0/v0.5

کارت گرافیک: Geforce rtx 4060 پردازنده: i5-13400F رم: ۱۶ گیگابایت DDR5.

v1

کارت گرافیک: A100 SXM اجاره‌ای

v2mini-eval1/eval2

GPU: اجاره‌ای A100 SXM

v2

GPU: اجاره‌ای H100 SXM

کارهای مرتبط

تشکر و قدردانی

مایلم از دکتر حامد یعقوبیان بابت نظارت علمی، راهنمایی در زمینه چارچوب‌بندی تحقیق و ارزیابی، و همچنین کمک در آموزش توکنایزر و آماده‌سازی داده برای انتشار نسخه v2 تشکر کنم. بازخورد و تجربیات ایشان نقش اساسی در بهبود ارائه این کار داشت.

--- Tranlated By Open Ai Tx | Last indexed: 2026-05-20 ---