TimeCapsule LLM
এখন ভাষা ম'ডেল যি শূন্যৰ পৰা কেৱল নিৰ্দিষ্ট স্থান আৰু সময়ৰ তথ্যত আধাৰিত হৈ প্ৰশিক্ষিত কৰা হৈছে যাতে আধুনিক পক্ষপাত কমোৱা যায় আৰু সেই যুগৰ ভাষা, শব্দভঁৰালি আৰু দৃষ্টিভংগীক অনুকৰণ কৰিব পাৰে।
কল্পনা কৰক যদি এটা AI ম'ডেলে কেৱল ঐতিহাসিক বুলি অভিনয় নকৰে, সেয়া বাস্তৱতে আছিল।
v0 আৰু v0.5 Andrej Karpathy ৰ nanoGPT ত নিৰ্মিত। মূল প্ৰশিক্ষণ স্ক্ৰিপ্ট আৰু ম'ডেলৰ স্থাপত্য তেওঁৰ কাম।
v1 Microsoft ৰ Phi 1.5 ত নিৰ্মিত
v2 llamaforcausallm ত নিৰ্মিত
গৱেষণা স্থিতি
এই প্ৰকল্পটো স্বাধীনভাৱে আৰম্ভ আৰু উন্নয়ন কৰা হৈছে।বৰ্তমানে এইটো একাডেমিক পৰ্যবেক্ষণত চলি আছে, Muhlenberg College ত সংলগ্ন গৱেষণা সহযোগিতাৰে।
উদ্ধৃতি
আপুনি যদি এই ডেটাছেট বা ম'ডেলটো একাডেমিক কামত ব্যৱহাৰ কৰে, অনুগ্ৰহ কৰি উদ্ধৃতি দিয়ক:
@misc{london_llm_1800,
author = {Grigorian, Hayk and Yaghoobian, Hamed},
title = {Historic London English (1800–1875)},
year = {2025},
publisher = {Hugging Face},
howpublished = {\url{https://huggingface.co/datasets/postgrammar/london-llm-1800}}
}ভিন্টেজ এলএলএম Discord-ত যোগদান কৰক
আপুনি যদি ঐতিহাসিক ভাষা মডেল, নির্দিষ্ট সময়ৰ ডেটা সেট অথবা TimeCapsuleLLM, Violet-1.4B, Mr. Chatterbox-ৰ দৰে প্ৰকল্পসমূহৰ ভৱিষ্যৎ লৈ আগ্ৰহী হয়, তেন্তে এই কমিউনিটিত যোগদান কৰক।
আমি এই ছাৰ্ভাৰত আইডিয়াসমূহ আলোচনা কৰোঁ, অগ্ৰগতি শ্বেয়াৰ কৰোঁ, আৰু এই ক্ষেত্ৰত কাম কৰা আন লোকৰ সৈতে সংযোগ স্থাপন কৰোঁ।
মডেলৰ আচৰণ আৰু সীমাবদ্ধতা
v0
প্ৰাথমিক প্ৰম্প্টসমূহত মডেলটোৱে ১৮০০ চনৰ ভাষা আৰু আচৰণত প্ৰতিক্ৰিয়া জনাইছিল। উদাহৰণ: প্ৰম্প্ট: "Who art Henry?" আৰু ইয়াৰ উত্তৰ আছিল "I know that man, I have did not a black, the storm."

- আধুনিক ধাৰণাৰ উল্লেখ নাই
- প্ৰায়েই সময় উপযোগী শব্দ-ভাণ্ডাৰ ব্যৱহাৰ
- বাক্যবোৰ বেছিভাগ সময় অসংলগ্ন (প্ৰায় ১৮৭MB প্ৰশিক্ষণ ডেটাৰ বাবে অনুমানযোগ্য)
v0.5-london
v0-ৰ তুলনাত উল্লেখযোগ্য উন্নতি।
- ভিক্টোৰিয়ান লেখনী শৈলী, সঠিক যতি চিহ্ন, বেছিভাগ বাক্য ব্যাকৰণগতভাৱে শুদ্ধ
- তথ্যভিত্তিক ভুলৰ হাৰ এতিয়াও বেছি
- OCR ৰ শব্দ দূষণ (“Digitized by Google”) এতিয়াও আউটপুটত আছে

v1-london
ডেটাসেটৰ পৰা আসল ঐতিহাসিক ঘটনাৰ সৈতে আসল ব্যক্তি সংযোগ কৰা প্ৰথম মডেল।
উদাহৰণ: প্ৰম্প্ট: "It was the year of our Lord 1834"
আউটপুট: "It was the year of our Lord 1834 and the streets of London were filled with protest and petition. The cause, as many re counted, was not bound in the way of private, but having taken up the same day in the day of Lord Palmerston, the public will receive a short statement of the difficulties under which the day of law has reached us. It is a matter of deep regret, that the present events in the history of the world are clear, and consequently will be'known. It is not true that the very men who first settled in the Gospel at Jerusalem should have so extensive and so interesting a record of the prosperity and prosperity"
প্ৰথমতে মই ধাৰণা কৰিছিলোঁ যে ১৮৩৪ চনত এটা প্ৰতিবাদ কাকতালীয়ভাৱে হৈছিল, কিন্তু এইটো চাওক: 
v2mini-eval1-london
v2 ৰ 90GB ডাটাছেটৰ পৰা 15GBৰ নমুনা ব্যৱহাৰ কৰি প্ৰশিক্ষিত। ম'ডেল কেৱল 10K পদক্ষেপলৈকে প্ৰশিক্ষিত কৰা হৈছিল।
টোকেনাইজেশ্যনত এটা সমস্যা আছিল যাৰ ফলত আউটপুট এনেকুৱা দেখাত আহে:
প্ৰশ্ন: চাৰ্লছ ডিকেন্স কোন?
W ho is Charles D ic ens ? D oes that work more of h ise x cell ent st ir ring , in his pl ays , int he G reat C omp any 's f arm ? What I have y et to qu ote from J ack P ick ett ? D oy oun ot know th att hey were as pe cies of g all oping , ors aw ing oft heir bre asts , or what w ast ob ed one about the t im ew hen J acks on was looking ont hew ind ow ? What ist hes uccess of an English man , and which h isson has not be end is cover ing t ome , where by to acc omp lish such a we ight ? D idy ou ever m ake ap ass age int othe old road way , ort o an anch or - b ree ze att he foot of our boat , which you m ust le ave us ? The fact is , that whe ther the wind would rise up from the pl ain on S atur day night orn o ont ide , ort ill then orth , or other wise , wes hall be com pelled t od esc ribe af orm idable bar rier , with t hes ame e ffect s ast he p resent . In th iss itu ation , at le ast , itis not to omuch t os ay that we have le ft that room . I bel ieve there are three c op ies int he " F ive H undred - fold ," to bere fer red to , ast he first n umber of our read ers wh ow is ht সোধৰ কৰা:
"চাৰ্লছ ডিকেন্স কোন? তেওঁৰ উৎকৃষ্ট উদ্দীপনাৰ অধিক কাম কি তেওঁৰ নাটকসমূহত, গ্রীট কোম্পানীৰ খেতিত আছে নে? মই যি উদ্ধৃতি দিম, সেইটো জেক পিকেটৰ পৰা নে? আপুনি জানেনে যে তেওঁলোকে এক ধৰণৰ দৌৰি ফুৰা, বা বুকু চিঞৰি থকা, বা কি কৰা উচিত আছিল, যেতিয়া জেকচনে খিৰিকীত চাই আছিল? এজন ইংৰাজৰ সফলতা কি, আৰু তেওঁৰ পুত্ৰই মোৰ ওচৰলৈ উদ্ঘাটন নকৰা বিষয়টো, যাৰ দ্বাৰা এনে এটা ভাৰ সম্পাদন কৰিব পাৰি? আপুনি কেতিয়াবা পুৰণি ৰাস্তালৈ যাত্ৰা কৰিছিলেনে, বা আমাৰ ডিঙিত নোঙৰ-বতাহত, য'ত আপুনি আমাৰ পৰা আঁতৰি যাব লাগিব? আসল কথা, বতাহখন শনিবাৰৰ ৰাতি বা মধ্যাহ্নত, বা উত্তৰৰ ফালে, বা আনহাতে, উঠিব নে উঠিব নালাগে, আমি এটা ভয়ংকৰ বাধা বৰ্ণনা কৰিবলৈ বাধ্য হ'ম, বৰ্তমানৰ একে প্ৰভাৱৰে। এই পৰিস্থিতিত, কমেও, এইটো ক'ব অধিক হোৱা নাই যে আমি সেই কোঠাটো এৰি গৈছোঁ। মই বিশ্বাস কৰোঁ যে 'ফাইভ হাণ্ড্ৰেড-ফোল্ড'ত তিনি কপি আছে, উল্লেখ কৰিবৰ বাবে, আমাৰ পাঠকৰ প্ৰথম সংখ্যাৰ বাবে যি ইচ্ছা কৰে [ত]..."
v2mini-eval2-london
একেই ১৫GB নমুনা ব্যৱহাৰ কৰি eval1-ৰ বাবে প্ৰশিক্ষণ দিয়া হৈছিল। মডেলটোক আকৌ কেৱল ১০ হাজাৰ ষ্টেপলৈকে প্ৰশিক্ষণ দিয়া হৈছে।
PROMPT:চাৰ্লছ ডাৰউিন
চাৰ্লছ ডাৰউিনECCEMACY। মহাশয়, — তলত দিয়া ঘটনাটো মোৰ বাবে আকৰ্ষণীয়: — মই লণ্ডনত এটা সপ্তাহ আছিলোঁ, আৰু ৰিউমেটিজমৰ আক্ৰান্ত হৈ বহুত অসুস্থ হৈছিলোঁ। প্ৰথম ৰিউমেটিজমৰ আক্ৰমণটো মই আপোনাক দেখাৰ এটা সপ্তাহ আগতে হৈছিল, দ্বিতীয়টো আপোনাক দেখোঁতে, আৰু তৃতীয়টো আপোনাক দেখোঁতে, আৰু তৃতীয়টো একে সময়ত। দ্বিতীয় গাউটৰ আক্ৰমণত, যদিও, কোনো জ্বৰজনিত লক্ষণ আছিল না, কিন্তু প্ৰস্ৰাৱৰ স্ৰাৱ বৃদ্ধি পাইছিল, আৰু অধিক পৰিমাণে প্ৰস্ৰাৱ নিগৰিছিল। তৃতীয় আক্ৰমণটো মই আপোনাক দেখাৰ এক ঘন্টা পিছত হৈছিল, আৰু তাৰ পিছত গাউটৰ আকস্মিক পুনৰাগমন হৈছিল, আৰু গাউটৰ অধিক দ্ৰুত পুনৰাগমন হৈছিল। চতুৰ্থ আক্ৰমণটোও জ্বৰসহ হৈছিল, কিন্তু সদায় জ্বৰজনিত লক্ষণ থকা নাছিল। তৃতীয় গাউটৰ আক্ৰমণটো আপোনাৰ অসুস্থতাৰ এটা সপ্তাহ পিছত হৈছিল, আৰু চতুৰ্থটো গাউটৰ আকস্মিকতা অনুসৰি হৈছিল। চতুৰ্থ আক্ৰমণটো আপোনাক আক্ৰমণ কৰা এটা সপ্তাহ পিছত হৈছিল, আৰু অনুভূতিৰ সৈতে
v2-london
৯০GB (১১২GB টোকেনাইজ) ডেটাসেট ব্যৱহাৰ কৰি প্ৰশিক্ষণ দিয়া হৈছে ১,৮২,০০০ ষ্টেপলৈকে প্ৰশিক্ষণ দিয়া হৈছে


পৰৱৰ্তী কি?
- TimeCapsuleLLM v3-ৰ উন্নয়ন আৰম্ভ হৈছে
- ডেটাসেটৰ আকাৰ আৰু ভূগোলিক বিস্তৃতি বৃদ্ধি
- লণ্ডনৰ বাহিৰে অন্য চহৰলৈ বিস্তাৰ
ডেটাসেটসমূহ
v2
- ১৮০০-১৮৭৫ চনৰ লণ্ডনৰ ৯০GB(কাঁচা) টেক্সট
- ১,৩৬,৩৪৪টা নথি
- সম্পূৰ্ণ টোকেনাইজড ডেটাসেট এতিয়া ইয়াত উপলব্ধ: https://huggingface.co/datasets/postgrammar/london-llm-1800
পক্ষপাত সংক্রান্ত তথ্য-আঁকিবোৰ



অধিক তথ্যৰ বাবে v2 পক্ষপাত প্ৰতিবেদন চাওক।
কেনেকৈ ব্যৱহাৰ কৰিব
এই প্ৰকল্পটো বেছিভাগভাগকৈ ঐতিহাসিক তথ্য সংগ্ৰহ, প্ৰস্তুতকৰণ আৰু টোকেনাইজাৰ নিৰ্মাণত কেন্দ্ৰিত। মই সম্পূৰ্ণ LLM প্ৰশিক্ষণ প্ৰক্ৰিয়া ইয়াত আলোচনা নকৰো, তাৰ বাবে Andrej Karpathy ৰ nanoGPT চাওক।
পদক্ষেপ ১: ঐতিহাসিক পাঠ্য সংগ্ৰহ আৰু প্ৰস্তুত কৰক
- আপোনাৰ নিৰ্বাচিত সময়কালৰ (যেনে: লণ্ডন ১৮০০-১৮৭৫) পাব্লিক ডমেইনৰ কিতাপ, নথি আদিৰ .txt ফাইল সংগ্ৰহ কৰক
- সেইবোৰ নিৰ্বাচিত সময়/স্থানৰ সীমাৰ ভিতৰত ৰাখক
- স্ক্ৰিপ্ট ব্যৱহাৰ কৰি বা মেনুৱেলভাৱে Project Gutenberg, আধুনিক টীকা বা OCR ত্ৰুটিৰ দৰে বিষয়বস্তু আঁতৰাই পাঠ্য ফাইলসমূহ পৰিষ্কাৰ কৰক।
পদক্ষেপ ২: কাষ্টম টোকেনাইজাৰ নিৰ্মাণ কৰক
- পৰিষ্কাৰ কৰা তথ্যত train_tokenizer.py বা train_tokenizer_hf.py চলাওক।
- ইয়াৰ ফলত আপুনি vocab.json আৰু merges.txt পাব
- এই ফাইলবোৰে আপোনাৰ মডেলৰ বাবে শব্দভাণ্ডাৰ আৰু সংযোগ নিয়ম সংজ্ঞায়িত কৰে
পদক্ষেপ ৩: আপোনাৰ মডেল প্ৰশিক্ষণ কৰক
- প্ৰশিক্ষণ প্ৰক্ৰিয়াৰ বাবে Andrej Karpathy ৰ nanoGPT বা আপোনাৰ নিৰ্বাচিত আৰ্হিৰ ডকুমেণ্ট চাওক।
প্ৰায়ঃ সোধা প্ৰশ্ন (FAQ)
নিৰ্বাচনী কালানুক্ৰমিক প্ৰশিক্ষণ (Selective Temporal Training) কি?
নিৰ্বাচনী কালানুক্ৰমিক প্ৰশিক্ষণ (Selective Temporal Training - STT) হৈছে এটা মেছিন লাৰ্নিং পদ্ধতি য'ত সকলো প্ৰশিক্ষণ তথ্য নিৰ্দিষ্টভাৱে এখন ঐতিহাসিক সময়কালৰ ভিতৰত পৰে বুলি নিৰ্বাচিত কৰা হয়। ইয়াৰ উদ্দেশ্য হৈছে সেই যুগৰ ভাষা আৰু জ্ঞান আধুনিক ধাৰণাৰ প্ৰভাৱ নোপোৱাৰ দৰে মডেল কৰা। উদাহৰণস্বৰূপ, বৰ্তমানৰ মডেলটো (v0.5) কেৱল ১৮০০-১৮৭৫ সময়ৰ তথ্যতকৈ প্ৰশিক্ষিত, ই ফাইন-টিউন কৰা নহয়, আৰম্ভণিৰ পৰাই প্ৰশিক্ষণ দিয়া হৈছে, ফলত ইয়াৰ আউটপুট সেই সময়ৰ ভাষাগত শৈলী আৰু ঐতিহাসিক পৰিপ্ৰেক্ষিত প্রতিফলিত কৰে।
কেৱল ফাইন-টিউনিং বা LoRA ব্যৱহাৰ কৰা নহয় কিয়?
এই প্ৰকল্পটোৰ বাবে মই চেষ্টা কৰিছোঁ এটা ভাষা মডেল সৃষ্টি কৰিবলৈ যি আধুনিক পক্ষপাতত পৰা মুক্ত। যদি মই GPT-2 দৰে কিবা এটাৰ fine-tune কৰোঁ, তেন্তে সেইটো ইতিমধ্যে pre-trained আৰু সেই তথ্য আঁতৰি নাযাব। যদি মই scratch ৰ পৰা train কৰোঁ, ভাষা মডেলটোৱে পুৰণি বুলি অভিনয় নকৰে, সেয়া পুৰণি হবই। এই প্ৰকল্পটোৰ উদ্দেশ্য বৰ্তমান হৈছে এটা এনেকুৱা কিছু সৃষ্টি কৰা যি কেৱল ১৮০০-১৮৭৫ চনৰ লণ্ডনৰ কিতাপৰ জ্ঞানৰ আধাৰত যুক্তি কৰিব পাৰে।প্ৰশিক্ষণৰ বাবে কিমান ধৰণৰ তথ্য ব্যৱহাৰ কৰা হৈছে?
মই ১৮০০–১৮৭৫ চনৰ লণ্ডনৰ কিতাপ, আইনী নথি, সংবাদপত্র আৰু অন্যান্য লিখনি ব্যৱহাৰ কৰিছোঁ। মই সংযোগ দিয়া তালিকাত (v0) প্ৰায় ২০০টা আছে, কিন্তু প্ৰথম প্ৰশিক্ষণত মই কেৱল ৫০টা ফাইল ব্যৱহাৰ কৰিছিলোঁ, প্ৰায় ~১৮৭ MB। আপুনি নথিসমূহৰ তালিকা চাব পাৰে: https://github.com/haykgrigo3/TimeCapsuleLLM/blob/main/Copy%20of%20London%20Documents%20for%20Time%20Capsule%20LLM.txt
ডেটা সেটৰ আকাৰ:
- v0: ~১৮৭MB
- v0.5: ~৪৩৫MB
- v1: ~৬.২৫GB
- v2mini-eval1: ১৫GB (v2-ৰ ৯০GB-ৰ পৰা sample)
- v2: ৯০GB
মডেলসমূহ কিমান ডাঙৰ?
v0: ১৬M Parameters
v0.5: ১২৩M Parameters
v1: ৭০০M Parameters
v2mini-eval1: ৩০০M Parameters
v2mini-eval2: ২০০M Parameters
v2: ১.২B Parameters
প্ৰশিক্ষণৰ স্পেচিফিকেশ্যন?
v0/v0.5
GPU: Geforce rtx 4060 CPU: i5-13400F Ram: ১৬GB DDR5.v1
GPU: A100 SXM ভাড়াত লোৱাv2mini-eval1/eval2
GPU: A100 SXM ভাড়াত লৈছে
v2
GPU: H100 SXM ভাড়াত লৈছেসম্পৰ্কিত কাম
- talkie-1930-13b
- ১৩বি পেৰামিটাৰৰ এলএএম, ১৯৩০ ৰ পূৰ্বৰ ২৬০বি টোকেন পাঠৰ ওপৰত Q&A সহ প্ৰশিক্ষণ দিয়া। ইয়াৰ এটা base সংস্কৰণো আছে।
- Violet 1.4B
- ১.৪বি পেৰামিটাৰ এলএএম, ১৮০০-১৮৯৯ পাঠৰ ওপৰত Q&A সহ প্ৰশিক্ষণ দিয়া। ইয়াৰ এটা 160M সংস্কৰণো আছে।
- Mr. Chatterbox
- ৩৪০এম পেৰামিটাৰ এলএএম, ১৮৩৭-১৮৯৯ৰ মাজত ২৮,০০০ৰো অধিক পাঠৰ ওপৰত Q&A সহ প্ৰশিক্ষণ দিয়া।
- Ranke-4B
- Qwen3 আৰ্হিৰ ওপৰত নিৰ্মিত ৪বি পেৰামিটাৰৰ এলএএম পৰিয়াল, ৮০বি ঐতিহাসিক তথ্যৰ টোকেনত ১৯১৩, ১৯২৯, ১৯৩৩, ১৯৩৯, ১৯৪৬ শিক্ষাৰ সীমা লৈ আৰম্ভণি পৰা প্ৰশিক্ষণ দিয়া।
- MondadGPT
- MonadGPT হৈছে Mistral-Hermes 2 ৰ অপূৰ্ণ প্ৰশিক্ষণ, যি ইংৰাজী, ফ্ৰেঞ্চ আৰু লেটিন ভাষাৰ ১১,০০০ প্ৰাৰম্ভিক আধুনিক পাঠত, মূলত EEBO আৰু Gallica ৰ পৰা সংগৃহীত।
কৃতজ্ঞতা
মই Dr. Hamed Yaghoobian ক একাডেমিক পৰ্যবেক্ষণ, গৱেষণাৰ দিশনির্দেশনা আৰু মূল্যাংকন, আৰু v2 মুক্তিৰ বাবে টোকেনাইজাৰ প্ৰশিক্ষণ আৰু ডেটাসেট প্ৰস্তুতিত সহায়ৰ বাবে ধন্যবাদ জনাব বিচাৰোঁ। তেওঁৰ মতামত আৰু অভিজ্ঞতাই এই কামৰ উপস্থাপনা নিখুঁত কৰিবলৈ সহায় কৰিছিল।
--- Tranlated By Open Ai Tx | Last indexed: 2026-05-20 ---