টাইমক্যাপচুল এলএলএম
এক ভাষা মডেল যি শূন্যৰ পৰা কেৱল নিৰ্দিষ্ট স্থান আৰু সময়ৰ তথ্যত প্ৰশিক্ষিত হৈছে, আধুনিক পক্ষপাত কমাবলৈ আৰু সেই যুগৰ ভাষা, শব্দভাণ্ডাৰ আৰু চিন্তাধাৰা অনুকৰণ কৰিবলৈ।
ভাবক, যদি এটা AI মডেল কেৱল ইতিহাসৰ দৰে অভিনয় নকৰে, বৰং সত্যই ইতিহাসৰ হৈছে।
v0 আৰু v0.5 nanoGPT by Andrej Karpathy ত নিৰ্মিত। মূল প্ৰশিক্ষণ স্ক্ৰিপ্ট আৰু মডেলৰ স্থাপত্য তেওঁৰ কাম।
v1 Phi 1.5 by Microsoft ৰ ওপৰত নিৰ্মিত
v2 llamaforcausallm ৰ ওপৰত নিৰ্মিত
মডেলৰ আচৰণ আৰু সীমাবদ্ধতা
v0
প্ৰাথমিক প্ৰম্প্টসমূহত মডেলটোৱে ১৮০০ চনৰ ভাষা আৰু আচৰণত প্ৰতিক্ৰিয়া দিয়ে। উদাহৰণ: প্ৰম্প্ট: "Who art Henry?" আৰু ইয়াৰ উত্তৰ আছিল "I know that man, I have did not a black, the storm."

- আধুনিক ধাৰণাৰ উল্লেখ নাই
- প্ৰায়পতে যুগ-উপযুক্ত শব্দভাণ্ডাৰ
- বাক্যবোৰ অধিকাংশ সময় অসংলগ্ন (প্ৰায় ~১৮৭এমবি প্ৰশিক্ষণ তথ্যৰ বাবে অনুমানযোগ্য)
v0.5
v0-ৰ তুলনাত উল্লেখযোগ্য উন্নতি।
- ভিক্টোৰিয়ান লিখনশৈলী, সঠিক যতিচিহ্ন, প্ৰায়পতে ব্যাকৰণগত বাক্য
- তথাপিও উচ্চ পৰিমাণৰ তথ্য বিভ্ৰান্তি
- OCR ৰ অশুদ্ধতা (“Digitized by Google”) এতিয়াও আউটপুটত উপস্থিত

v1
প্ৰথম মডেল যিয়ে ডেটাসেটৰ পৰা বাস্তৱ ঐতিহাসিক ঘটনা আৰু ব্যক্তি উদ্দীপিত কৰি সংযোগ স্থাপন কৰে।
উদাহৰণ: প্ৰম্প্ট: "It was the year of our Lord 1834"
আউটপুট: "It was the year of our Lord 1834 and the streets of London were filled with protest and petition. The cause, as many re counted, was not bound in the way of private, but having taken up the same day in the day of Lord Palmerston, the public will receive a short statement of the difficulties under which the day of law has reached us. It is a matter of deep regret, that the present events in the history of the world are clear, and consequently will be'known. It is not true that the very men who first settled in the Gospel at Jerusalem should have so extensive and so interesting a record of the prosperity and prosperity"
প্ৰথমতে মই ভাবিছিলোঁ এই বছৰটোত কাকতালীয়ভাৱে কোনো প্ৰতিবাদ হৈছিল, কিন্তু এইটো চাওক: 
v2mini-eval1
v2-ৰ 90GB ডেটাছেটৰ 15GB নমুনা ব্যৱহাৰ কৰি প্ৰশিক্ষণ দিয়া হৈছে। মডেলটো কেৱল 10K ষ্টেপলৈকে প্ৰশিক্ষণ দিয়া হৈছে।
টকেনাইজেশ্যনত এটা সমস্যা আছিল যাৰ বাবে আউটপুট এনেধৰণৰ দেখুৱাই:
প্ৰম্প্ট: চাৰ্লেছ ডিকেন্স কোন?
W ho is Charles D ic ens ? D oes that work more of h ise x cell ent st ir ring , in his pl ays , int he G reat C omp any 's f arm ? What I have y et to qu ote from J ack P ick ett ? D oy oun ot know th att hey were as pe cies of g all oping , ors aw ing oft heir bre asts , or what w ast ob ed one about the t im ew hen J acks on was looking ont hew ind ow ? What ist hes uccess of an English man , and which h isson has not be end is cover ing t ome , where by to acc omp lish such a we ight ? D idy ou ever m ake ap ass age int othe old road way , ort o an anch or - b ree ze att he foot of our boat , which you m ust le ave us ? The fact is , that whe ther the wind would rise up from the pl ain on S atur day night orn o ont ide , ort ill then orth , or other wise , wes hall be com pelled t od esc ribe af orm idable bar rier , with t hes ame e ffect s ast he p resent . In th iss itu ation , at le ast , itis not to omuch t os ay that we have le ft that room . I bel ieve there are three c op ies int he " F ive H undred - fold ," to bere fer red to , ast he first n umber of our read ers wh ow is ht শুদ্ধিকৰণ:
"চাৰ্লছ ডিকেন্স কোন? তেওঁৰ উৎকৃষ্ট আৰু উদ্দীপক কৰ্মসমূহ, তেওঁৰ নাটকৰ ক্ষেত্ৰত, গ্ৰেট কোম্পানীৰ খেতিত, অধিক কাম কৰিছিল নেকি? মই এতিয়াও জেক পিকেটৰ পৰা উদ্ধৃত কৰিব লাগিছে নেকি? আপুনি নাজানে নেকি যে সেইসকল গালপিং, নাইবা ছাতীৰে চিৰা মৰা, নাইবা কি কৰিব লাগিব সেই সময়ত যেতিয়া জেকছনে খিৰিকিৰ পৰা চাই আছিল? এজন ইংৰাজৰ সফলতা কি, আৰু তেওঁৰ পুত্ৰে মোক এতিয়াও আৱিষ্কাৰ কৰা নাই, যাতে এনে এটা বিশাল কাম সম্পন্ন কৰিব পাৰি? আপুনি কেতিয়াবা পুৰণি পথেদি গৈছিলেনে, নাইবা আমাৰ নাওৰ তলত এংকৰ-ব্ৰিজত, য'ত আপুনি আমাক এৰি যাব লাগিব? কথাটো হৈছে, বতাহখন শনিবাৰে ৰাতিপুৱা নাইবা দুপৰীয়া, নাইবা উত্তৰৰ পৰা, নাইবা আন স্থানৰ পৰা আহিব নে, আমি এটা ভয়ংকৰ বাধা বৰ্ণনা কৰিবলৈ বাধ্য হ'ম, বৰ্তমানৰ দৰে একে প্ৰভাৱৰে। এই পৰিস্থিতিত, অন্ততঃ, ক'বলৈ বেছি নহয় যে আমি সেই কোঠাটো এৰি আহিছোঁ। মই বিশ্বাস কৰোঁ যে 'ফাইভ হানড্ৰেড-ফোল্ড'ত তিনি টা কপি আছে, উল্লেখ কৰিবৰ বাবে, আমাৰ পাঠকৰ প্ৰথম সংখ্যাত যিসকলে ইচ্ছা কৰে t[o]..."
v2mini-eval2
এভাল১-ৰ সৈতে একে ১৫GB নমুনা ব্যৱহাৰ কৰি প্ৰশিক্ষণ দিয়া হৈছে। মডেলটো আকৌ কেৱল ১০,০০০ খোজলৈকে প্ৰশিক্ষিত হৈছে।
PROMPT: Charles Darwin
Charles DarwinECCEMACY. ছাৰ, — তলৰ ঘটনাটো মোৰ বাবে ৰসাল: — মই লণ্ডনত এটা সপ্তাহ আছিলোঁ, আৰু গাঁঠিৰ ব্যথাত ভয়ংকৰ ভুগিছিলোঁ। গাঁঠিৰ প্ৰথম আক্ৰমণটো আপুনি মোক দেখাৰ এটা সপ্তাহ আগতে হৈছিল, দ্বিতীয়টো আপুনি মোক দেখাত, আৰু তৃতীয়টো আকৌ একেটা সময়ত। গাউটৰ দ্বিতীয়টো আক্ৰমণ যদিও কোনো জ্বৰজনিত লক্ষণৰ সৈতে নহ'ল, কিন্তু পেছাবৰ পৰিমাণ বৃদ্ধি পালে, আৰু অধিক পৰিমাণে পেছাব নিগৰালে। তৃতীয়টো আক্ৰমণ আছিল আপুনি মোক দেখাৰ এটা ঘণ্টা পিছত, আৰু তাৰ পিছতে আকৌ গাউটৰ আক্ৰমণ ঘূৰি আহিল, আৰু গাউটৰ অধিক তীব্ৰ আক্ৰমণ। চতুৰ্থটো আক্ৰমণো জ্বৰ লৈ আহিছিল, কিন্তু সদায় জ্বৰজনিত লক্ষণ নাছিল। গাউটৰ তৃতীয়টো আক্ৰমণ হৈছিল আপুনি অসুস্থ হোৱা এটা সপ্তাহ পিছত, আৰু চতুৰ্থটো আক্ৰমণ আকৌ গাউটৰ আক্ৰমণৰ পিছত। চতুৰ্থটো আক্ৰমণ আছিল আপুনি আক্ৰমিত হোৱাৰ এটা সপ্তাহ পিছত, আৰু সৈতে এটা অনুভূতি আছিল।
ডেটাসেটসমূহ
v2
- ১৮০০-১৮৭৫ লণ্ডনৰ পাঠ্যৰ ৯০GB
- ১,৩৬,৩৪৪ টা নথিপত্ৰ
- সম্পূৰ্ণ ৯০GB এতিয়াও উপলব্ধ নহয় কাৰণ ই এতিয়াও টোকেনাইজ হোৱা নাই, কিন্তু আপুনি ১৫GB নমুনা ইয়াত পাব: https://huggingface.co/datasets/haykgrigorian/TimeCapsuleLLM-London-1800-1875-v2-15GB



অধিক তথ্যৰ বাবে v2 পক্ষপাতি প্ৰতিবেদন চাওক।
ব্যৱহাৰ কিদৰে কৰিব
এই প্ৰকল্পটো মূলতঃ ঐতিহাসিক তথ্য সংগ্ৰহ, প্ৰস্তুতি আৰু টোকেনাইজাৰ নিৰ্মাণত কেন্দ্ৰিত। মই সম্পূৰ্ণ LLM প্ৰশিক্ষণ প্ৰক্ৰিয়া আলোচনা নকৰোঁ, তাৰ বাবে Andrej Karpathy-ৰ nanoGPT চাওক।
ধাপ ১: ঐতিহাসিক পাঠ্য সংগ্ৰহ আৰু প্ৰস্তুত কৰক
- নিজৰ পছন্দৰ সময়ছোৱাৰ (যেনে, লণ্ডন ১৮০০-১৮৫০) ৰাজহুৱা ডমেইনৰ কিতাপ, নথিপত্ৰ আদি .txt ফাইল সংগ্ৰহ কৰক
- আপোনাৰ নিৰ্বাচিত সময়/স্থান উইণ্ডোৰ ভিতৰত তেওঁলোকক ৰাখক
- টেক্সট ফাইলসমূহ স্ক্ৰিপ্ট ব্যৱহাৰ কৰি বা Project Gutenberg, আধুনিক টীকা বা OCR ত্ৰুটিসমূহৰ দৰে হেডাৰ/ফুটাৰ ম্যানুৱেলভাৱে আঁতৰাই পৰিষ্কাৰ কৰক।
পদক্ষেপ ২: এটা কাষ্টম ট’কেনাইজাৰ নিৰ্মাণ কৰক
- পৰিষ্কৃত ডেটাত train_tokenizer.py বা train_tokenizer_hf.py চলাওক।
- এইটো আপোনাক vocab.json আৰু merges.txt দিব
- এই ফাইলসমূহে আপোনাৰ মডেলৰ বাবে শব্দভাণ্ডাৰ আৰু মাৰ্জ নিয়ম সংজ্ঞায়িত কৰে
পদক্ষেপ ৩: আপোনাৰ মডেলটো প্ৰশিক্ষণ কৰক
- প্ৰশিক্ষণ প্ৰক্ৰিয়াৰ বাবে Andrej Karpathy ৰ nanoGPT অথবা আপোনাৰ পছন্দৰ স্থাপত্যৰ নথিপত্ৰ চাওক।
FAQ
Selective Temporal Training কি?
Selective Temporal Training (STT) হৈছে এটা যন্ত্ৰ শিক্ষণ পদ্ধতি য’ত সকলো প্ৰশিক্ষণ তথ্য বিশেষভাৱে নিৰ্বাচিত, যাতে সেইটো এখন বিশেষ ঐতিহাসিক সময়চোৱাত পৰে। এইটো সেই যুগৰ ভাষা আৰু জ্ঞানক আধুনিক ধাৰণাৰ প্ৰভাৱৰ পৰা বাচি মডেল কৰিবলৈ কৰা হয়। উদাহৰণস্বৰূপে, মোৰ বৰ্তমান মডেল (v0.5) কেৱল ১৮০০-১৮৭৫ সময়চোৱাৰ তথ্যৰ ওপৰত প্ৰশিক্ষিত, ফাইন-টিউন কৰা নহয়, সম্পূৰ্ণভাৱে আৰম্ভণিৰ পৰা প্ৰশিক্ষিত, যাৰ ফলত সেই যুগৰ ভাষা শৈলী আৰু ঐতিহাসিক প্ৰসংগ প্ৰদর্শন কৰে।
কেৱল fine-tuning বা LoRA ব্যৱহাৰ নকৰা কিয়?
এই প্ৰকল্পত মই এজন ভাষা মডেল সৃষ্টি কৰিবলৈ চেষ্টা কৰিছো যি আধুনিক পক্ষপাতৰ পৰা মুক্ত। যদি মই GPT-2 যেনেকুৱা কিছুমান ফাইন-টিউন কৰোঁ, সেইটো ইতিমধ্যে প্ৰশিক্ষিত, আৰু সেই তথ্য আঁতৰাব নোৱাৰি। যদি মই আৰম্ভণিৰ পৰা প্ৰশিক্ষণ কৰোঁ, ভাষা মডেলে পুৰণি বুলি ভণিত নকৰে, সেয়া হব। বৰ্তমান এই প্ৰকল্পৰ লক্ষ্য হৈছে কেৱল ১৮০০-১৮৭৫ সময়চোৱাৰ লণ্ডনৰ পুথি-সমূহৰ জ্ঞান ব্যৱহাৰ কৰি যুক্তি কৰিব পৰা এটা মডেল সৃষ্টি কৰা।
কোন ধৰণৰ তথ্য প্ৰশিক্ষণৰ বাবে ব্যৱহাৰ কৰা হৈছিল?
মই ১৮০০-১৮৭৫ লণ্ডনৰ পুথি, আইনগত নথি, বাতৰি কাকত, আৰু অন্যান্য লিখনি ব্যৱহাৰ কৰিছো। মই সংযোগ দিয়া তালিকাত (v0 ৰ বাবে) প্ৰায় ২০০ আছে, কিন্তু প্ৰথম প্ৰশিক্ষণৰ বাবে মই কেৱল ৫০ টা ফাইল ~১৮৭ এম.বি. ব্যৱহাৰ কৰিছিলোঁ। নথিপত্ৰৰ তালিকা চাব পাৰে: https://github.com/haykgrigo3/TimeCapsuleLLM/blob/main/Copy%20of%20London%20Documents%20for%20Time%20Capsule%20LLM.txt
Dataset আকাৰসমূহ:
- v0: ~১৮৭MB
- v0.5: ~৪৩৫MB
- v1: ~৬.২৫GB
- v2mini-eval1: ১৫GB
মডেলসমূহ কিমান ডাঙৰ ?
v0: ১৬M পেৰামিটাৰ
v0.5 ১২৩M পেৰামিটাৰ
v1: 700M Parameters
v2mini-eval1: 300M Parameters
Training Specs ?
v0/v0.5
GPU: Geforce rtx 4060 CPU: i5-13400F Ram: 16GB DDR5.v1
GPU: A100 SXM rentedv2mini-eval1
GPU: A100 SXM rented
--- Tranlated By Open Ai Tx | Last indexed: 2026-01-13 ---