Web Analytics

TimeCapsuleLLM

⭐ 1870 stars Indonesian by haykgrigo3

🌐 Bahasa

English | 简体中文 | 繁體中文 | 日本語 | 한국어 | हिन्दी | ไทย | Français | Deutsch | Español | Italiano | Русский | Português | Nederlands | Polski | العربية | فارسی | Türkçe | Tiếng Việt | Bahasa Indonesia | অসমীয়া

TimeCapsule LLM

Sebuah model bahasa yang dilatih dari awal secara eksklusif menggunakan data dari tempat dan periode waktu tertentu untuk mengurangi bias modern dan meniru suara, kosakata, serta pandangan dunia era tersebut.

Bayangkan jika sebuah model AI tidak hanya berpura-pura menjadi historis, tetapi benar-benar historis.

v0 dan v0.5 dibangun di atas nanoGPT oleh Andrej Karpathy Skrip pelatihan inti dan arsitektur model adalah karya beliau.

v1 dibangun di atas Phi 1.5 oleh Microsoft

v2 dibangun di atas llamaforcausallm

Link Hugging Face

Status Riset

Proyek ini dimulai dan dikembangkan secara independen.

Saat ini dilakukan di bawah supervisi akademik, dengan kolaborasi riset yang berafiliasi di Muhlenberg College.

Sitasi

Jika Anda menggunakan dataset atau model ini dalam karya akademik, mohon sitasi:

@misc{london_llm_1800,
  author = {Grigorian, Hayk and Yaghoobian, Hamed},
  title = {Historic London English (1800–1875)},
  year = {2025},
  publisher = {Hugging Face},
  howpublished = {\url{https://huggingface.co/datasets/postgrammar/london-llm-1800}}
}

Perilaku & Keterbatasan Model

v0

Prompt awal menunjukkan model merespons dengan bahasa dan perilaku tahun 1800-an. Contoh: Prompt: "Siapakah Henry?" dan model menjawab "Saya mengenal orang itu, saya belum melakukan yang hitam, badai."

TimeCapsuleLLM Sample Output

v0.5

Peningkatan signifikan dibandingkan v0.

TimeCapsuleLLM Sample Output

v1

Model pertama yang dapat mengingat dan menghubungkan peristiwa sejarah nyata dengan tokoh sesungguhnya dari dataset.

Contoh: Prompt: "Itu adalah tahun Tuhan kami 1834"

Output: "Itu adalah tahun Tuhan kami 1834 dan jalan-jalan di London dipenuhi dengan protes dan petisi. Penyebabnya, sebagaimana banyak yang diceritakan, tidak terikat secara pribadi, tetapi telah diambil pada hari yang sama pada hari Lord Palmerston, publik akan menerima pernyataan singkat tentang kesulitan yang telah kita hadapi dalam hukum. Merupakan penyesalan mendalam, bahwa peristiwa saat ini dalam sejarah dunia sudah jelas, dan karenanya akan diketahui. Tidak benar bahwa orang-orang yang pertama kali menetap dalam Injil di Yerusalem harus memiliki catatan kemakmuran yang begitu luas dan menarik"

Awalnya saya menduga bahwa protes mungkin kebetulan terjadi pada tahun yang sama tetapi lihat ini: 1834protest

v2mini-eval1

Dilatih menggunakan sampel 15GB dari dataset 90GB milik v2. Model hanya dilatih hingga 10K langkah.

Ada masalah dengan tokenisasi yang menyebabkan output terlihat seperti ini:

Siapa Charles Dickens?

W ho is Charles D ic ens ? D oes that work more of h ise x cell ent st ir ring , in his pl ays , int he G reat C omp any 's f arm ? What I have y et to qu ote from J ack P ick ett ? D oy oun ot know th att hey were as pe cies of g all oping , ors aw ing oft heir bre asts , or what w ast ob ed one about the t im ew hen J acks on was looking ont hew ind ow ? What ist hes uccess of an English man , and which h isson has not be end is cover ing t ome , where by to acc omp lish such a we ight ? D idy ou ever m ake ap ass age int othe old road way , ort o an anch or - b ree ze att he foot of our boat , which you m ust le ave us ? The fact is , that whe ther the wind would rise up from the pl ain on S atur day night orn o ont ide , ort ill then orth , or other wise , wes hall be com pelled t od esc ribe af orm idable bar rier , with t hes ame e ffect s ast he p resent . In th iss itu ation , at le ast , itis not to omuch t os ay that we have le ft that room . I bel ieve there are three c op ies int he " F ive H undred - fold ," to bere fer red to , ast he first n umber of our read ers wh ow is ht

Diperbaiki:

"Siapakah Charles Dickens? Apakah karya itu lebih banyak dari karya luar biasa lainnya, dalam dramanya, di pertanian Great Company? Apa yang harus saya kutip dari Jack Pickett? Tidakkah kamu tahu bahwa mereka semacam berlari kencang, atau menggergaji dada mereka, atau apa yang harus dilakukan pada waktu saat Jackson sedang melihat ke jendela? Apa kesuksesan seorang Inggris, dan yang belum ditemukan oleh anaknya kepada saya, sehingga dapat menyelesaikan beban seperti itu? Pernahkah kamu membuat perjalanan ke jalan lama itu, atau ke angin jangkar di kaki perahu kita, yang harus kamu tinggalkan? Faktanya, apakah angin akan bangkit dari dataran pada Sabtu malam atau siang hari, atau ke utara, atau sebaliknya, kita akan dipaksa untuk menggambarkan penghalang yang tangguh, dengan efek yang sama seperti sekarang. Dalam situasi ini, setidaknya, tidak berlebihan jika dikatakan bahwa kita telah meninggalkan ruangan itu. Saya percaya ada tiga salinan di 'Five Hundred-fold,' yang bisa dirujuk, sebagai nomor pertama dari pembaca kami yang ingin t[o]..."

v2mini-eval2

Dilatih menggunakan sampel 15GB yang sama seperti yang digunakan untuk pelatihan eval1. Model kembali dilatih hingga hanya 10K langkah.

PROMPT:Charles Darwin

Charles DarwinECCEMACY. Tuan, — Kasus berikut menarik bagi saya : — Saya berada di London selama dua minggu, dan sangat terpengaruh oleh serangan rematik. Serangan rematik pertama terjadi seminggu sebelum saya bertemu Anda, dan yang kedua ketika saya bertemu Anda, dan yang ketiga ketika saya bertemu Anda, dan yang ketiga pada waktu yang sama. Namun, serangan asam urat kedua tidak disertai dengan gejala demam, tetapi disertai peningkatan aliran urin, dan dengan keluarnya urin yang lebih banyak. Serangan ketiga terjadi satu jam setelah saya bertemu Anda, dan diikuti dengan kambuhnya serangan asam urat, dan kembalinya asam urat yang lebih cepat. Serangan keempat juga disertai demam, tetapi tidak selalu disertai gejala demam. Serangan ketiga asam urat terjadi dua minggu setelah Anda sakit, dan yang keempat diikuti oleh serangan asam urat. Serangan keempat terjadi dua minggu setelah Anda diserang, dan disertai dengan sensasi

v2

Dilatih menggunakan dataset 90GB (112GB yang telah di-tokenisasi) Dilatih hingga 182K langkah

TimeCapsuleLLM Sample Output

TimeCapsuleLLM Sample Output

Dataset

v2

### Statistik Bias Bias pronomina

Bias geografis

Bias temporal

Lihat laporan bias v2 untuk informasi lebih lanjut.

Cara Menggunakan

Proyek ini berfokus terutama pada mengkurasi data historis, menyiapkannya untuk pelatihan dan membangun tokenizer. Saya tidak akan membahas proses pelatihan LLM secara penuh, untuk itu silakan merujuk ke nanoGPT oleh Andrej Karpathy.

Langkah 1: Kumpulkan dan Siapkan Teks Historis

Langkah 2: Bangun Tokenizer Kustom

Langkah 3: Latih Model Anda

FAQ

Apa itu Selective Temporal Training?

Selective Temporal Training (STT) adalah metodologi machine learning di mana semua data pelatihan secara khusus dikurasi agar berada dalam periode waktu historis tertentu. Ini dilakukan untuk memodelkan bahasa dan pengetahuan zaman itu tanpa pengaruh konsep modern. Misalnya, model saya saat ini (v0.5) dilatih secara eksklusif dengan data dari 1800-1875, tidak fine-tuned tapi dilatih dari awal sehingga menghasilkan output yang mencerminkan gaya linguistik dan konteks historis periode tersebut.

Mengapa tidak hanya menggunakan fine-tuning atau LoRA?

Untuk proyek ini saya ingin membuat model bahasa yang tidak dipengaruhi bias modern. Jika saya fine-tune sesuatu seperti GPT-2, model itu sudah pra-latih dan informasi tersebut tidak akan hilang. Jika saya melatih dari nol, model bahasa tidak akan hanya berpura-pura kuno, memang benar-benar kuno. Tujuan proyek ini saat ini adalah menciptakan sesuatu yang dapat bernalar secara eksklusif menggunakan pengetahuan dari buku London yang diterbitkan antara 1800 dan 1875.

Data seperti apa yang Anda gunakan untuk pelatihan?

Saya menggunakan buku, dokumen hukum, surat kabar, dan tulisan lain dari London 1800–1875. Daftar yang saya tautkan (untuk v0) ada or sekitar 200 tapi untuk pelatihan pertama saya hanya menggunakan 50 file sekitar ~187 MB. Anda dapat melihat daftar dokumennya: https://github.com/haykgrigo3/TimeCapsuleLLM/blob/main/Copy%20of%20London%20Documents%20for%20Time%20Capsule%20LLM.txt

Ukuran dataset:

Seberapa besar model-modelnya?

v0: 16M Parameter

v0.5 123M Parameter

v1: 700M Parameter

v2mini-eval1: 300M Parameter

v2mini-eval2: 200M Parameter

v2: 1.2B Parameter

Spesifikasi Pelatihan?

v0/v0.5

GPU: Geforce rtx 4060 CPU: i5-13400F Ram: 16GB DDR5.

v1

GPU: A100 SXM sewaan

v2mini-eval1/eval2

GPU: A100 SXM sewaan

v2

GPU: H100 SXM sewaan

Ucapan Terima Kasih

Saya ingin mengucapkan terima kasih kepada Dr. Hamed Yaghoobian atas supervisi akademik, bimbingan dalam perumusan dan evaluasi riset, serta bantuan dalam pelatihan tokenizer dan persiapan dataset untuk rilis v2. Masukan dan pengalaman beliau sangat berperan dalam memperbaiki presentasi karya ini.

--- Tranlated By Open Ai Tx | Last indexed: 2026-03-03 ---