TimeCapsule LLM
Sebuah model bahasa yang dilatih dari awal secara eksklusif menggunakan data dari tempat dan periode waktu tertentu untuk mengurangi bias modern dan meniru suara, kosakata, serta pandangan dunia era tersebut.
Bayangkan jika sebuah model AI tidak hanya berpura-pura menjadi historis, tetapi benar-benar historis.
v0 dan v0.5 dibangun di atas nanoGPT oleh Andrej Karpathy Skrip pelatihan inti dan arsitektur model adalah karya beliau.
v1 dibangun di atas Phi 1.5 oleh Microsoft
v2 dibangun di atas llamaforcausallm
Status Riset
Proyek ini dimulai dan dikembangkan secara independen.Saat ini dilakukan di bawah supervisi akademik, dengan kolaborasi riset yang berafiliasi di Muhlenberg College.
Sitasi
Jika Anda menggunakan dataset atau model ini dalam karya akademik, mohon sitasi:
@misc{london_llm_1800,
author = {Grigorian, Hayk and Yaghoobian, Hamed},
title = {Historic London English (1800–1875)},
year = {2025},
publisher = {Hugging Face},
howpublished = {\url{https://huggingface.co/datasets/postgrammar/london-llm-1800}}
}Bergabunglah dengan Vintage LLM Discord
Jika Anda tertarik dengan model bahasa historis, dataset khusus waktu, atau masa depan proyek seperti TimeCapsuleLLM, Violet-1.4B, Mr. Chatterbox mari bergabung dengan komunitas kami.
Kami menggunakan server ini untuk mendiskusikan ide, berbagi kemajuan, dan terhubung dengan orang lain yang membangun di bidang ini.
Perilaku Model & Keterbatasan
v0
Prompt awal menunjukkan model merespons dengan bahasa dan perilaku tahun 1800-an. Contoh: Prompt: "Who art Henry?" dan model menjawab "I know that man, I have did not a black, the storm."

- Tidak ada penyebutan konsep modern
- Sebagian besar kosakata sesuai era
- Kalimat kebanyakan tidak koheren (diharapkan untuk data pelatihan ~187MB)
v0.5-london
Peningkatan signifikan dibanding v0.
- Gaya penulisan Victoria, tanda baca benar, kalimat sebagian besar gramatikal
- Tingkat halusinasi fakta masih tinggi
- Noise OCR (“Digitized by Google”) masih muncul di output

v1-london
Model pertama yang dapat mengingat dan menghubungkan peristiwa sejarah nyata dengan tokoh dari dataset.
Contoh: Prompt: "It was the year of our Lord 1834"
Output-nya: "It was the year of our Lord 1834 and the streets of London were filled with protest and petition. The cause, as many re counted, was not bound in the way of private, but having taken up the same day in the day of Lord Palmerston, the public will receive a short statement of the difficulties under which the day of law has reached us. It is a matter of deep regret, that the present events in the history of the world are clear, and consequently will be'known. It is not true that the very men who first settled in the Gospel at Jerusalem should have so extensive and so interesting a record of the prosperity and prosperity"
Awalnya saya mengira bahwa sebuah protes mungkin secara kebetulan terjadi pada tahun yang sama namun coba lihat ini: 
v2mini-eval1-london
Dilatih menggunakan sampel 15GB dari dataset 90GB v2. Model hanya dilatih hingga 10K langkah.
Terdapat masalah dengan tokenisasi yang menyebabkan output terlihat seperti ini:
PROMPT: Siapa Charles Dickens?
W ho is Charles D ic ens ? D oes that work more of h ise x cell ent st ir ring , in his pl ays , int he G reat C omp any 's f arm ? What I have y et to qu ote from J ack P ick ett ? D oy oun ot know th att hey were as pe cies of g all oping , ors aw ing oft heir bre asts , or what w ast ob ed one about the t im ew hen J acks on was looking ont hew ind ow ? What ist hes uccess of an English man , and which h isson has not be end is cover ing t ome , where by to acc omp lish such a we ight ? D idy ou ever m ake ap ass age int othe old road way , ort o an anch or - b ree ze att he foot of our boat , which you m ust le ave us ? The fact is , that whe ther the wind would rise up from the pl ain on S atur day night orn o ont ide , ort ill then orth , or other wise , wes hall be com pelled t od esc ribe af orm idable bar rier , with t hes ame e ffect s ast he p resent . In th iss itu ation , at le ast , itis not to omuch t os ay that we have le ft that room . I bel ieve there are three c op ies int he " F ive H undred - fold ," to bere fer red to , ast he first n umber of our read ers wh ow is ht
Dikoreksi:
"Siapa Charles Dickens? Apakah karya-karyanya yang membangkitkan semangat, dalam drama-dramanya, di pertanian Perusahaan Besar? Apa yang belum saya kutip dari Jack Pickett? Apakah Anda tidak tahu bahwa mereka adalah semacam galop, atau menggergaji dada mereka, atau apa yang harus dilakukan tentang waktu ketika Jackson sedang melihat ke jendela? Apa keberhasilan seorang Inggris, dan yang belum ditemukan oleh putranya kepada saya, yang dapat digunakan untuk mencapai beban seperti itu? Pernahkah Anda membuat perjalanan ke jalan lama, atau ke angin jangkar di kaki perahu kami, yang harus Anda tinggalkan? Faktanya adalah, apakah angin akan naik dari dataran pada Sabtu malam atau tengah hari, atau ke utara, atau lainnya, kita akan dipaksa untuk menggambarkan penghalang yang tangguh, dengan efek yang sama seperti saat ini. Dalam situasi ini, setidaknya, tidak terlalu berlebihan untuk mengatakan bahwa kita telah meninggalkan ruangan itu. Saya percaya ada tiga salinan dalam 'Lima Ratus Kali Lipat,' yang dapat dirujuk, sebagai nomor pertama dari para pembaca kami yang ingin t[o]..."
v2mini-eval2-london
Dilatih menggunakan sampel 15GB yang sama seperti eval1. Model kembali dilatih hanya hingga 10K langkah.
PROMPT:Charles Darwin
Charles DarwinECCEMACY. Tuan, — Kasus berikut menarik bagi saya : — Saya berada di London selama dua minggu, dan sangat terpengaruh oleh serangan rematik. Serangan rematik pertama terjadi seminggu sebelum saya bertemu Anda, dan yang kedua saat saya bertemu Anda, dan yang ketiga saat saya bertemu Anda, dan yang ketiga pada waktu yang sama. Serangan asam urat kedua, bagaimanapun, tidak disertai gejala demam, tetapi disertai peningkatan aliran urin, dan dengan pengeluaran urin yang lebih banyak. Serangan ketiga terjadi satu jam setelah saya bertemu Anda, dan diikuti oleh kembalinya serangan asam urat, dan kembalinya asam urat yang lebih cepat. Serangan keempat juga disertai demam, tetapi tidak selalu dengan gejala demam. Serangan ketiga asam urat terjadi dua minggu setelah Anda sakit, dan yang keempat diikuti oleh serangan asam urat. Serangan keempat terjadi dua minggu setelah Anda terkena serangan, dan disertai rasa
v2-london
Dilatih menggunakan dataset 90GB (112GB ter-tokenisasi) Dilatih hingga 182K langkah


Apa berikutnya?
- Pengembangan telah dimulai pada TimeCapsuleLLM v3
- Memperbesar ukuran dataset dan cakupan geografis
- Memperluas cakupan dari London ke kota-kota lain
Dataset
v2
- 90GB(raw) teks London 1800-1875
- 136.344 dokumen
- Dataset tokenized lengkap kini tersedia di sini: https://huggingface.co/datasets/postgrammar/london-llm-1800
Statistik Bias



Lihat laporan bias v2 untuk info lebih lanjut.
Cara Menggunakan
Proyek ini berfokus terutama pada kurasi data sejarah, menyiapkannya untuk pelatihan dan membangun tokenizer. Saya tidak akan membahas proses pelatihan LLM secara penuh, untuk itu silakan merujuk ke nanoGPT oleh Andrej Karpathy.
Langkah 1: Kumpulkan dan Siapkan Teks Sejarah
- Kumpulkan file .txt dari buku domain publik, dokumen, dll dari periode waktu yang dipilih (misal, London 1800-1875)
- Simpan dalam rentang waktu/tempat yang dipilih
- Bersihkan file teks menggunakan skrip atau hapus manual header/footer dari Project Gutenberg, anotasi modern atau kesalahan OCR.
Langkah 2: Bangun Tokenizer Kustom
- Jalankan train_tokenizer.py atau train_tokenizer_hf.py pada data yang sudah dibersihkan.
- Ini akan menghasilkan vocab.json dan merges.txt
- File-file ini mendefinisikan vocab dan aturan penggabungan untuk model Anda
Langkah 3: Latih Model Anda
- Lihat nanoGPT oleh Andrej Karpathy untuk proses pelatihan atau dokumentasi arsitektur pilihan Anda.
FAQ
Apa itu Selective Temporal Training?
Selective Temporal Training (STT) adalah metodologi machine learning di mana semua data pelatihan secara khusus dikurasi agar berada dalam rentang waktu sejarah tertentu. Tujuannya untuk memodelkan bahasa dan pengetahuan pada masa itu tanpa pengaruh konsep modern. Misalnya, model saya saat ini (v0.5) dilatih hanya dengan data tahun 1800-1875, tidak fine tuned tapi dilatih dari awal sehingga hasilnya mencerminkan gaya bahasa dan konteks sejarah masa tersebut.
Kenapa tidak cukup fine-tuning atau LoRA saja?
Untuk proyek ini saya mencoba membuat model bahasa yang tidak terpengaruh oleh bias modern. Jika saya fine-tune sesuatu seperti GPT-2, model itu sudah pre-trained dan informasi tersebut tidak akan hilang. Jika saya melatih dari awal, model bahasa tidak akan berpura-pura kuno, memang aslinya begitu. Tujuan proyek ini saat ini adalah menciptakan sesuatu yang dapat bernalar secara eksklusif menggunakan pengetahuan dari buku-buku London yang diterbitkan antara tahun 1800 hingga 1875.Data seperti apa yang Anda gunakan untuk pelatihan?
Saya menggunakan buku, dokumen hukum, surat kabar, dan tulisan lain dari London 1800–1875. Daftar yang saya tautkan (untuk v0) berisi sekitar 200 dokumen, tetapi untuk pelatihan pertama saya hanya menggunakan 50 file sekitar ~187 MB. Anda dapat melihat daftar dokumennya: https://github.com/haykgrigo3/TimeCapsuleLLM/blob/main/Copy%20of%20London%20Documents%20for%20Time%20Capsule%20LLM.txt
Ukuran dataset:
- v0: ~187MB
- v0.5: ~435MB
- v1: ~6.25GB
- v2mini-eval1: 15GB (sampel dari v2 yang 90GB)
- v2: 90GB
Seberapa besar modelnya?
v0: 16M Parameter
v0.5: 123M Parameter
v1: 700M Parameter
v2mini-eval1: 300M Parameter
v2mini-eval2: 200M Parameter
v2: 1.2B Parameter
Spesifikasi Pelatihan?
v0/v0.5
GPU: Geforce rtx 4060 CPU: i5-13400F Ram: 16GB DDR5.v1
GPU: A100 SXM sewav2mini-eval1/eval2
GPU: A100 SXM disewa
v2
GPU: H100 SXM disewaPekerjaan Terkait
- talkie-1930-13b
- LLM 13B parameter dilatih pada 260B token teks sebelum 1930 dengan Q&A. Ada juga versi dasar.
- Violet 1.4B
- LLM 1,4B parameter dilatih pada teks tahun 1800-1899 dengan Q&A. Ada juga versi 160M.
- Mr. Chatterbox
- LLM 340M parameter dilatih pada lebih dari 28.000 teks antara 1837-1899 dengan Q&A.
- Ranke-4B
- keluarga LLM 4B parameter berbasis arsitektur Qwen3 dilatih dari awal pada 80B token data sejarah hingga batas pengetahuan 1913,1929,1933,1939,1946.
- MondadGPT
- MonadGPT adalah finetune dari Mistral-Hermes 2 pada 11.000 teks awal modern dalam bahasa Inggris, Prancis, dan Latin, sebagian besar berasal dari EEBO dan Gallica.
Ucapan Terima Kasih
Saya ingin mengucapkan terima kasih kepada Dr. Hamed Yaghoobian atas supervisi akademik, bimbingan dalam perumusan dan evaluasi penelitian, serta bantuan dalam pelatihan tokenizer dan persiapan dataset untuk rilis v2. Masukan dan pengalamannya sangat berperan dalam penyempurnaan presentasi karya ini.
--- Tranlated By Open Ai Tx | Last indexed: 2026-05-20 ---