Web Analytics

TimeCapsuleLLM

⭐ 1915 stars Indonesian by haykgrigo3

🌐 Bahasa

English | 简体中文 | 繁體中文 | 日本語 | 한국어 | हिन्दी | ไทย | Français | Deutsch | Español | Italiano | Русский | Português | Nederlands | Polski | العربية | فارسی | Türkçe | Tiếng Việt | Bahasa Indonesia | অসমীয়া

TimeCapsule LLM

Sebuah model bahasa yang dilatih dari awal secara eksklusif menggunakan data dari tempat dan periode waktu tertentu untuk mengurangi bias modern dan meniru suara, kosakata, serta pandangan dunia era tersebut.

Bayangkan jika sebuah model AI tidak hanya berpura-pura menjadi historis, tetapi benar-benar historis.

v0 dan v0.5 dibangun di atas nanoGPT oleh Andrej Karpathy Skrip pelatihan inti dan arsitektur model adalah karya beliau.

v1 dibangun di atas Phi 1.5 oleh Microsoft

v2 dibangun di atas llamaforcausallm

Link Hugging Face

Status Riset

Proyek ini dimulai dan dikembangkan secara independen.

Saat ini dilakukan di bawah supervisi akademik, dengan kolaborasi riset yang berafiliasi di Muhlenberg College.

Sitasi

Jika Anda menggunakan dataset atau model ini dalam karya akademik, mohon sitasi:

@misc{london_llm_1800,
  author = {Grigorian, Hayk and Yaghoobian, Hamed},
  title = {Historic London English (1800–1875)},
  year = {2025},
  publisher = {Hugging Face},
  howpublished = {\url{https://huggingface.co/datasets/postgrammar/london-llm-1800}}
}

Bergabunglah dengan Vintage LLM Discord

Jika Anda tertarik dengan model bahasa historis, dataset khusus waktu, atau masa depan proyek seperti TimeCapsuleLLM, Violet-1.4B, Mr. Chatterbox mari bergabung dengan komunitas kami.

Kami menggunakan server ini untuk mendiskusikan ide, berbagi kemajuan, dan terhubung dengan orang lain yang membangun di bidang ini.

Bergabung dengan Discord

Perilaku Model & Keterbatasan

v0

Prompt awal menunjukkan model merespons dengan bahasa dan perilaku tahun 1800-an. Contoh: Prompt: "Who art Henry?" dan model menjawab "I know that man, I have did not a black, the storm."

TimeCapsuleLLM Sample Output

v0.5-london

Peningkatan signifikan dibanding v0.

TimeCapsuleLLM Sample Output

v1-london

Model pertama yang dapat mengingat dan menghubungkan peristiwa sejarah nyata dengan tokoh dari dataset.

Contoh: Prompt: "It was the year of our Lord 1834"

Output-nya: "It was the year of our Lord 1834 and the streets of London were filled with protest and petition. The cause, as many re counted, was not bound in the way of private, but having taken up the same day in the day of Lord Palmerston, the public will receive a short statement of the difficulties under which the day of law has reached us. It is a matter of deep regret, that the present events in the history of the world are clear, and consequently will be'known. It is not true that the very men who first settled in the Gospel at Jerusalem should have so extensive and so interesting a record of the prosperity and prosperity"

Awalnya saya mengira bahwa sebuah protes mungkin secara kebetulan terjadi pada tahun yang sama namun coba lihat ini: 1834protest

v2mini-eval1-london

Dilatih menggunakan sampel 15GB dari dataset 90GB v2. Model hanya dilatih hingga 10K langkah.

Terdapat masalah dengan tokenisasi yang menyebabkan output terlihat seperti ini:

PROMPT: Siapa Charles Dickens?

W ho is Charles D ic ens ? D oes that work more of h ise x cell ent st ir ring , in his pl ays , int he G reat C omp any 's f arm ? What I have y et to qu ote from J ack P ick ett ? D oy oun ot know th att hey were as pe cies of g all oping , ors aw ing oft heir bre asts , or what w ast ob ed one about the t im ew hen J acks on was looking ont hew ind ow ? What ist hes uccess of an English man , and which h isson has not be end is cover ing t ome , where by to acc omp lish such a we ight ? D idy ou ever m ake ap ass age int othe old road way , ort o an anch or - b ree ze att he foot of our boat , which you m ust le ave us ? The fact is , that whe ther the wind would rise up from the pl ain on S atur day night orn o ont ide , ort ill then orth , or other wise , wes hall be com pelled t od esc ribe af orm idable bar rier , with t hes ame e ffect s ast he p resent . In th iss itu ation , at le ast , itis not to omuch t os ay that we have le ft that room . I bel ieve there are three c op ies int he " F ive H undred - fold ," to bere fer red to , ast he first n umber of our read ers wh ow is ht

Dikoreksi:

"Siapa Charles Dickens? Apakah karya-karyanya yang membangkitkan semangat, dalam drama-dramanya, di pertanian Perusahaan Besar? Apa yang belum saya kutip dari Jack Pickett? Apakah Anda tidak tahu bahwa mereka adalah semacam galop, atau menggergaji dada mereka, atau apa yang harus dilakukan tentang waktu ketika Jackson sedang melihat ke jendela? Apa keberhasilan seorang Inggris, dan yang belum ditemukan oleh putranya kepada saya, yang dapat digunakan untuk mencapai beban seperti itu? Pernahkah Anda membuat perjalanan ke jalan lama, atau ke angin jangkar di kaki perahu kami, yang harus Anda tinggalkan? Faktanya adalah, apakah angin akan naik dari dataran pada Sabtu malam atau tengah hari, atau ke utara, atau lainnya, kita akan dipaksa untuk menggambarkan penghalang yang tangguh, dengan efek yang sama seperti saat ini. Dalam situasi ini, setidaknya, tidak terlalu berlebihan untuk mengatakan bahwa kita telah meninggalkan ruangan itu. Saya percaya ada tiga salinan dalam 'Lima Ratus Kali Lipat,' yang dapat dirujuk, sebagai nomor pertama dari para pembaca kami yang ingin t[o]..."

v2mini-eval2-london

Dilatih menggunakan sampel 15GB yang sama seperti eval1. Model kembali dilatih hanya hingga 10K langkah.

PROMPT:Charles Darwin

Charles DarwinECCEMACY. Tuan, — Kasus berikut menarik bagi saya : — Saya berada di London selama dua minggu, dan sangat terpengaruh oleh serangan rematik. Serangan rematik pertama terjadi seminggu sebelum saya bertemu Anda, dan yang kedua saat saya bertemu Anda, dan yang ketiga saat saya bertemu Anda, dan yang ketiga pada waktu yang sama. Serangan asam urat kedua, bagaimanapun, tidak disertai gejala demam, tetapi disertai peningkatan aliran urin, dan dengan pengeluaran urin yang lebih banyak. Serangan ketiga terjadi satu jam setelah saya bertemu Anda, dan diikuti oleh kembalinya serangan asam urat, dan kembalinya asam urat yang lebih cepat. Serangan keempat juga disertai demam, tetapi tidak selalu dengan gejala demam. Serangan ketiga asam urat terjadi dua minggu setelah Anda sakit, dan yang keempat diikuti oleh serangan asam urat. Serangan keempat terjadi dua minggu setelah Anda terkena serangan, dan disertai rasa

v2-london

Dilatih menggunakan dataset 90GB (112GB ter-tokenisasi) Dilatih hingga 182K langkah

TimeCapsuleLLM Sample Output

TimeCapsuleLLM Sample Output

Apa berikutnya?

Pekerjaan ini dilakukan bersama dengan peneliti dari University College London (UCL) dan keterlibatan institusi tambahan sedang didiskusikan.

Dataset

v2

Statistik Bias

Bias Pronomina

Bias Geografis

Bias Temporal

Lihat laporan bias v2 untuk info lebih lanjut.

Cara Menggunakan

Proyek ini berfokus terutama pada kurasi data sejarah, menyiapkannya untuk pelatihan dan membangun tokenizer. Saya tidak akan membahas proses pelatihan LLM secara penuh, untuk itu silakan merujuk ke nanoGPT oleh Andrej Karpathy.

Langkah 1: Kumpulkan dan Siapkan Teks Sejarah

Langkah 2: Bangun Tokenizer Kustom

Langkah 3: Latih Model Anda

FAQ

Apa itu Selective Temporal Training?

Selective Temporal Training (STT) adalah metodologi machine learning di mana semua data pelatihan secara khusus dikurasi agar berada dalam rentang waktu sejarah tertentu. Tujuannya untuk memodelkan bahasa dan pengetahuan pada masa itu tanpa pengaruh konsep modern. Misalnya, model saya saat ini (v0.5) dilatih hanya dengan data tahun 1800-1875, tidak fine tuned tapi dilatih dari awal sehingga hasilnya mencerminkan gaya bahasa dan konteks sejarah masa tersebut.

Kenapa tidak cukup fine-tuning atau LoRA saja?

Untuk proyek ini saya mencoba membuat model bahasa yang tidak terpengaruh oleh bias modern. Jika saya fine-tune sesuatu seperti GPT-2, model itu sudah pre-trained dan informasi tersebut tidak akan hilang. Jika saya melatih dari awal, model bahasa tidak akan berpura-pura kuno, memang aslinya begitu. Tujuan proyek ini saat ini adalah menciptakan sesuatu yang dapat bernalar secara eksklusif menggunakan pengetahuan dari buku-buku London yang diterbitkan antara tahun 1800 hingga 1875.

Data seperti apa yang Anda gunakan untuk pelatihan?

Saya menggunakan buku, dokumen hukum, surat kabar, dan tulisan lain dari London 1800–1875. Daftar yang saya tautkan (untuk v0) berisi sekitar 200 dokumen, tetapi untuk pelatihan pertama saya hanya menggunakan 50 file sekitar ~187 MB. Anda dapat melihat daftar dokumennya: https://github.com/haykgrigo3/TimeCapsuleLLM/blob/main/Copy%20of%20London%20Documents%20for%20Time%20Capsule%20LLM.txt

Ukuran dataset:

Seberapa besar modelnya?

v0: 16M Parameter

v0.5: 123M Parameter

v1: 700M Parameter

v2mini-eval1: 300M Parameter

v2mini-eval2: 200M Parameter

v2: 1.2B Parameter

Spesifikasi Pelatihan?

v0/v0.5

GPU: Geforce rtx 4060 CPU: i5-13400F Ram: 16GB DDR5.

v1

GPU: A100 SXM sewa

v2mini-eval1/eval2

GPU: A100 SXM disewa

v2

GPU: H100 SXM disewa

Pekerjaan Terkait

Ucapan Terima Kasih

Saya ingin mengucapkan terima kasih kepada Dr. Hamed Yaghoobian atas supervisi akademik, bimbingan dalam perumusan dan evaluasi penelitian, serta bantuan dalam pelatihan tokenizer dan persiapan dataset untuk rilis v2. Masukan dan pengalamannya sangat berperan dalam penyempurnaan presentasi karya ini.

--- Tranlated By Open Ai Tx | Last indexed: 2026-05-20 ---