Web Analytics

TimeCapsuleLLM

⭐ 1870 stars Dutch by haykgrigo3

🌐 Taal

English | 简体中文 | 繁體中文 | 日本語 | 한국어 | हिन्दी | ไทย | Français | Deutsch | Español | Italiano | Русский | Português | Nederlands | Polski | العربية | فارسی | Türkçe | Tiếng Việt | Bahasa Indonesia | অসমীয়া

TimeCapsule LLM

Een taalmodel dat vanaf nul is getraind uitsluitend op data uit bepaalde plaatsen en tijdsperioden om moderne bias te verminderen en de stem, woordenschat en wereldbeeld van het tijdperk te emuleren.

Stel je voor dat een AI-model niet alleen deed alsof het historisch was, maar het werkelijk was.

v0 en v0.5 gebouwd op nanoGPT van Andrej Karpathy Kern trainingsscripts en modelarchitectuur zijn zijn werk.

v1 gebouwd op Phi 1.5 van Microsoft

v2 gebouwd op llamaforcausallm

Hugging Face Link

Onderzoeksstatus

Dit project is onafhankelijk geïnitieerd en ontwikkeld.

Het wordt momenteel uitgevoerd onder academisch toezicht, met een geassocieerde onderzoekssamenwerking aan Muhlenberg College.

Citatie

Als je deze dataset of dit model gebruikt in academisch werk, citeer dan:

@misc{london_llm_1800,
  author = {Grigorian, Hayk and Yaghoobian, Hamed},
  title = {Historic London English (1800–1875)},
  year = {2025},
  publisher = {Hugging Face},
  howpublished = {\url{https://huggingface.co/datasets/postgrammar/london-llm-1800}}
}

Modelgedrag & Beperkingen

v0

Vroege prompts tonen het model dat reageert met taal en gedrag uit de 19e eeuw. Voorbeeld: Prompt: "Who art Henry?" en het antwoordde "I know that man, I have did not a black, the storm."

TimeCapsuleLLM Sample Output

v0.5

Een aanzienlijke verbetering ten opzichte van v0.

TimeCapsuleLLM Sample Output

v1

Eerste model dat een echte historische gebeurtenis koppelt aan een daadwerkelijk figuur uit de dataset.

Voorbeeld: Prompt: "It was the year of our Lord 1834"

De output: "It was the year of our Lord 1834 and the streets of London were filled with protest and petition. The cause, as many re counted, was not bound in the way of private, but having taken up the same day in the day of Lord Palmerston, the public will receive a short statement of the difficulties under which the day of law has reached us. It is a matter of deep regret, that the present events in the history of the world are clear, and consequently will be'known. It is not true that the very men who first settled in the Gospel at Jerusalem should have so extensive and so interesting a record of the prosperity and prosperity"

Eerst ging ik ervan uit dat er toevallig een protest plaatsvond in hetzelfde jaar, maar kijk hier eens naar: 1834protest

v2mini-eval1

Getraind met een 15GB sample uit v2's 90GB dataset. Model getraind tot slechts 10K stappen.

Er was een probleem met tokenisatie waardoor de output er zo uitziet:

Wie is Charles Dickens?

W ho is Charles D ic ens ? D oes that work more of h ise x cell ent st ir ring , in his pl ays , int he G reat C omp any 's f arm ? What I have y et to qu ote from J ack P ick ett ? D oy oun ot know th att hey were as pe cies of g all oping , ors aw ing oft heir bre asts , or what w ast ob ed one about the t im ew hen J acks on was looking ont hew ind ow ? What ist hes uccess of an English man , and which h isson has not be end is cover ing t ome , where by to acc omp lish such a we ight ? D idy ou ever m ake ap ass age int othe old road way , ort o an anch or - b ree ze att he foot of our boat , which you m ust le ave us ? The fact is , that whe ther the wind would rise up from the pl ain on S atur day night orn o ont ide , ort ill then orth , or other wise , wes hall be com pelled t od esc ribe af orm idable bar rier , with t hes ame e ffect s ast he p resent . In th iss itu ation , at le ast , itis not to omuch t os ay that we have le ft that room . I bel ieve there are three c op ies int he " F ive H undred - fold ," to bere fer red to , ast he first n umber of our read ers wh ow is ht

Gecorrigeerd:

"Wie is Charles Dickens? Werkt dat meer van zijn uitstekende ontroering, in zijn toneelstukken, op de boerderij van de Grote Maatschappij? Wat moet ik nog citeren van Jack Pickett? Weet je niet dat ze een soort galop, of zagen van hun borsten waren, of wat er moest gebeuren rond de tijd dat Jackson naar het raam keek? Wat is het succes van een Engelsman, en wat heeft zijn zoon nog niet aan mij ontdekt, waardoor zo'n gewicht kan worden bereikt? Heb je ooit een doorgang gemaakt naar de oude weg, of naar een ankerbries aan de voet van onze boot, die je ons moet verlaten? Het feit is, dat of de wind nu zou opsteken vanaf de vlakte op zaterdagavond of rond de middag, of naar het noorden, of anders, we zullen gedwongen zijn een formidabele barrière te beschrijven, met dezelfde effecten als nu. In deze situatie is het op zijn minst niet overdreven te zeggen dat we die kamer hebben verlaten. Ik geloof dat er drie exemplaren zijn in de 'Vijfhonderdvoud', waarnaar verwezen kan worden, als het eerste nummer van onze lezers die w[...]..."

v2mini-eval2

Getraind met dezelfde 15GB-sample die werd gebruikt voor training eval1. Model is opnieuw slechts getraind tot 10K stappen.

PROMPT:Charles Darwin

Charles DarwinECCEMACY. Meneer, — Het volgende geval is voor mij interessant: — Ik was twee weken in Londen en werd sterk getroffen door een aanval van reuma. De eerste aanval van reuma was een week voordat ik u zag, de tweede toen ik u zag, en de derde toen ik u zag, en de derde in dezelfde tijd. De tweede aanval van jicht echter, ging niet gepaard met enige koortsverschijnselen, maar wel met een verhoogde urineproductie en een overvloedigere urinelozing. De derde aanval was een uur nadat ik u zag, en werd gevolgd door een terugkeer van een jichtaanval, en een snellere terugkeer van de jicht. De vierde aanval ging ook gepaard met koorts, maar niet altijd met koortsverschijnselen. De derde aanval van jicht was twee weken nadat u ziek was geweest, en de vierde werd gevolgd door een jichtaanval. De vierde aanval was twee weken nadat u werd aangevallen, en ging gepaard met een gevoel

v2

Getraind met een 90GB (112GB getokeniseerde) dataset Getraind tot 182K stappen

TimeCapsuleLLM Voorbeeldoutput

TimeCapsuleLLM Voorbeeldoutput

Datasets

v2

### Bias Statistieken Voornaamwoordbias

Geografische bias

Tijdsbias

Raadpleeg het v2 biasrapport voor meer informatie.

Hoe te gebruiken

Dit project richt zich voornamelijk op het verzamelen van historische data, het voorbereiden voor training en het bouwen van een tokenizer. Ik ga niet het volledige LLM-trainingsproces behandelen, daarvoor verwijs ik naar nanoGPT van Andrej Karpathy.

Stap 1: Verzamel en bereid historische teksten voor

Stap 2: Bouw een aangepaste tokenizer

Stap 3: Train je model

FAQ

Wat is Selectieve Temporele Training?

Selectieve Temporele Training (STT) is een machine learning-methodologie waarbij alle trainingsdata specifiek wordt verzameld binnen een bepaalde historische tijdsperiode. Dit gebeurt om de taal en kennis van die periode te modelleren zonder invloed van moderne concepten. Bijvoorbeeld, het huidige model dat ik heb (v0.5) is getraind op data uitsluitend uit 1800-1875, het is niet fijn afgestemd maar vanaf nul getraind, wat resulteert in output die de linguïstische stijl en historische context van die periode weerspiegelt.

Waarom niet gewoon fine-tuning of LoRA gebruiken?

Voor dit project probeer ik een taalmodel te maken dat vrij is van moderne bias. Als ik iets als GPT-2 fine-tune, is het al voorgetraind en die informatie verdwijnt niet. Als ik vanaf nul train, zal het taalmodel niet doen alsof het oud is, het zal het gewoon zijn. Het doel voor dit project is nu om iets te creëren dat uitsluitend kan redeneren met kennis uit Londense boeken gepubliceerd tussen 1800 en 1875.

Wat voor data heb je gebruikt voor training?

Ik gebruik boeken, juridische documenten, kranten en andere geschriften uit Londen van 1800–1875. De lijst die ik heb gelinkt (voor v0) bevat er ongeveer 200, maar voor de eerste training gebruikte ik slechts 50 bestanden van ongeveer ~187 MB. Je kunt een lijst van de documenten bekijken: https://github.com/haykgrigo3/TimeCapsuleLLM/blob/main/Copy%20of%20London%20Documents%20for%20Time%20Capsule%20LLM.txt

Datasetgroottes:

Hoe groot zijn de modellen?

v0: 16M Parameters

v0.5 123M Parameters

v1: 700M Parameters

v2mini-eval1: 300M Parameters

v2mini-eval2: 200M Parameters

v2: 1,2B Parameters

Trainingsspecificaties?

v0/v0.5

GPU: Geforce rtx 4060 CPU: i5-13400F Ram: 16GB DDR5.

v1

GPU: A100 SXM gehuurd

v2mini-eval1/eval2

GPU: A100 SXM gehuurd

v2

GPU: H100 SXM gehuurd

Dankbetuigingen

Ik wil Dr. Hamed Yaghoobian bedanken voor academische supervisie, begeleiding bij het kaderen en evalueren van onderzoek, en voor assistentie bij tokenizertraining en datasetvoorbereiding voor de v2-release. Zijn feedback en ervaring waren van onschatbare waarde bij het verfijnen van de presentatie van dit werk.

--- Tranlated By Open Ai Tx | Last indexed: 2026-03-03 ---