Web Analytics

TimeCapsuleLLM

⭐ 1915 stars Dutch by haykgrigo3

🌐 Taal

English | 简体中文 | 繁體中文 | 日本語 | 한국어 | हिन्दी | ไทย | Français | Deutsch | Español | Italiano | Русский | Português | Nederlands | Polski | العربية | فارسی | Türkçe | Tiếng Việt | Bahasa Indonesia | অসমীয়া

TimeCapsule LLM

Een taalmodel dat vanaf nul is getraind uitsluitend op data uit bepaalde plaatsen en tijdsperioden om moderne bias te verminderen en de stem, woordenschat en wereldbeeld van het tijdperk te emuleren.

Stel je voor dat een AI-model niet alleen deed alsof het historisch was, maar het werkelijk was.

v0 en v0.5 gebouwd op nanoGPT van Andrej Karpathy Kern trainingsscripts en modelarchitectuur zijn zijn werk.

v1 gebouwd op Phi 1.5 van Microsoft

v2 gebouwd op llamaforcausallm

Hugging Face Link

Onderzoeksstatus

Dit project is onafhankelijk geïnitieerd en ontwikkeld.

Het wordt momenteel uitgevoerd onder academisch toezicht, met een geassocieerde onderzoekssamenwerking aan Muhlenberg College.

Citatie

Als je deze dataset of dit model gebruikt in academisch werk, citeer dan:

@misc{london_llm_1800,
  author = {Grigorian, Hayk and Yaghoobian, Hamed},
  title = {Historic London English (1800–1875)},
  year = {2025},
  publisher = {Hugging Face},
  howpublished = {\url{https://huggingface.co/datasets/postgrammar/london-llm-1800}}
}

Word lid van de Vintage LLM Discord

Als je geïnteresseerd bent in historische taalmodellen, tijdspecifieke datasets of de toekomst van projecten zoals TimeCapsuleLLM, Violet-1.4B, Mr. Chatterbox, kom dan bij de community.

We gebruiken de server om ideeën te bespreken, voortgang te delen en in contact te komen met anderen die in dit vakgebied bouwen.

Word lid van de Discord

Modelgedrag & Beperkingen

v0

Vroege prompts laten het model reageren met taalgebruik en gedrag uit de 19e eeuw. Voorbeeld: Prompt: "Who art Henry?" en het antwoordde: "I know that man, I have did not a black, the storm."

TimeCapsuleLLM Voorbeeldoutput

v0.5-london

Een significante verbetering ten opzichte van v0.

TimeCapsuleLLM Voorbeeldoutput

v1-london

Eerste model dat een echt historisch feit met een daadwerkelijk figuur uit de dataset kan verbinden.

Voorbeeld: Prompt: "It was the year of our Lord 1834"

De uitvoer: "It was the year of our Lord 1834 and the streets of London were filled with protest and petition. The cause, as many re counted, was not bound in the way of private, but having taken up the same day in the day of Lord Palmerston, the public will receive a short statement of the difficulties under which the day of law has reached us. It is a matter of deep regret, that the present events in the history of the world are clear, and consequently will be'known. It is not true that the very men who first settled in the Gospel at Jerusalem should have so extensive and so interesting a record of the prosperity and prosperity"

Eerst dacht ik dat er toevallig in dat jaar een protest was, maar kijk eens hiernaar: 1834protest

v2mini-eval1-london

Getraind met een 15GB sample uit v2's 90GB dataset. Model slechts getraind tot 10K stappen.

Er was een probleem met tokenisatie waardoor de output er zo uitziet:

PROMPT: Wie is Charles Dickens?

W ho is Charles D ic ens ? D oes that work more of h ise x cell ent st ir ring , in his pl ays , int he G reat C omp any 's f arm ? What I have y et to qu ote from J ack P ick ett ? D oy oun ot know th att hey were as pe cies of g all oping , ors aw ing oft heir bre asts , or what w ast ob ed one about the t im ew hen J acks on was looking ont hew ind ow ? What ist hes uccess of an English man , and which h isson has not be end is cover ing t ome , where by to acc omp lish such a we ight ? D idy ou ever m ake ap ass age int othe old road way , ort o an anch or - b ree ze att he foot of our boat , which you m ust le ave us ? The fact is , that whe ther the wind would rise up from the pl ain on S atur day night orn o ont ide , ort ill then orth , or other wise , wes hall be com pelled t od esc ribe af orm idable bar rier , with t hes ame e ffect s ast he p resent . In th iss itu ation , at le ast , itis not to omuch t os ay that we have le ft that room . I bel ieve there are three c op ies int he " F ive H undred - fold ," to bere fer red to , ast he first n umber of our read ers wh ow is ht

Gecorrigeerd:

"Wie is Charles Dickens? Komt dat werk meer voort uit zijn uitstekende en aangrijpende stukken, in zijn toneelstukken, op de boerderij van de Great Company? Wat moet ik nog citeren van Jack Pickett? Weet je niet dat ze een soort galopperen waren, of zagen aan hun borst, of wat er moest gebeuren rond de tijd dat Jackson uit het raam keek? Wat is het succes van een Engelsman, en wat heeft zijn zoon nog niet aan mij ontdekt, waarmee zo'n gewicht kan worden bereikt? Heb je ooit een doorgang gemaakt naar de oude weg, of naar een ankerbries aan de voet van onze boot, die je ons moet verlaten? Het feit is, dat of de wind nu zou opsteken vanaf de vlakte op zaterdagavond of rond het middaguur, of naar het noorden, of anderszins, we genoodzaakt zullen zijn een formidabele barrière te beschrijven, met dezelfde effecten als nu. In deze situatie, althans, is het niet te veel gezegd dat we die kamer hebben verlaten. Ik geloof dat er drie exemplaren zijn in de 'Five Hundred-fold', waarnaar verwezen moet worden, als het eerste aantal van onze lezers dat wil t[o]..."

v2mini-eval2-london

Getraind met dezelfde 15GB sample als gebruikt bij de training van eval1. Model is opnieuw getraind tot slechts 10K stappen.

PROMPT:Charles Darwin

Charles DarwinECCEMACY. Meneer, — Het volgende geval is interessant voor mij: — Ik was twee weken in Londen, en werd sterk getroffen door een aanval van reuma. De eerste aanval van reuma was een week voordat ik u zag, de tweede toen ik u zag, en de derde toen ik u zag, en de derde in dezelfde tijd. De tweede aanval van jicht werd echter niet vergezeld door koortsverschijnselen, maar wel door een verhoogde urinestroom en een overvloedigere urineafscheiding. De derde aanval was een uur nadat ik u zag, en werd gevolgd door een terugkeer van een jichtaanval, en een snellere terugkeer van de jicht. De vierde aanval ging ook gepaard met koorts, maar werd niet altijd vergezeld door koortsverschijnselen. De derde aanval van jicht was twee weken nadat u ziek was geworden, en de vierde werd gevolgd door een jichtaanval. De vierde aanval was twee weken nadat u werd getroffen, en ging gepaard met een gevoel

v2-london

Getraind met een 90GB (112GB getokeniseerd) dataset Getraind tot 182K stappen

TimeCapsuleLLM Voorbeeldoutput

TimeCapsuleLLM Voorbeeldoutput

Wat is het volgende?

Het werk wordt uitgevoerd in samenwerking met onderzoekers van University College London (UCL) en aanvullende institutionele betrokkenheid wordt besproken.

Datasets

v2

Bias Statistieken

Voornaamwoord bias

Geografische bias

Tijdgebonden bias

Raadpleeg het v2 bias rapport voor meer informatie.

Hoe te Gebruiken

Dit project richt zich voornamelijk op het verzamelen van historische data, het voorbereiden voor training en het bouwen van een tokenizer. Ik behandel niet het volledige LLM trainingsproces, daarvoor verwijs ik naar nanoGPT van Andrej Karpathy.

Stap 1: Verzamel en Bereid Historische Teksten Voor

Stap 2: Bouw een Eigen Tokenizer

Stap 3: Train Je Model

FAQ

Wat is Selective Temporal Training?

Selective Temporal Training (STT) is een machine learning-methodologie waarbij alle trainingsdata specifiek wordt samengesteld om binnen een bepaalde historische tijdsperiode te vallen. Dit gebeurt om de taal en kennis van die periode te modelleren zonder invloed van moderne concepten. Bijvoorbeeld, het huidige model dat ik heb (v0.5) is uitsluitend getraind op data uit 1800-1875, het is niet fijn-afgesteld maar vanaf nul getraind, wat resulteert in output die de linguïstische stijl en historische context van die tijd weerspiegelt.

Waarom niet gewoon fine-tuning of LoRA gebruiken?

Voor dit project probeer ik een taalmodel te creëren dat niet beïnvloed is door moderne vooroordelen. Als ik iets als GPT-2 fine-tune, is het al voorgetraind en die informatie verdwijnt niet. Als ik het model vanaf nul train, doet het zich niet voor als oud, het ís gewoon oud. Het doel van dit project is nu om iets te maken dat uitsluitend kan redeneren met kennis uit Londense boeken gepubliceerd tussen 1800 en 1875.

Welke data heb je gebruikt voor de training?

Ik gebruik boeken, juridische documenten, kranten en andere geschriften uit Londen van 1800–1875. De lijst die ik gelinkt heb (voor v0) bevat er zo'n 200, maar voor de eerste training heb ik slechts 50 bestanden gebruikt, ongeveer ~187 MB. Je kunt een lijst van de documenten bekijken: https://github.com/haykgrigo3/TimeCapsuleLLM/blob/main/Copy%20of%20London%20Documents%20for%20Time%20Capsule%20LLM.txt

Datasetgroottes:

Hoe groot zijn de modellen?

v0: 16M Parameters

v0.5 123M Parameters

v1: 700M Parameters

v2mini-eval1: 300M Parameters

v2mini-eval2: 200M Parameters

v2: 1,2B Parameters

Trainingsspecificaties?

v0/v0.5

GPU: Geforce rtx 4060 CPU: i5-13400F Ram: 16GB DDR5.

v1

GPU: A100 SXM gehuurd

v2mini-eval1/eval2

GPU: A100 SXM gehuurd

v2

GPU: H100 SXM gehuurd

Gerelateerd Werk

Dankbetuigingen

Ik wil Dr. Hamed Yaghoobian bedanken voor academische supervisie, begeleiding bij het opzetten en evalueren van het onderzoek, en voor hulp bij tokenizer training en datasetvoorbereiding voor de v2-release. Zijn feedback en ervaring waren van groot belang bij het verfijnen van de presentatie van dit werk.

--- Tranlated By Open Ai Tx | Last indexed: 2026-05-20 ---