Web Analytics

TimeCapsuleLLM

⭐ 545 stars Dutch by haykgrigo3

🌐 Taal

TimeCapsule LLM

Een taalmodel dat vanaf nul getraind is, uitsluitend op gegevens uit bepaalde plaatsen en tijdsperiodes om moderne bias te verminderen en de stem, het vocabulaire en het wereldbeeld van het tijdperk na te bootsen.

Stel je voor dat een AI-model niet alleen deed alsof het historisch was, maar het daadwerkelijk was.

v0 en v0.5 gebouwd op nanoGPT door Andrej Karpathy Kern trainingsscripts en modelarchitectuur zijn zijn werk.

v1 gebouwd op Phi 1.5 door Microsoft

Hugging Face Link

Modelgedrag & Beperkingen

v0

Vroege prompts tonen het model dat reageert met taal en gedrag uit de 19e eeuw. Voorbeeld: Prompt: "Who art Henry?" en het antwoordde "I know that man, I have did not a black, the storm."

TimeLockLLM Voorbeeldoutput

v0.5

Een aanzienlijke verbetering ten opzichte van v0.

TimeLockLLM Voorbeeldoutput

v1

Eerste model dat een echt historisch evenement koppelt aan een daadwerkelijk figuur uit de dataset.

Voorbeeld: Prompt: "It was the year of our Lord 1834"

De output: "It was the year of our Lord 1834 and the streets of London were filled with protest and petition. The cause, as many re counted, was not bound in the way of private, but having taken up the same day in the day of Lord Palmerston, the public will receive a short statement of the difficulties under which the day of law has reached us. It is a matter of deep regret, that the present events in the history of the world are clear, and consequently will be'known. It is not true that the very men who first settled in the Gospel at Jerusalem should have so extensive and so interesting a record of the prosperity and prosperity"

Aanvankelijk dacht ik dat er toevallig een protest had plaatsgevonden in hetzelfde jaar, maar kijk hier eens naar: 1834protest

Waarom dit belangrijk is:

Dit is het eerste voorbeeld van een van mijn modellen die een jaar verbindt aan zowel een echt historisch evenement als een echt persoon verbonden aan dat evenement (Lord Palmerston). Eerdere modellen (v0 en v0.5) konden de schrijfstijlen uit de 19e eeuw nabootsen maar hallucineerden altijd gebeurtenissen, mensen en feiten. Dit toont aan dat het model begint dingen uit de dataset te onthouden.

Toekomstige Plannen

Hoe te Gebruiken

Dit project richt zich voornamelijk op het verzamelen van historische data, het voorbereiden voor training en het bouwen van een tokenizer. Ik behandel niet het volledige LLM-trainingsproces; daarvoor verwijs ik naar nanoGPT van Andrej Karpathy.

Stap 1: Verzamelen en Voorbereiden van Historische Teksten

Stap 2: Bouw een Aangepaste Tokenizer

Stap 3: Train Je Model

FAQ

Wat is Selectieve Temporele Training?

Selectieve Temporele Training (STT) is een machine learning-methodologie waarbij alle trainingsdata specifiek wordt samengesteld om binnen een bepaald historisch tijdsbestek te vallen. Dit wordt gedaan om de taal en kennis van die periode te modelleren zonder invloed van moderne concepten. Bijvoorbeeld, het huidige model dat ik nu heb (v0.5) is getraind op data uitsluitend uit 1800-1875; het is niet fijn afgestemd maar vanaf nul getraind, wat resulteert in output die de linguïstische stijl en historische context van die periode weerspiegelt.

Waarom niet gewoon fine-tuning of LoRA gebruiken?

Voor dit project probeer ik een taalmodel te maken dat niet beïnvloed is door moderne bias. Als ik iets als GPT-2 fine-tune, is het al vooraf getraind en die informatie verdwijnt niet. Als ik vanaf nul train, zal het taalmodel niet doen alsof het oud is, het zal het gewoon zijn. Het doel voor dit project is nu om iets te creëren dat uitsluitend kan redeneren met kennis uit Londense boeken gepubliceerd tussen 1800 en 1875.

Welke data heb je gebruikt voor training?

Ik gebruik boeken, juridische documenten, kranten en andere geschriften uit Londen van 1800–1875. De lijst die ik heb gelinkt (voor v0) bevat ongeveer 200 documenten, maar voor de eerste training heb ik slechts 50 bestanden gebruikt, ongeveer ~187 MB. Je kunt een lijst van de documenten bekijken: https://github.com/haykgrigo3/TimeCapsuleLLM/blob/main/Copy%20of%20London%20Documents%20for%20Time%20Capsule%20LLM.txt

Datasetgroottes: v0: ~187MB v0.5: ~435MB v1: ~6,25GB

Hoe groot zijn de modellen?

V0: 16M Parameters

V0.5 123M Parameters

V1: 700M Parameters

Trainingsspecificaties?

V0/V0.5

GPU: Geforce rtx 4060 CPU: i5-13400F Ram: 16GB DDR5.

V1

GPU: A100 gehuurd

--- Tranlated By Open Ai Tx | Last indexed: 2025-09-30 ---