Web Analytics

TimeCapsuleLLM

⭐ 1915 stars Polish by haykgrigo3

🌐 Język

English | 简体中文 | 繁體中文 | 日本語 | 한국어 | हिन्दी | ไทย | Français | Deutsch | Español | Italiano | Русский | Português | Nederlands | Polski | العربية | فارسی | Türkçe | Tiếng Việt | Bahasa Indonesia | অসমীয়া

TimeCapsule LLM

Model językowy wytrenowany od podstaw wyłącznie na danych z określonych miejsc i okresów czasu, aby ograniczyć współczesne uprzedzenia i oddać głos, słownictwo oraz światopogląd danej epoki.

Wyobraź sobie, że model AI nie tylko udaje historyczny, ale naprawdę nim jest.

v0 oraz v0.5 zbudowane na nanoGPT autorstwa Andreja Karpathy’ego Główne skrypty treningowe i architektura modelu to jego praca.

v1 zbudowana na Phi 1.5 od Microsoft

v2 zbudowana na llamaforcausallm

Link do Hugging Face

Status badań

Projekt został zainicjowany i rozwijany niezależnie.

Obecnie prowadzony jest pod nadzorem akademickim, we współpracy badawczej z Muhlenberg College.

Cytowanie

Jeśli korzystasz z tego zbioru danych lub modelu w pracy naukowej, proszę cytować:

@misc{london_llm_1800,
  author = {Grigorian, Hayk and Yaghoobian, Hamed},
  title = {Historic London English (1800–1875)},
  year = {2025},
  publisher = {Hugging Face},
  howpublished = {\url{https://huggingface.co/datasets/postgrammar/london-llm-1800}}
}

Dołącz do Vintage LLM Discord

Jeśli interesują Cię historyczne modele językowe, zbiory danych z określonych epok lub przyszłość projektów takich jak TimeCapsuleLLM, Violet-1.4B, Mr. Chatterbox, dołącz do naszej społeczności.

Używamy serwera do dyskusji nad pomysłami, dzielenia się postępami i nawiązywania kontaktów z innymi twórcami w tej dziedzinie.

Dołącz do Discorda

Zachowanie modelu i ograniczenia

v0

Wczesne polecenia pokazują, że model odpowiada językiem i zachowaniem z XIX wieku. Przykład: Polecenie: "Who art Henry?" i odpowiedź: "I know that man, I have did not a black, the storm."

TimeCapsuleLLM Przykładowe Wyjście

v0.5-london

Znacząca poprawa względem v0.

TimeCapsuleLLM Przykładowe Wyjście

v1-london

Pierwszy model, który potrafi przywołać i połączyć prawdziwe wydarzenie historyczne z rzeczywistą postacią ze zbioru danych.

Przykład: Polecenie: "It was the year of our Lord 1834"

Wynik: "It was the year of our Lord 1834 and the streets of London were filled with protest and petition. The cause, as many re counted, was not bound in the way of private, but having taken up the same day in the day of Lord Palmerston, the public will receive a short statement of the difficulties under which the day of law has reached us. It is a matter of deep regret, that the present events in the history of the world are clear, and consequently will be'known. It is not true that the very men who first settled in the Gospel at Jerusalem should have so extensive and so interesting a record of the prosperity and prosperity"

Początkowo zakładałem, że protest mógłby się przypadkowo odbyć w tym samym roku, ale spójrz na to: 1834protest

v2mini-eval1-london

Wytrenowano przy użyciu 15 GB próbki z 90 GB zbioru danych v2. Model trenowany tylko do 10 000 kroków.

Wystąpił problem z tokenizacją, który powoduje, że wyjście wygląda tak:

ZAPYTANIE: Kim jest Charles Dickens?

W ho is Charles D ic ens ? D oes that work more of h ise x cell ent st ir ring , in his pl ays , int he G reat C omp any 's f arm ? What I have y et to qu ote from J ack P ick ett ? D oy oun ot know th att hey were as pe cies of g all oping , ors aw ing oft heir bre asts , or what w ast ob ed one about the t im ew hen J acks on was looking ont hew ind ow ? What ist hes uccess of an English man , and which h isson has not be end is cover ing t ome , where by to acc omp lish such a we ight ? D idy ou ever m ake ap ass age int othe old road way , ort o an anch or - b ree ze att he foot of our boat , which you m ust le ave us ? The fact is , that whe ther the wind would rise up from the pl ain on S atur day night orn o ont ide , ort ill then orth , or other wise , wes hall be com pelled t od esc ribe af orm idable bar rier , with t hes ame e ffect s ast he p resent . In th iss itu ation , at le ast , itis not to omuch t os ay that we have le ft that room . I bel ieve there are three c op ies int he " F ive H undred - fold ," to bere fer red to , ast he first n umber of our read ers wh ow is ht Poprawiono:

"Kim jest Charles Dickens? Czy to dzieło bardziej jego znakomitego wzruszenia, w jego sztukach, na farmie Wielkiej Kompanii? Co mam jeszcze zacytować z Jacka Picketta? Czy nie wiesz, że byli oni gatunkiem galopujących, lub piłujących swoje piersi, albo co miało być zrobione w czasie, gdy Jackson patrzył przez okno? Jaki jest sukces Anglika i który jego syn nie odkrył mi jeszcze, jak osiągnąć taki ciężar? Czy kiedykolwiek przeszliście na starą drogę, lub do kotwicznego wietrzyka u stóp naszej łodzi, którą musicie nas opuścić? Faktem jest, że bez względu na to, czy wiatr wzniesie się z równiny w sobotnią noc czy w południe, czy na północ, czy inaczej, będziemy zmuszeni opisać potężną barierę, z tymi samymi skutkami co obecnie. W tej sytuacji, przynajmniej, nie jest zbyt wiele powiedzieć, że opuściliśmy to pomieszczenie. Wierzę, że istnieją trzy kopie w 'Pięćsetkrotnym', do których można się odwołać, jako pierwszy numer naszych czytelników, którzy chcą t[o]..."

v2mini-eval2-london

Wytrenowany na tej samej 15GB próbce użytej do treningu eval1. Model ponownie wytrenowany tylko do 10K kroków.

PROMPT:Charles Darwin

Charles DarwinECCEMACY. Proszę Pana, — Następujący przypadek jest dla mnie interesujący: — Przebywałem w Londynie dwa tygodnie i mocno odczułem atak reumatyzmu. Pierwszy atak reumatyzmu nastąpił tydzień przed spotkaniem z Panem, drugi podczas spotkania z Panem, a trzeci także wtedy, podczas tego samego czasu. Drugi atak dny nie był jednak związany z gorączką, lecz towarzyszyło mu zwiększone wydzielanie moczu oraz obfitszy jego wypływ. Trzeci atak nastąpił godzinę po spotkaniu z Panem, po czym nastąpił powrót napadu dny oraz szybszy nawrót dny. Czwarty atak także wiązał się z gorączką, ale nie zawsze występowały objawy gorączkowe. Trzeci atak dny miał miejsce dwa tygodnie po chorobie, a czwarty zakończył się napadem dny. Czwarty atak wystąpił dwa tygodnie po pierwszym ataku i towarzyszyło mu uczucie

v2-london

Wytrenowano na 90GB (112GB po tokenizacji) danych Trenowano do 182 tys. kroków

TimeCapsuleLLM Sample Output

TimeCapsuleLLM Sample Output

Co dalej?

Prace prowadzone są we współpracy z naukowcami z University College London (UCL), a udział kolejnych instytucji jest omawiany.

Zbiory danych

v2

### Statystyki Uprzedzeń Uprzedzenie zaimków

Uprzedzenie geograficzne

Uprzedzenie czasowe

Zobacz raport uprzedzeń v2 po więcej informacji.

Jak korzystać

Ten projekt skupia się głównie na kuracji danych historycznych, przygotowaniu ich do treningu i budowaniu tokenizera. Nie będę omawiał pełnego procesu treningu LLM, w tym celu zobacz nanoGPT Andreja Karpathy.

Krok 1: Zbierz i przygotuj teksty historyczne

Krok 2: Zbuduj własny tokenizator

Krok 3: Wytrenuj swój model

FAQ

Czym jest Selektive Temporal Training?

Selective Temporal Training (STT) to metodologia uczenia maszynowego, w której wszystkie dane treningowe są specjalnie kuratowane, aby mieściły się w określonym historycznym okresie. Robi się to, by modelować język i wiedzę tamtej epoki bez wpływu współczesnych koncepcji. Na przykład obecny model, który posiadam (v0.5), jest wytrenowany wyłącznie na danych z lat 1800-1875, nie jest fine-tuningowany, lecz trenowany od zera, co skutkuje wyjściem odzwierciedlającym styl językowy i kontekst historyczny tego okresu.

Dlaczego nie użyć po prostu fine-tuningu lub LoRA?

W tym projekcie staram się stworzyć model językowy wolny od współczesnych uprzedzeń. Jeśli dokonam fine-tuningu czegoś takiego jak GPT-2, to już jest ono wytrenowane i tych informacji nie da się usunąć. Jeśli wytrenuję model językowy od zera, nie będzie on udawał starego — po prostu taki będzie. Celem tego projektu jest stworzenie czegoś, co potrafi rozumować wyłącznie na podstawie wiedzy z londyńskich książek wydanych między 1800 a 1875 rokiem.

Jakich danych użyto do trenowania?

Używam książek, dokumentów prawnych, gazet i innych tekstów z Londynu z lat 1800–1875. Lista, którą podlinkowałem (dla v0), zawiera około 200 pozycji, ale do pierwszego treningu użyłem tylko 50 plików o łącznym rozmiarze ok. 187 MB. Listę dokumentów można zobaczyć tutaj: https://github.com/haykgrigo3/TimeCapsuleLLM/blob/main/Copy%20of%20London%20Documents%20for%20Time%20Capsule%20LLM.txt

Rozmiary zbiorów danych:

Jak duże są modele?

v0: 16M parametrów

v0.5: 123M parametrów

v1: 700M parametrów

v2mini-eval1: 300M parametrów

v2mini-eval2: 200M parametrów

v2: 1,2B parametrów

Specyfikacja treningu?

v0/v0.5

GPU: Geforce rtx 4060 CPU: i5-13400F Ram: 16GB DDR5.

v1

GPU: A100 SXM wynajmowany

v2mini-eval1/eval2

GPU: A100 SXM wynajęty

v2

GPU: H100 SXM wynajęty

Prace Powiązane

Podziękowania

Chciałbym podziękować Dr. Hamedowi Yaghoobianowi za nadzór akademicki, wsparcie w zakresie ram badawczych i oceny, a także za pomoc w treningu tokenizera i przygotowaniu zbioru danych do wydania v2. Jego opinie i doświadczenie były kluczowe w udoskonaleniu prezentacji tej pracy.

--- Tranlated By Open Ai Tx | Last indexed: 2026-05-20 ---