Web Analytics

TimeCapsuleLLM

⭐ 1915 stars Portuguese by haykgrigo3

🌐 Idioma

English | 简体中文 | 繁體中文 | 日本語 | 한국어 | हिन्दी | ไทย | Français | Deutsch | Español | Italiano | Русский | Português | Nederlands | Polski | العربية | فارسی | Türkçe | Tiếng Việt | Bahasa Indonesia | অসমীয়া

TimeCapsule LLM

Um modelo de linguagem treinado do zero exclusivamente com dados de certos lugares e períodos para reduzir o viés moderno e emular a voz, o vocabulário e a visão de mundo da época.

Imagine se um modelo de IA não apenas fingisse ser histórico, mas realmente fosse.

v0 e v0.5 construídos sobre nanoGPT por Andrej Karpathy Os scripts principais de treinamento e a arquitetura do modelo são de autoria dele.

v1 construído sobre Phi 1.5 da Microsoft

v2 construído sobre llamaforcausallm

Link do Hugging Face

Status da Pesquisa

Este projeto foi iniciado e desenvolvido de forma independente.

Atualmente, é conduzido sob supervisão acadêmica, com colaboração de pesquisa afiliada à Muhlenberg College.

Citação

Se você usar este conjunto de dados ou modelo em trabalhos acadêmicos, por favor cite:

@misc{london_llm_1800,
  author = {Grigorian, Hayk and Yaghoobian, Hamed},
  title = {Historic London English (1800–1875)},
  year = {2025},
  publisher = {Hugging Face},
  howpublished = {\url{https://huggingface.co/datasets/postgrammar/london-llm-1800}}
}

Junte-se ao Discord do Vintage LLM

Se você tem interesse em modelos de linguagem históricos, conjuntos de dados específicos por época ou no futuro de projetos como TimeCapsuleLLM, Violet-1.4B, Mr. Chatterbox, venha participar da comunidade.

Usamos o servidor para discutir ideias, compartilhar progresso e conectar com outros que atuam nessa área.

Entre no Discord

Comportamento do Modelo & Limitações

v0

Os primeiros prompts mostram o modelo respondendo com linguagem e comportamento do século XIX. Exemplo: Prompt: "Who art Henry?" e respondeu "I know that man, I have did not a black, the storm."

Saída de Exemplo do TimeCapsuleLLM

v0.5-london

Uma melhora significativa em relação ao v0.

Saída de Exemplo do TimeCapsuleLLM

v1-london

Primeiro modelo a recordar e conectar um evento histórico real com uma figura real do conjunto de dados.

Exemplo: Prompt: "It was the year of our Lord 1834"

A resposta: "It was the year of our Lord 1834 and the streets of London were filled with protest and petition. The cause, as many re counted, was not bound in the way of private, but having taken up the same day in the day of Lord Palmerston, the public will receive a short statement of the difficulties under which the day of law has reached us. It is a matter of deep regret, that the present events in the history of the world are clear, and consequently will be'known. It is not true that the very men who first settled in the Gospel at Jerusalem should have so extensive and so interesting a record of the prosperity and prosperity"

A princípio, presumi que um protesto poderia ter ocorrido coincidentemente no mesmo ano, mas veja isto: 1834protest

v2mini-eval1-london

Treinado usando uma amostra de 15GB do conjunto de dados de 90GB do v2. Modelo treinado por apenas 10K passos.

Houve um problema com a tokenização que faz com que a saída pareça assim:

PROMPT: Quem é Charles Dickens?

W ho is Charles D ic ens ? D oes that work more of h ise x cell ent st ir ring , in his pl ays , int he G reat C omp any 's f arm ? What I have y et to qu ote from J ack P ick ett ? D oy oun ot know th att hey were as pe cies of g all oping , ors aw ing oft heir bre asts , or what w ast ob ed one about the t im ew hen J acks on was looking ont hew ind ow ? What ist hes uccess of an English man , and which h isson has not be end is cover ing t ome , where by to acc omp lish such a we ight ? D idy ou ever m ake ap ass age int othe old road way , ort o an anch or - b ree ze att he foot of our boat , which you m ust le ave us ? The fact is , that whe ther the wind would rise up from the pl ain on S atur day night orn o ont ide , ort ill then orth , or other wise , wes hall be com pelled t od esc ribe af orm idable bar rier , with t hes ame e ffect s ast he p resent . In th iss itu ation , at le ast , itis not to omuch t os ay that we have le ft that room . I bel ieve there are three c op ies int he " F ive H undred - fold ," to bere fer red to , ast he first n umber of our read ers wh ow is ht Corrigido:

"Quem é Charles Dickens? Isso funciona mais com seu excelente entusiasmo, em suas peças, na fazenda da Grande Companhia? O que ainda tenho que citar de Jack Pickett? Você não sabe que eles eram uma espécie de galope, ou serrando os próprios peitos, ou o que deveria ser feito na época em que Jackson estava olhando pela janela? Qual é o sucesso de um inglês, e que seu filho ainda não me revelou, de modo a realizar tal feito? Você já fez uma passagem pela velha estrada, ou para uma brisa de âncora ao pé do nosso barco, que você deve nos deixar? O fato é que, quer o vento se levantasse da planície no sábado à noite ou ao meio-dia, ou até o norte, ou de outra forma, seríamos obrigados a descrever uma barreira formidável, com os mesmos efeitos que a atual. Nessa situação, pelo menos, não é exagero dizer que deixamos aquele quarto. Creio que há três cópias no 'Quinhentas vezes', para serem consultadas, como o primeiro número de nossos leitores que desejam t[o]..."

v2mini-eval2-london

Treinado usando a mesma amostra de 15GB usada para treinar o eval1. O modelo novamente foi treinado por apenas 10K etapas.

PROMPT:Charles Darwin

Charles DarwinECCEMACY. Senhor, — O caso a seguir é interessante para mim: — Estive em Londres por quinze dias e fui muito afetado por um ataque de reumatismo. O primeiro ataque de reumatismo foi uma semana antes de eu vê-lo, e o segundo quando o vi, e o terceiro quando o vi, e o terceiro ao mesmo tempo. O segundo ataque de gota, porém, não foi acompanhado de sintomas febris, mas foi acompanhado de um aumento no fluxo de urina, e uma descarga mais abundante de urina. O terceiro ataque foi uma hora após eu vê-lo, e foi seguido por um retorno de um paroxismo de gota, e um retorno mais rápido da gota. O quarto ataque também foi acompanhado de febre, mas nem sempre vinha acompanhado de sintomas febris. O terceiro ataque de gota foi quinze dias depois que você esteve doente, e o quarto foi seguido por um paroxismo de gota. O quarto ataque foi quinze dias depois de você ter sido atacado, e foi acompanhado de uma sensação

v2-london

Treinado usando um dataset de 90GB (112GB tokenizado) Treinado por 182K etapas

TimeCapsuleLLM Sample Output

TimeCapsuleLLM Sample Output

O que vem a seguir?

O trabalho está sendo realizado em colaboração com pesquisadores da University College London (UCL) e a participação de outras instituições está sendo discutida.

Conjuntos de Dados

v2

### Estatísticas de Viés Viés de pronome

Viés geográfico

Viés temporal

Consulte o relatório de viés v2 para mais informações.

Como Usar

Este projeto foca principalmente na curadoria de dados históricos, preparação para treinamento e construção de um tokenizador. Não vou cobrir o processo completo de treinamento de LLM; para isso, consulte o nanoGPT de Andrej Karpathy.

Passo 1: Coletar e Preparar Textos Históricos

Passo 2: Construir um Tokenizador Personalizado

Passo 3: Treinar Seu Modelo

FAQ

O que é Treinamento Temporal Seletivo?

Treinamento Temporal Seletivo (STT) é uma metodologia de aprendizado de máquina onde todos os dados de treinamento são especificamente selecionados para cair dentro de um período histórico específico. Isso é feito para modelar a linguagem e o conhecimento da época sem influência de conceitos modernos. Por exemplo, o modelo atual que possuo (v0.5) é treinado exclusivamente com dados de 1800-1875, não é fine-tuned, mas treinado do zero, resultando em saídas que refletem o estilo linguístico e o contexto histórico daquele período.

Por que não usar apenas fine-tuning ou LoRA?

Para este projeto estou tentando criar um modelo de linguagem que não seja influenciado por vieses modernos. Se eu ajustar algo como o GPT-2, ele já está pré-treinado e essa informação não desaparecerá. Se eu treinar do zero, o modelo de linguagem não irá fingir ser antigo, ele simplesmente será. O objetivo deste projeto agora é criar algo que possa raciocinar exclusivamente usando conhecimento de livros publicados em Londres entre 1800 e 1875.

Que tipo de dados você usou para o treinamento?

Estou usando livros, documentos legais, jornais e outros escritos de Londres entre 1800–1875. A lista que eu linkei (para v0) tem cerca de 200, mas para o primeiro treinamento eu usei apenas 50 arquivos, aproximadamente ~187 MB. Você pode visualizar uma lista dos documentos: https://github.com/haykgrigo3/TimeCapsuleLLM/blob/main/Copy%20of%20London%20Documents%20for%20Time%20Capsule%20LLM.txt

Tamanhos dos conjuntos de dados:

Qual o tamanho dos modelos?

v0: 16M Parâmetros

v0.5: 123M Parâmetros

v1: 700M Parâmetros

v2mini-eval1: 300M Parâmetros

v2mini-eval2: 200M Parâmetros

v2: 1,2B Parâmetros

Especificações de Treinamento?

v0/v0.5

GPU: Geforce rtx 4060 CPU: i5-13400F Ram: 16GB DDR5.

v1

GPU: A100 SXM alugada

v2mini-eval1/eval2

GPU: A100 SXM alugado

v2

GPU: H100 SXM alugado

Trabalhos Relacionados

Agradecimentos

Gostaria de agradecer ao Dr. Hamed Yaghoobian pela supervisão acadêmica, orientação na estruturação da pesquisa e avaliação, e pela assistência com o treinamento do tokenizador e preparação do conjunto de dados para o lançamento da v2. Seu feedback e experiência foram instrumentais para refinar a apresentação deste trabalho.

--- Tranlated By Open Ai Tx | Last indexed: 2026-05-20 ---