Web Analytics

TimeCapsuleLLM

⭐ 545 stars Portuguese by haykgrigo3

🌐 Idioma

TimeCapsule LLM

Um modelo de linguagem treinado do zero exclusivamente com dados de determinados locais e períodos para reduzir o viés moderno e emular a voz, o vocabulário e a visão de mundo da época.

Imagine se um modelo de IA não apenas fingisse ser histórico, mas realmente fosse.

v0 e v0.5 construídos sobre nanoGPT de Andrej Karpathy Os scripts principais de treinamento e arquitetura do modelo são trabalho dele.

v1 construído sobre Phi 1.5 da Microsoft

Link Hugging Face

Comportamento do Modelo & Limitações

v0

Os primeiros prompts mostram o modelo respondendo com linguagem e comportamento do século XIX. Exemplo: Prompt: "Who art Henry?" e ele respondeu "I know that man, I have did not a black, the storm."

TimeLockLLM Saída de Exemplo

v0.5

Uma melhoria significativa em relação ao v0.

TimeLockLLM Saída de Exemplo

v1

Primeiro modelo a recordar e conectar um evento histórico real com uma figura real do conjunto de dados.

Exemplo: Prompt: "It was the year of our Lord 1834"

A saída: "It was the year of our Lord 1834 and the streets of London were filled with protest and petition. The cause, as many re counted, was not bound in the way of private, but having taken up the same day in the day of Lord Palmerston, the public will receive a short statement of the difficulties under which the day of law has reached us. It is a matter of deep regret, that the present events in the history of the world are clear, and consequently will be'known. It is not true that the very men who first settled in the Gospel at Jerusalem should have so extensive and so interesting a record of the prosperity and prosperity"

A princípio assumi que um protesto poderia ter ocorrido coincidentemente no mesmo ano, mas olhe isto: 1834protesto

Por que isso importa:

Este é o primeiro exemplo de um dos meus modelos conectando um ano a tanto um evento histórico real quanto a uma pessoa real vinculada a esse evento (Lord Palmerston). Modelos anteriores (v0 e v0.5) conseguiam imitar estilos de escrita do século XIX, mas sempre alucinavam eventos, pessoas e fatos. Isso mostra que o modelo está começando a lembrar coisas do conjunto de dados

Planos Futuros

Como Usar

Este projeto foca principalmente em curar dados históricos, prepará-los para treinamento e construir um tokenizador. Não vou cobrir todo o processo de treinamento de LLM, para isso consulte o nanoGPT de Andrej Karpathy.

Passo 1: Coletar e Preparar Textos Históricos

Passo 2: Construir um Tokenizador Personalizado

Passo 3: Treine Seu Modelo

FAQ

O que é Treinamento Temporal Seletivo?

Treinamento Temporal Seletivo (STT) é uma metodologia de aprendizado de máquina onde todos os dados de treinamento são especificamente curados para se enquadrar em um período histórico determinado. Isso é feito para modelar a linguagem e o conhecimento daquela época sem influência de conceitos modernos. Por exemplo, o modelo atual que tenho (v0.5) foi treinado exclusivamente com dados de 1800-1875, não foi apenas ajustado, mas treinado do zero, resultando em uma saída que reflete o estilo linguístico e o contexto histórico daquele período.

Por que não usar apenas fine-tuning ou LoRA?

Neste projeto estou tentando criar um modelo de linguagem livre de vieses modernos. Se eu fizer fine-tuning em algo como GPT-2, ele já está pré-treinado e essa informação não desaparece. Se eu treinar do zero, o modelo de linguagem não vai fingir ser antigo, ele simplesmente será. O objetivo do projeto agora é criar algo que possa raciocinar exclusivamente usando conhecimento de livros de Londres publicados entre 1800 e 1875.

Que tipo de dados você usou para treinar?

Estou usando livros, documentos legais, jornais e outros escritos de Londres entre 1800–1875. A lista que mencionei (para v0) tem cerca de 200, mas para o primeiro treinamento usei apenas 50 arquivos, aproximadamente ~187 MB. Você pode ver uma lista dos documentos: https://github.com/haykgrigo3/TimeCapsuleLLM/blob/main/Copy%20of%20London%20Documents%20for%20Time%20Capsule%20LLM.txt

Tamanhos dos conjuntos de dados: v0: ~187MB v0.5: ~435MB v1: ~6.25GB

Qual o tamanho dos modelos ?

V0: 16M Parâmetros

V0.5 123M Parâmetros

V1: 700M Parâmetros

Especificações de Treinamento ?

V0/V0.5

GPU: Geforce rtx 4060 CPU: i5-13400F Ram: 16GB DDR5.

V1

GPU: A100 alugada

--- Tranlated By Open Ai Tx | Last indexed: 2025-09-30 ---