Web Analytics

TimeCapsuleLLM

⭐ 1870 stars Spanish by haykgrigo3

🌐 Idioma

English | 简体中文 | 繁體中文 | 日本語 | 한국어 | हिन्दी | ไทย | Français | Deutsch | Español | Italiano | Русский | Português | Nederlands | Polski | العربية | فارسی | Türkçe | Tiếng Việt | Bahasa Indonesia | অসমীয়া

TimeCapsule LLM

Un modelo de lenguaje entrenado desde cero exclusivamente con datos de ciertos lugares y períodos de tiempo para reducir el sesgo moderno y emular la voz, el vocabulario y la cosmovisión de la época.

Imagina si un modelo de IA no solo pretendiera ser histórico, sino que realmente lo fuera.

v0 y v0.5 construidos sobre nanoGPT por Andrej Karpathy Los scripts principales de entrenamiento y la arquitectura del modelo son su trabajo.

v1 construido sobre Phi 1.5 de Microsoft

v2 construido sobre llamaforcausallm

Enlace a Hugging Face

Estado de la Investigación

Este proyecto fue iniciado y desarrollado de forma independiente.

Actualmente se lleva a cabo bajo supervisión académica, con una colaboración de investigación afiliada en Muhlenberg College.

Citación

Si utilizas este conjunto de datos o modelo en trabajos académicos, por favor cita:

@misc{london_llm_1800,
  author = {Grigorian, Hayk and Yaghoobian, Hamed},
  title = {Historic London English (1800–1875)},
  year = {2025},
  publisher = {Hugging Face},
  howpublished = {\url{https://huggingface.co/datasets/postgrammar/london-llm-1800}}
}

Comportamiento y Limitaciones del Modelo

v0

Las primeras indicaciones muestran que el modelo responde con lenguaje y comportamiento de 1800. Ejemplo: Indicación: "¿Quién es Henry?" y respondió "Conozco a ese hombre, no he hecho un negro, la tormenta."

Salida de muestra TimeCapsuleLLM

v0.5

Una mejora significativa sobre v0.

Salida de muestra TimeCapsuleLLM

v1

Primer modelo en recordar y conectar un evento histórico real con una figura real del conjunto de datos.

Ejemplo: Indicación: "Era el año de Nuestro Señor 1834"

La salida: "Era el año de Nuestro Señor 1834 y las calles de Londres estaban llenas de protestas y peticiones. La causa, como muchos contaron, no estaba ligada en privado, sino que había ocupado el mismo día en el día de Lord Palmerston, el público recibirá una breve declaración de las dificultades bajo las cuales el día de la ley nos ha alcanzado. Es motivo de profundo pesar que los presentes acontecimientos en la historia del mundo sean claros y, en consecuencia, serán conocidos. No es cierto que los mismos hombres que primero se establecieron en el Evangelio en Jerusalén tengan un registro tan extenso e interesante de la prosperidad y prosperidad"

Al principio asumí que una protesta pudo haber ocurrido casualmente ese año, pero mira esto: 1834protesta

v2mini-eval1

Entrenado usando una muestra de 15GB del conjunto de datos de 90GB de v2. Modelo entrenado solo hasta 10K pasos.

Hubo un problema con la tokenización que hace que la salida se vea así:

¿Quién es Charles Dickens?

W ho is Charles D ic ens ? D oes that work more of h ise x cell ent st ir ring , in his pl ays , int he G reat C omp any 's f arm ? What I have y et to qu ote from J ack P ick ett ? D oy oun ot know th att hey were as pe cies of g all oping , ors aw ing oft heir bre asts , or what w ast ob ed one about the t im ew hen J acks on was looking ont hew ind ow ? What ist hes uccess of an English man , and which h isson has not be end is cover ing t ome , where by to acc omp lish such a we ight ? D idy ou ever m ake ap ass age int othe old road way , ort o an anch or - b ree ze att he foot of our boat , which you m ust le ave us ? The fact is , that whe ther the wind would rise up from the pl ain on S atur day night orn o ont ide , ort ill then orth , or other wise , wes hall be com pelled t od esc ribe af orm idable bar rier , with t hes ame e ffect s ast he p resent . In th iss itu ation , at le ast , itis not to omuch t os ay that we have le ft that room . I bel ieve there are three c op ies int he " F ive H undred - fold ," to bere fer red to , ast he first n umber of our read ers wh ow is ht Corregido:

"¿Quién es Charles Dickens? ¿Acaso esa obra agita más de su excelente talento, en sus obras teatrales, en la gran granja de la Compañía? ¿Qué me falta citar de Jack Pickett? ¿No sabes que ellos eran una especie de galopantes, o que aserraban sus pechos, o qué se debía hacer en el momento en que Jackson miraba por la ventana? ¿Cuál es el éxito de un inglés, y cuál su hijo no me ha descubierto aún, para lograr tal peso? ¿Alguna vez atravesaste el antiguo camino, o echaste un ancla-brisa al pie de nuestro bote, que debes dejarnos? El hecho es que, ya sea que el viento se levante desde la llanura el sábado por la noche o al mediodía, o hasta el norte, o de otro modo, nos veremos obligados a describir una barrera formidable, con los mismos efectos que la actual. En esta situación, al menos, no es exagerado decir que hemos dejado esa habitación. Creo que hay tres copias en el 'Quinientos Veces,' a las que referirse, como el primer número de nuestros lectores que deseen t[o]..."

v2mini-eval2

Entrenado usando la misma muestra de 15GB usada para entrenar eval1. El modelo se entrenó nuevamente solo hasta 10K pasos.

INDICACIÓN: Charles Darwin

Charles DarwinECCEMACY. Señor, — El siguiente caso me resulta interesante: — Estuve en Londres una quincena, y me afectó mucho un ataque de reumatismo. El primer ataque de reumatismo fue una semana antes de verlo, el segundo cuando lo vi, y el tercero cuando lo vi, y el tercero en el mismo tiempo. El segundo ataque de gota, sin embargo, no fue acompañado de síntomas febriles, pero sí de un aumento del flujo urinario, y con una descarga de orina más copiosa. El tercer ataque fue una hora después de verlo, y fue sucedido por el regreso de un paroxismo de gota, y un retorno más rápido de la gota. El cuarto ataque también estuvo acompañado de fiebre, pero no siempre se acompañó de síntomas febriles. El tercer ataque de gota fue una quincena después de que usted estuvo enfermo, y el cuarto fue seguido por un paroxismo de gota. El cuarto ataque fue una quincena después de que usted fuera atacado, y estuvo acompañado de una sensación

v2

Entrenado usando un conjunto de datos de 90GB (112GB tokenizado) Entrenado hasta 182K pasos

Salida de muestra TimeCapsuleLLM

Salida de muestra TimeCapsuleLLM

Conjuntos de datos

v2

### Estadísticas de sesgo Sesgo de pronombre

Sesgo geográfico

Sesgo temporal

Consulte el informe de sesgo de v2 para más información.

Cómo usar

Este proyecto se centra principalmente en recopilar datos históricos, prepararlos para el entrenamiento y construir un tokenizador. No voy a cubrir el proceso completo de entrenamiento de LLM, para eso consulta nanoGPT de Andrej Karpathy.

Paso 1: Reunir y preparar textos históricos

Paso 2: Construir un tokenizador personalizado

Paso 3: Entrena tu modelo

Preguntas frecuentes

¿Qué es el entrenamiento temporal selectivo?

El Entrenamiento Temporal Selectivo (STT) es una metodología de aprendizaje automático donde todos los datos de entrenamiento se curan específicamente para que pertenezcan a un período histórico concreto. Se realiza para modelar el lenguaje y el conocimiento de esa época sin influencia de conceptos modernos. Por ejemplo, el modelo actual que tengo (v0.5) está entrenado exclusivamente con datos de 1800-1875, no está afinado sino entrenado desde cero, lo que resulta en una salida que refleja el estilo lingüístico y el contexto histórico de ese período.

¿Por qué no usar simplemente fine-tuning o LoRA?

Para este proyecto estoy intentando crear un modelo de lenguaje que esté libre de sesgos modernos. Si hago fine-tuning a algo como GPT-2, ya está preentrenado y esa información no desaparecerá. Si lo entreno desde cero, el modelo de lenguaje no fingirá ser antiguo, simplemente lo será. El objetivo actual de este proyecto es crear algo que pueda razonar exclusivamente usando conocimiento de libros de Londres publicados entre 1800 y 1875.

¿Qué tipo de datos usaste para el entrenamiento?

Estoy usando libros, documentos legales, periódicos y otros escritos de Londres entre 1800 y 1875. La lista que enlacé (para v0) tiene como 200, pero para el primer entrenamiento solo usé 50 archivos, alrededor de ~187 MB. Puedes ver una lista de los documentos aquí: https://github.com/haykgrigo3/TimeCapsuleLLM/blob/main/Copy%20of%20London%20Documents%20for%20Time%20Capsule%20LLM.txt

Tamaños de dataset:

¿Qué tan grandes son los modelos?

v0: 16M Parámetros

v0.5: 123M Parámetros

v1: 700M Parámetros

v2mini-eval1: 300M Parámetros

v2mini-eval2: 200M Parámetros

v2: 1.2B Parámetros

¿Especificaciones de entrenamiento?

v0/v0.5

GPU: Geforce rtx 4060 CPU: i5-13400F Ram: 16GB DDR5.

v1

GPU: A100 SXM alquilada

v2mini-eval1/eval2

GPU: A100 SXM alquilada

v2

GPU: H100 SXM alquilada

Agradecimientos

Me gustaría agradecer a Dr. Hamed Yaghoobian por la supervisión académica, orientación en el enfoque de investigación y evaluación, y por la asistencia en el entrenamiento del tokenizador y preparación del conjunto de datos para la versión v2. Sus comentarios y experiencia fueron fundamentales para perfeccionar la presentación de este trabajo.

--- Tranlated By Open Ai Tx | Last indexed: 2026-03-03 ---