🌐 Язык
TimeCapsule LLM
Языковая модель, обученная с нуля исключительно на данных из определённых мест и исторических периодов для уменьшения современного влияния и имитации голоса, словаря и мировоззрения эпохи.
Представьте, если бы ИИ-модель не просто притворялась исторической, а действительно была таковой.
v0 и v0.5 построены на nanoGPT от Andrej Karpathy. Основные скрипты обучения и архитектура модели — его работа.
v1 построена на Phi 1.5 от Microsoft
v2 построена на llamaforcausallm
Поведение модели и ограничения
v0
Ранние запросы показывают, что модель отвечает языком и поведением XIX века. Пример: Запрос: "Who art Henry?" и она ответила: "I know that man, I have did not a black, the storm."

- Нет упоминания современных концепций
- В основном словарный запас, соответствующий эпохе
- Предложения в основном бессвязные (ожидаемо для объема обучающих данных ~187 МБ)
v0.5
Значительное улучшение по сравнению с v0.
- Викторианский стиль письма, правильная пунктуация, в основном грамматически верные предложения
- По-прежнему высокая степень галлюцинаций фактов
- Шум от OCR («Digitized by Google») все еще присутствует в выводах

v1
Первая модель, которая вспомнила и связала реальное историческое событие с настоящей персоной из датасета.
Пример: Запрос: "It was the year of our Lord 1834"
Ответ: "It was the year of our Lord 1834 and the streets of London were filled with protest and petition. The cause, as many re counted, was not bound in the way of private, but having taken up the same day in the day of Lord Palmerston, the public will receive a short statement of the difficulties under which the day of law has reached us. It is a matter of deep regret, that the present events in the history of the world are clear, and consequently will be'known. It is not true that the very men who first settled in the Gospel at Jerusalem should have so extensive and so interesting a record of the prosperity and prosperity"
Сначала я подумал, что протест мог совпасть по времени, но посмотрите на это: 
v2mini-eval1
Обучен на 15 ГБ выборке из 90 ГБ датасета v2. Модель обучена только до 10К шагов.
Произошла проблема с токенизацией, из-за которой вывод выглядит так:
ЗАПРОС: Кто такой Чарльз Диккенс?
W ho is Charles D ic ens ? D oes that work more of h ise x cell ent st ir ring , in his pl ays , int he G reat C omp any 's f arm ? What I have y et to qu ote from J ack P ick ett ? D oy oun ot know th att hey were as pe cies of g all oping , ors aw ing oft heir bre asts , or what w ast ob ed one about the t im ew hen J acks on was looking ont hew ind ow ? What ist hes uccess of an English man , and which h isson has not be end is cover ing t ome , where by to acc omp lish such a we ight ? D idy ou ever m ake ap ass age int othe old road way , ort o an anch or - b ree ze att he foot of our boat , which you m ust le ave us ? The fact is , that whe ther the wind would rise up from the pl ain on S atur day night orn o ont ide , ort ill then orth , or other wise , wes hall be com pelled t od esc ribe af orm idable bar rier , with t hes ame e ffect s ast he p resent . In th iss itu ation , at le ast , itis not to omuch t os ay that we have le ft that room . I bel ieve there are three c op ies int he " F ive H undred - fold ," to bere fer red to , ast he first n umber of our read ers wh ow is ht
Исправлено:
"Кто такой Чарльз Диккенс? Проявляется ли его выдающееся волнение больше в пьесах, на ферме Великой Компании? Что мне еще следует процитировать из Джека Пикетта? Разве вы не знаете, что они были своего рода всадниками, или пилили свои груди, или что следовало делать примерно в то время, когда Джексон смотрел в окно? Каков успех англичанина, и что его сын еще не открыл мне, чтобы выполнить такую тяжесть? Вы когда-нибудь проходили по старой дороге или к якорной пристани у подножия нашей лодки, которую вы должны покинуть? Дело в том, что независимо от того, поднимется ли ветер с равнины в субботу ночью или в полдень, или на север, или иначе, мы будем вынуждены описать грозное препятствие, с теми же последствиями, что и сейчас. В этой ситуации, по крайней мере, нельзя сказать, что мы остались в той комнате. Я полагаю, что есть три экземпляра в «Пятисоткратном», к которым можно обратиться, как к первому номеру наших читателей, желающих [о]..."
v2mini-eval2
Обучение проведено на том же 15ГБ выборке, что и для eval1. Модель снова обучена только до 10К шагов.
ПРОМПТ:Charles Darwin
Charles DarwinECCEMACY. Сэр, — Следующий случай интересен для меня: — Я был в Лондоне две недели, и сильно страдал от приступа ревматизма. Первый приступ ревматизма был за неделю до встречи с вами, второй — когда я встретил вас, третий — когда я увидел вас, третий — в то же время. Второй приступ подагры, однако, не сопровождался лихорадочными симптомами, но сопровождался усиленным выделением мочи и более обильным выделением мочи. Третий приступ был через час после встречи с вами и сменился возвращением приступа подагры и более быстрым возвращением подагры. Четвертый приступ также сопровождался лихорадкой, но не всегда сопровождался лихорадочными симптомами. Третий приступ подагры был через две недели после вашего недомогания, а четвертый — после приступа подагры. Четвертый приступ был через две недели после вашего поражения, и сопровождался ощущением
Наборы данных
v2
- 90ГБ текстов Лондона 1800-1875 гг.
- 136 344 документа
- Полные 90ГБ пока недоступны, так как не токенизированы, но вы можете найти 15ГБ выборку здесь: https://huggingface.co/datasets/haykgrigorian/TimeCapsuleLLM-London-1800-1875-v2-15GB



См. отчет о предвзятости v2 для получения дополнительной информации.
Как использовать
Данный проект в основном посвящен сбору исторических данных, их подготовке для обучения и созданию токенизатора. Я не буду описывать полный процесс обучения LLM, для этого обратитесь к nanoGPT Андрея Карпати.
Шаг 1: Сбор и подготовка исторических текстов
- Соберите .txt-файлы книг, документов и др. из общественного достояния выбранного вами периода (например, Лондон 1800-1850)
- Держите их в пределах выбранного вами временного/географического окна
- Очистите текстовые файлы с помощью скрипта или вручную удалите заголовки/подвалы из Project Gutenberg, современные аннотации или такие вещи, как ошибки OCR.
Шаг 2: Постройте собственный токенизатор
- Запустите train_tokenizer.py или train_tokenizer_hf.py на очищенных данных.
- Это даст вам vocab.json и merges.txt
- Эти файлы определяют словарь и правила слияния для вашей модели
Шаг 3: Обучите свою модель
- Обратитесь к nanoGPT Андрея Карпаты для процесса обучения или к документации выбранной вами архитектуры.
FAQ
Что такое Selective Temporal Training?
Selective Temporal Training (STT) — это методика машинного обучения, когда все обучающие данные тщательно подбираются так, чтобы они соответствовали определенному историческому периоду. Это делается для моделирования языка и знаний той эпохи без влияния современных концепций. Например, текущая модель (v0.5) обучена только на данных 1800–1875 годов, она не дообучена, а обучена с нуля, что приводит к результатам, отражающим лингвистический стиль и исторический контекст того времени.
Почему не использовать просто дообучение или LoRA?
В этом проекте я пытаюсь создать языковую модель, не затуманенную современными предубеждениями. Если я дообучу что-то вроде GPT-2, она уже предварительно обучена и эта информация не исчезнет. Если обучать с нуля, языковая модель не будет притворяться старой, она просто будет такой. Цель проекта сейчас — создать что-то, что может рассуждать исключительно на основе знаний из лондонских книг, опубликованных между 1800 и 1875 годами.
Какие данные вы использовали для обучения?
Я использую книги, юридические документы, газеты и другие тексты Лондона 1800–1875 годов. В списке, который я дал (для v0), примерно 200 файлов, но для первого обучения я взял только 50 файлов, около ~187 МБ. Список документов можно посмотреть тут: https://github.com/haykgrigo3/TimeCapsuleLLM/blob/main/Copy%20of%20London%20Documents%20for%20Time%20Capsule%20LLM.txt
Размеры датасетов:
- v0: ~187МБ
- v0.5: ~435МБ
- v1: ~6.25ГБ
- v2mini-eval1: 15ГБ
Насколько большие модели?
v0: 16M параметров
v0.5: 123M параметров
v1: 700M Parameters
v2mini-eval1: 300M Parameters
Training Specs ?
v0/v0.5
GPU: Geforce rtx 4060 CPU: i5-13400F Ram: 16GB DDR5.v1
GPU: A100 SXM rentedv2mini-eval1
GPU: A100 SXM rented
--- Tranlated By Open Ai Tx | Last indexed: 2026-01-13 ---