Web Analytics

TimeCapsuleLLM

⭐ 545 stars Simplified Chinese by haykgrigo3

🌐 语言

TimeCapsule LLM

一个从零开始训练的语言模型,仅使用特定地点和时期的数据,以减少现代偏见,模拟那个时代的声音、词汇和世界观。

想象一下,如果一个 AI 模型不仅仅是伪装成历史,而是真正成为历史。

v0 和 v0.5 基于 Andrej Karpathy 的 nanoGPT 构建,核心训练脚本和模型架构均来自于他。

v1 基于 微软的 Phi 1.5 构建

Hugging Face 链接

模型行为与局限性

v0

早期的提示显示模型用 1800 年代的语言和行为作答。 示例:提示:"Who art Henry?",模型回复:"I know that man, I have did not a black, the storm."

TimeLockLLM 示例输出

v0.5

相较于 v0 有显著提升。

TimeLockLLM 示例输出

v1

第一个能回忆并关联真实历史事件与数据集中实际人物的模型。

示例:提示:"It was the year of our Lord 1834"

输出:"It was the year of our Lord 1834 and the streets of London were filled with protest and petition. The cause, as many re counted, was not bound in the way of private, but having taken up the same day in the day of Lord Palmerston, the public will receive a short statement of the difficulties under which the day of law has reached us. It is a matter of deep regret, that the present events in the history of the world are clear, and consequently will be'known. It is not true that the very men who first settled in the Gospel at Jerusalem should have so extensive and so interesting a record of the prosperity and prosperity"

起初我认为抗议可能只是巧合发生在同一年,但请看这个: 1834protest

重要意义:

这是我的模型首次将某一年与真实历史事件以及与该事件相关的真实人物(帕默斯顿勋爵)联系起来。早期模型(v0 和 v0.5)虽然能模仿 19 世纪的写作风格,但总是会虚构事件、人物和事实。这表明模型开始记住数据集中的内容。

未来计划

如何使用

本项目主要关注历史数据的整理、预处理及分词器的构建。不会涵盖完整的LLM训练流程,详见Andrej Karpathy的nanoGPT项目。

步骤1:收集和准备历史文本

步骤2:构建自定义分词器

步骤3:训练你的模型

常见问题

什么是选择性时序训练?

选择性时序训练(STT)是一种机器学习方法,所有训练数据都被专门筛选以属于特定历史时期。这样做是为了建模该时代的语言和知识,不受现代概念影响。例如,我当前的模型(v0.5)仅用1800-1875年的数据训练,不是微调而是从零开始,因此输出能反映那个时期的语言风格和历史语境。

为什么不直接用微调或LoRA?

本项目旨在构建不受现代偏见影响的语言模型。如果微调如GPT-2,它已预训练,旧信息不会消失。如果从零训练,模型不会“假装”是旧的,而是本身就是。当前目标是打造一个只用1800-1875年伦敦出版书籍知识推理的模型。

你用于训练的数据是什么?

我正在使用1800–1875年伦敦的书籍、法律文件、报纸以及其他文献。 我链接的列表(用于v0)大约有200份,但第一次训练我只用了50个文件,总大小约为187MB。您可以查看文档列表: https://github.com/haykgrigo3/TimeCapsuleLLM/blob/main/Copy%20of%20London%20Documents%20for%20Time%20Capsule%20LLM.txt

数据集大小: v0:约187MB v0.5:约435MB v1:约6.25GB

模型有多大?

V0:1600万参数

V0.5:1.23亿参数

V1:7亿参数

训练规格?

V0/V0.5

GPU:Geforce rtx 4060 CPU:i5-13400F 内存:16GB DDR5。

V1

GPU:租用A100

--- Tranlated By Open Ai Tx | Last indexed: 2025-09-30 ---