Web Analytics

TimeCapsuleLLM

⭐ 545 stars Korean by haykgrigo3

🌐 언어

타임캡슐 LLM

특정 장소와 시대의 데이터만을 사용하여 처음부터 훈련된 언어 모델로, 현대적 편향을 줄이고 해당 시대의 목소리, 어휘, 세계관을 재현합니다.

AI 모델이 역사적인 모습을 흉내내는 것이 아니라 실제로 그 시대의 일부가 된다면 어떨까요?

v0 및 v0.5는 Andrej Karpathy의 nanoGPT 기반으로 구축되었습니다. 핵심 훈련 스크립트와 모델 구조는 그의 작업입니다.

v1은 Microsoft의 Phi 1.5를 기반으로 구축되었습니다.

허깅페이스 링크

모델 동작 및 한계

v0

초기 프롬프트에서는 모델이 1800년대의 언어와 행동으로 응답하는 모습을 보입니다. 예시: 프롬프트: "Who art Henry?"에 대해 "I know that man, I have did not a black, the storm."라고 답변함.

TimeLockLLM 샘플 출력

v0.5

v0에 비해 상당한 개선이 이루어짐.

TimeLockLLM 샘플 출력

v1

데이터셋에 실제 인물과 실제 역사적 사건을 처음으로 연결하여 회상한 모델.

예시: 프롬프트: "It was the year of our Lord 1834"

출력: "It was the year of our Lord 1834 and the streets of London were filled with protest and petition. The cause, as many re counted, was not bound in the way of private, but having taken up the same day in the day of Lord Palmerston, the public will receive a short statement of the difficulties under which the day of law has reached us. It is a matter of deep regret, that the present events in the history of the world are clear, and consequently will be'known. It is not true that the very men who first settled in the Gospel at Jerusalem should have so extensive and so interesting a record of the prosperity and prosperity"

처음에는 우연히 해당 연도에 시위가 있었을 것이라고 생각했지만, 다음을 보세요: 1834protest

왜 이것이 중요한가:

이것은 내 모델 중 하나가 특정 연도를 실제 역사적 사건과 그 사건에 관련된 실제 인물(팔머스턴 경)과 연결한 첫 번째 사례입니다. 초기 모델(v0과 v0.5)은 19세기 문체를 모방할 수 있었지만, 항상 사건, 인물, 사실을 환각했습니다. 이번 결과는 모델이 데이터셋에서 정보를 기억하기 시작했음을 보여줍니다.

향후 계획

사용 방법

이 프로젝트는 주로 역사적 데이터를 선별하고, 학습을 위해 준비하고, 토크나이저를 구축하는 데 초점을 맞춥니다. 전체 LLM 학습 과정은 다루지 않으니, 이에 대해서는 Andrej Karpathy의 nanoGPT를 참고하세요.

1단계: 역사적 텍스트 수집 및 준비

2단계: 커스텀 토크나이저 구축

3단계: 모델 학습

자주 묻는 질문

선택적 시기별 학습(Selective Temporal Training)이란?

선택적 시기별 학습(STT)은 모든 학습 데이터를 특정 역사적 시기로 엄선하여 기계학습하는 방법론입니다. 이는 해당 시대의 언어와 지식을 현대 개념의 영향 없이 모델링하기 위함입니다. 예를 들어, 현재 제가 만든 모델(v0.5)은 1800-1875년의 데이터만으로 학습되었으며, 파인튜닝 없이 처음부터 훈련되어 그 시대의 언어적 스타일과 역사적 맥락이 반영된 결과를 보여줍니다.

왜 파인튜닝이나 LoRA만 사용하지 않나요?

이 프로젝트에서 저는 현대적 편향이 없는 언어 모델을 만들고자 합니다. 만약 GPT-2와 같은 모델을 파인튜닝한다면 이미 사전학습된 정보가 남아있어 완전히 지울 수 없습니다. 처음부터 학습하면 언어 모델이 옛것인 척 하는 것이 아니라 실제로 옛 언어를 구사하게 됩니다. 현재 이 프로젝트의 목표는 1800-1875년에 런던에서 출판된 책의 지식만으로 추론할 수 있는 모델을 만드는 것입니다.

어떤 데이터를 학습에 사용했나요?

저는 1800–1875년 런던의 책, 법률 문서, 신문, 기타 저작물을 사용하고 있습니다. 제가 링크한 목록(v0용)에는 약 200개의 문서가 있지만 첫 번째 훈련에는 약 187MB 분량의 50개 파일만 사용했습니다. 문서 목록은 다음에서 확인할 수 있습니다: https://github.com/haykgrigo3/TimeCapsuleLLM/blob/main/Copy%20of%20London%20Documents%20for%20Time%20Capsule%20LLM.txt

데이터셋 크기: v0: 약 187MB v0.5: 약 435MB v1: 약 6.25GB

모델 크기는 얼마나 됩니까?

V0: 1,600만 파라미터

V0.5: 1억 2,300만 파라미터

V1: 7억 파라미터

훈련 사양은?

V0/V0.5

GPU: Geforce RTX 4060 CPU: i5-13400F 램: 16GB DDR5.

V1

GPU: 임대한 A100

--- Tranlated By Open Ai Tx | Last indexed: 2025-09-30 ---