🌐 ภาษา
TimeCapsule LLM
โมเดลภาษา (Language Model) ที่ได้รับการฝึกฝนตั้งแต่เริ่มต้นโดยใช้ข้อมูลจากสถานที่และช่วงเวลาที่กำหนดเท่านั้น เพื่อลดอคติสมัยใหม่และจำลองน้ำเสียง คำศัพท์ และโลกทัศน์ของยุคนั้น
ลองจินตนาการว่า หากโมเดล AI ไม่ได้แค่แสร้งทำตัวเป็นประวัติศาสตร์ แต่แท้จริงแล้ว “เป็น” ประวัติศาสตร์จริงๆ
v0 และ v0.5 สร้างขึ้นบนพื้นฐานของ nanoGPT โดย Andrej Karpathy สคริปต์การฝึกหลักและสถาปัตยกรรมของโมเดลเป็นผลงานของเขา
v1 สร้างขึ้นบน Phi 1.5 โดย Microsoft
v2 สร้างขึ้นบน llamaforcausallm
พฤติกรรมของโมเดล & ข้อจำกัด
v0
คำสั่งต้นแบบแสดงให้เห็นว่าโมเดลตอบกลับด้วยภาษาและพฤติกรรมแบบศตวรรษที่ 1800 ตัวอย่าง: คำสั่ง: "Who art Henry?" และโมเดลตอบว่า "I know that man, I have did not a black, the storm."

- ไม่มีการกล่าวถึงแนวคิดสมัยใหม่
- ใช้คำศัพท์ที่ตรงกับยุคเป็นส่วนใหญ่
- ประโยคส่วนใหญ่ไม่ปะติดปะต่อกัน (คาดไว้สำหรับข้อมูลเทรนนิ่ง ~187MB)
v0.5
เป็นการปรับปรุงที่สำคัญจาก v0
- สไตล์การเขียนแบบวิกตอเรีย ใช้เครื่องหมายวรรคตอนถูกต้อง ประโยคส่วนใหญ่ถูกหลักไวยากรณ์
- ยังมีอัตราการสร้างข้อมูลเท็จสูง
- มีเสียงรบกวนจาก OCR (“Digitized by Google”) ปรากฏในผลลัพธ์

v1
เป็นโมเดลแรกที่สามารถเรียกคืนและเชื่อมโยงเหตุการณ์ประวัติศาสตร์จริงกับบุคคลจริงในชุดข้อมูลได้
ตัวอย่าง: คำสั่ง: "It was the year of our Lord 1834"
ผลลัพธ์: "It was the year of our Lord 1834 and the streets of London were filled with protest and petition. The cause, as many re counted, was not bound in the way of private, but having taken up the same day in the day of Lord Palmerston, the public will receive a short statement of the difficulties under which the day of law has reached us. It is a matter of deep regret, that the present events in the history of the world are clear, and consequently will be'known. It is not true that the very men who first settled in the Gospel at Jerusalem should have so extensive and so interesting a record of the prosperity and prosperity"
ตอนแรกฉันคิดว่าอาจมีการประท้วงเกิดขึ้นในปีเดียวกันโดยบังเอิญ แต่ลองดูนี่สิ: 
v2mini-eval1
ถูกฝึกด้วยตัวอย่างขนาด 15GB จากชุดข้อมูลขนาด 90GB ของ v2 โมเดลถูกฝึกเพียง 10,000 สเต็ปเท่านั้น
มีปัญหาเกี่ยวกับการแปลงโทเคนที่ทำให้ผลลัพธ์แสดงออกมาเช่นนี้:
คำสั่ง: ใครคือ Charles Dickens?
W ho is Charles D ic ens ? D oes that work more of h ise x cell ent st ir ring , in his pl ays , int he G reat C omp any 's f arm ? What I have y et to qu ote from J ack P ick ett ? D oy oun ot know th att hey were as pe cies of g all oping , ors aw ing oft heir bre asts , or what w ast ob ed one about the t im ew hen J acks on was looking ont hew ind ow ? What ist hes uccess of an English man , and which h isson has not be end is cover ing t ome , where by to acc omp lish such a we ight ? D idy ou ever m ake ap ass age int othe old road way , ort o an anch or - b ree ze att he foot of our boat , which you m ust le ave us ? The fact is , that whe ther the wind would rise up from the pl ain on S atur day night orn o ont ide , ort ill then orth , or other wise , wes hall be com pelled t od esc ribe af orm idable bar rier , with t hes ame e ffect s ast he p resent . In th iss itu ation , at le ast , itis not to omuch t os ay that we have le ft that room . I bel ieve there are three c op ies int he " F ive H undred - fold ," to bere fer red to , ast he first n umber of our read ers wh ow is ht
แก้ไขแล้ว:
"ใครคือชาร์ลส์ ดิกเกนส์? งานของเขายังมีความโดดเด่นในละครของเขา ในฟาร์มของบริษัทใหญ่หรือไม่? ข้าพเจ้ายังไม่ได้อ้างอิงจากแจ็ค พิคเก็ตต์หรือ? ท่านไม่รู้หรือว่าพวกเขาเป็นพวกที่วิ่งควบ หรือใช้มือขวานอกอก หรือควรทำอย่างไรในเวลาที่แจ็คสันกำลังมองออกหน้าต่าง? ความสำเร็จของคนอังกฤษคืออะไร และสิ่งที่ลูกชายของเขายังไม่ได้ค้นพบแก่ข้าพเจ้า ซึ่งจะใช้บรรลุผลดังกล่าว? ท่านเคยเดินทางสู่ถนนสายเก่าหรือโยนสมอที่ปลายเรือของเรา ซึ่งท่านต้องจากเราไปหรือไม่? ข้อเท็จจริงก็คือ ไม่ว่าลมจะพัดขึ้นมาจากทุ่งในคืนวันเสาร์หรือเที่ยงวัน หรือพัดไปทางเหนือ หรืออย่างอื่น เราจะต้องอธิบายถึงอุปสรรคที่น่าเกรงขาม ด้วยผลที่คล้ายกับปัจจุบัน ในสถานการณ์นี้ อย่างน้อยก็ไม่มากเกินไปที่จะกล่าวว่าเราได้ออกจากห้องนั้นแล้ว ข้าพเจ้าเชื่อว่ามีสามสำเนาใน 'ห้าร้อยเท่า' ที่จะใช้เป็นข้อมูลอ้างอิง เป็นหมายเลขแรกของผู้อ่านเราที่ต้องการ...[t]"
v2mini-eval2
ฝึกโดยใช้ข้อมูลตัวอย่าง 15GB เดียวกับที่ใช้ฝึก eval1 โมเดลถูกฝึกอีกครั้งเพียง 10,000 สเต็ปเท่านั้น
PROMPT:Charles Darwin
Charles DarwinECCEMACY. ท่านครับ — กรณีต่อไปนี้น่าสนใจสำหรับข้าพเจ้า : — ข้าพเจ้าอยู่ที่ลอนดอนเป็นเวลาสองสัปดาห์ และได้รับผลกระทบอย่างมากจากอาการปวดข้อ อาการปวดข้อครั้งแรกเกิดขึ้นหนึ่งสัปดาห์ก่อนที่ข้าพเจ้าจะพบกับท่าน และครั้งที่สองเมื่อข้าพเจ้าพบท่าน และครั้งที่สามเมื่อข้าพเจ้าพบท่าน และครั้งที่สามในเวลาเดียวกัน อย่างไรก็ตาม อาการเกาต์ครั้งที่สองไม่ได้มาพร้อมกับอาการไข้ แต่มีการขับปัสสาวะเพิ่มขึ้นและมีการปล่อยปัสสาวะออกมามากขึ้น อาการครั้งที่สามเกิดขึ้นหนึ่งชั่วโมงหลังจากที่ข้าพเจ้าพบท่าน และตามมาด้วยการกลับมาของอาการเกาต์อย่างรุนแรง และการกลับมาของเกาต์ที่รวดเร็วยิ่งขึ้น ครั้งที่สี่ก็มาพร้อมกับไข้ แต่ไม่เสมอไปที่มีอาการไข้ร่วมด้วย อาการเกาต์ครั้งที่สามเกิดขึ้นสองสัปดาห์หลังจากที่ท่านป่วย และครั้งที่สี่ตามมาด้วยอาการเกาต์อย่างรุนแรง ครั้งที่สี่เกิดขึ้นสองสัปดาห์หลังจากที่ท่านถูกโจมตี และมาพร้อมกับความรู้สึก
ข้อมูลชุด
v2
- ข้อมูลขนาด 90GB จากเอกสารลอนดอนระหว่างปี 1800-1875
- เอกสาร 136,344 ฉบับ
- ข้อมูลเต็ม 90GB ยังไม่พร้อมใช้เนื่องจากยังไม่ได้ทำการโทเคนไอซ์ แต่สามารถดูตัวอย่างขนาด 15GB ได้ที่: https://huggingface.co/datasets/haykgrigorian/TimeCapsuleLLM-London-1800-1875-v2-15GB



ดูรายงานอคติ v2 bias report เพื่อดูข้อมูลเพิ่มเติม
วิธีการใช้งาน
โปรเจกต์นี้เน้นการรวบรวมข้อมูลประวัติศาสตร์ เตรียมข้อมูลสำหรับการฝึกโมเดล และสร้างโทเคนไนเซอร์ ข้าพเจ้าจะไม่กล่าวถึงกระบวนการฝึก LLM ทั้งหมด สำหรับรายละเอียดนั้นให้ดูที่ nanoGPT โดย Andrej Karpathy
ขั้นตอนที่ 1: รวบรวมและเตรียมข้อความประวัติศาสตร์
- รวบรวมไฟล์ .txt จากหนังสือ เอกสาร ฯลฯ ที่เป็นสาธารณสมบัติจากช่วงเวลาที่เลือก (เช่น ลอนดอน 1800-1850)
- เก็บไฟล์ไว้ในช่วงเวลา/สถานที่ที่คุณเลือก
- ทำความสะอาดไฟล์ข้อความด้วยสคริปต์หรือเอาหัวเรื่อง/ท้ายเรื่องจาก Project Gutenberg, คำอธิบายสมัยใหม่ หรือข้อผิดพลาด OCR ออกด้วยตนเอง
ขั้นตอนที่ 2: สร้าง Tokenizer ของคุณเอง
- รัน train_tokenizer.py หรือ train_tokenizer_hf.py บนข้อมูลที่ทำความสะอาดแล้ว
- จะได้ไฟล์ vocab.json และ merges.txt
- ไฟล์เหล่านี้กำหนดคำศัพท์และกฎการรวมคำสำหรับโมเดลของคุณ
ขั้นตอนที่ 3: ฝึกโมเดลของคุณ
- ดูข้อมูลได้ที่ nanoGPT โดย Andrej Karpathy สำหรับกระบวนการฝึกหรืออ่านเอกสารของสถาปัตยกรรมที่คุณเลือก
คำถามที่พบบ่อย
Selective Temporal Training คืออะไร ?
Selective Temporal Training (STT) เป็นแนวทางการเรียนรู้ของเครื่องที่ข้อมูลฝึกทั้งหมดจะถูกคัดเลือกให้ตรงกับช่วงเวลาทางประวัติศาสตร์เฉพาะ เพื่อให้แบบจำลองสามารถถอดแบบภาษาและความรู้ของยุคนั้นโดยไม่ถูกรบกวนจากแนวคิดสมัยใหม่ ตัวอย่างเช่น โมเดลปัจจุบันของฉัน (v0.5) ฝึกจากข้อมูลเฉพาะช่วงปี 1800-1875 โดยไม่ใช่การ fine-tune แต่ฝึกจากศูนย์ ผลลัพธ์จึงสะท้อนสำนวนและบริบททางประวัติศาสตร์ของยุคนั้นจริงๆ
ทำไมไม่ใช้แค่ fine-tuning หรือ LoRA?
สำหรับโปรเจ็กต์นี้ ผมต้องการสร้างแบบจำลองภาษาที่ปราศจากอคติสมัยใหม่ หากผม fine-tune โมเดลอย่าง GPT-2 โมเดลนั้นก็ถูกฝึกไว้แล้วและข้อมูลนั้นจะไม่หายไป หากผมฝึกจากศูนย์ โมเดลภาษาจะไม่ได้แกล้งเป็นของเก่า แต่มันจะเป็นของเก่าจริงๆ เป้าหมายตอนนี้คือสร้างโมเดลที่ใช้เหตุผลจากความรู้ในหนังสือลอนดอนที่ตีพิมพ์ระหว่างปี 1800 ถึง 1875 เท่านั้น
ใช้ข้อมูลประเภทใดในการฝึก?
ผมใช้หนังสือ เอกสารทางกฎหมาย หนังสือพิมพ์ และงานเขียนอื่นๆ จากลอนดอนช่วง 1800–1875 รายชื่อที่ผมแนบไว้ (สำหรับ v0) มีประมาณ 200 ไฟล์ แต่การฝึกครั้งแรกผมใช้แค่ 50 ไฟล์ ขนาด ~187 MB คุณสามารถดูรายชื่อเอกสารได้ที่: https://github.com/haykgrigo3/TimeCapsuleLLM/blob/main/Copy%20of%20London%20Documents%20for%20Time%20Capsule%20LLM.txt
ขนาดชุดข้อมูล:
- v0: ~187MB
- v0.5: ~435MB
- v1: ~6.25GB
- v2mini-eval1: 15GB
โมเดลมีขนาดเท่าไหร่ ?
v0: 16M พารามิเตอร์
v0.5 123M พารามิเตอร์
v1: 700M Parameters
v2mini-eval1: 300M Parameters
Training Specs ?
v0/v0.5
GPU: Geforce rtx 4060 CPU: i5-13400F Ram: 16GB DDR5.v1
GPU: A100 SXM rentedv2mini-eval1
GPU: A100 SXM rented
--- Tranlated By Open Ai Tx | Last indexed: 2026-01-13 ---