Web Analytics

BIRD-Interact

⭐ 678 stars Vietnamese by bird-bench

🌐 Ngôn ngữ

BIRD-INTERACT 1.0 HKU Logo Google Cloud Logo

License Leaderboard HuggingFace Python OpenAI

⚠️ Thông báo

Xin lưu ý rằng trước khi bạn bắt đầu quá trình đánh giá, khi Docker tải cơ sở dữ liệu, đôi khi có thể phát sinh lỗi do sự không đồng nhất của môi trường (những lỗi này sẽ không làm dừng quá trình mà chỉ xuất hiện trong log của Docker). Kết quả là một số cơ sở dữ liệu có thể không được tải đúng cách, dẫn đến cơ sở dữ liệu rỗng. Điều này sẽ làm cho kết quả đánh giá thấp bất thường. 👉 Vì vậy, chúng tôi khuyến nghị mạnh mẽ bạn kiểm tra log Docker để phát hiện lỗi trước khi chạy đánh giá và xác nhận rằng tất cả cơ sở dữ liệu đã được tải thành công.

👉 Chúng tôi đã cập nhật Hướng dẫn Nộp Bài, nơi đã hỗ trợ các scaffold tác nhân tùy chỉnh. Vui lòng xem chi tiết hướng dẫn nộp bài tại đây.

📰 Tin tức

Bài báo trình bày đầy đủ chi tiết, phương pháp luận và đánh giá về bộ chuẩn tương tác text-to-SQL của chúng tôi. 👉 Hãy xem ngay để biết thêm về ý tưởng đằng sau BIRD-Interact.

Đây là một bộ rất khó — các LLM tốt nhất chỉ đạt 16.33% tỷ lệ thành công, với chỉ 10.0% ở các phần c-interacta-interact. 👉 Để biết thêm chi tiết, vui lòng truy cập trang web dự án.

Nếu bạn muốn truy cập sớm, vui lòng gửi email theo hướng dẫn trên trang web để tải về tự động.

Các phiên bản đầy đủ LiveSQLBench-Base-Large sẽ ra mắt sớm!

🧸 Tổng quan

BIRD-INTERACT, một bộ chuẩn đánh giá chuyển đổi văn bản sang SQL tương tác, tái định hình việc đánh giá Text-to-SQL dưới góc nhìn của các tương tác động. Môi trường kết hợp cơ sở tri thức phân cấp, tài liệu cơ sở dữ liệu và trình mô phỏng người dùng theo chức năng để tái tạo bối cảnh doanh nghiệp thực tế trên đầy đủ các thao tác CRUD. Nó cung cấp hai chế độ kiểm thử nghiêm ngặt: (1) Tương tác hội thoại thụ động và (2) Tương tác đại lý chủ động, bao quát 600 tác vụ được chú thích gồm Business Intelligence (BI), thao tác CRUD, v.v., mỗi tác vụ đều có các trường hợp kiểm thử thực thi được. Các lần đánh giá điển hình kích hoạt từ 1.968 đến 5.496 lượt tương tác giữa mô hình và trình mô phỏng người dùng, trong khi các mô hình suy luận hiện đại hiện chỉ giải được ≈24%≈18% tác vụ, cho thấy độ khó của bộ chuẩn này.

✅ Hai chế độ đánh giá

BIRD-INTERACT hỗ trợ hai chế độ đánh giá như đã đề cập ở trên:

🐣 Phiên bản nhẹ

Chúng tôi phát hành phiên bản nhẹ của BIRD-INTERACT, bird-interact-lite-exp, bao gồm 270 tác vụ thực tế chất lượng cao dành riêng cho PostgreSQL. Đây là điểm khởi đầu tốt để thử nghiệm nhanh.

🦜 Phiên bản đầy đủ

Phiên bản đầy đủ của BIRD-INTERACT, bird-interact-full, là bộ chuẩn toàn diện bao gồm 600 tác vụ cho PostgreSQL. Nó bao phủ đa dạng các thao tác SQL và truy vấn người dùng. Phiên bản đầy đủ sẽ ra mắt sớm.

Kết quả hiệu suất mô hình trên BIRD-INTERACT-FULL

#### 1. Hiệu suất c-Interact Text-to-SQL | Hạng | Tên Mô hình | Phần thưởng Chuẩn hóa | Chi phí TB (USD)/Nhiệm vụ | Cấp độ | |:----:|:--------------------|:---------------------:|:-------------------------:|:--------------------:| | 1 | Gemini-2.5-Pro | 20.92 | $0.04 | 🏆 Chat Xuất sắc | | 2 | O3-Mini | 20.27 | $0.07 | 🏆 Chat Xuất sắc | | 3 | Claude-Sonnet-4 | 18.35 | $0.29 | 💎 Chat Tốt | | 4 | Qwen-3-Coder-480B | 17.75 | $0.11 | 💎 Chat Tốt | | 5 | Deepseek-Chat-V3.1 | 15.15 | $0.12 | ✨ Tiêu chuẩn | | 6 | Claude-Sonnet-3.7 | 13.87 | $0.29 | ✨ Tiêu chuẩn | | 7 | GPT-5 | 12.58 | $0.08 | ⚪ Cơ bản |

#### 2. Hiệu suất a-Interact Text-to-SQL | Hạng | Tên Mô hình | Phần thưởng Chuẩn hóa | Chi phí TB (USD)/Nhiệm vụ | Cấp độ | |:----:|:--------------------|:---------------------:|:-------------------------:|:---------------------------:| | 1 | GPT-5 | 25.52 | $0.24 | 🏆 Tương tác Xuất sắc | | 2 | Claude-Sonnet-4 | 23.28 | $0.51 | 🏆 Tương tác Xuất sắc | | 3 | Claude-Sonnet-3.7 | 17.45 | $0.60 | 💎 Tương tác Tốt | | 4 | Gemini-2.5-Pro | 17.33 | $0.22 | 💎 Tương tác Tốt | | 5 | O3-Mini | 16.43 | $0.06 | ✨ Tiêu chuẩn | | 6 | Deepseek-Chat-V3.1 | 13.47 | $0.06 | ✨ Tiêu chuẩn | | 7 | Qwen-3-Coder-480B | 10.58 | $0.07 | ⚪ Cơ bản |

\ Tham số ngân sách: Ngân sách ban đầu/Ngân sách kiên nhẫn người dùng, được đo bằng đơn vị tiền ảo bird-coin*s . Xem thêm tại bird_interact_agent/README.md để biết chi tiết.

Tăng quy mô Thời gian Tương tác (ITS)

Tăng quy mô Thời gian Tương tác (ITS) là khả năng của mô hình liên tục nâng cao hiệu suất cuối cùng thông qua các lượt tương tác đa vòng. Khi hiệu suất tương tác này vượt qua hiệu suất lý tưởng hóa của mô hình trong một lượt đơn trên tác vụ đầy đủ, rõ ràng, chúng tôi nói rằng nó thỏa mãn định luật ITS. Khi sự kiên nhẫn của người dùng tăng và số lượt tương tác tích lũy, hiệu suất tiếp tục được cải thiện, chứng tỏ mô hình có thể duy trì giao tiếp hiệu quả qua đối thoại kéo dài. Hiện tại, chỉ claude-3-7-sonnet thỏa mãn định luật ITS.

Thiết lập môi trường

> Nếu bạn chỉ muốn đánh giá trên bird-interact-lite, bạn có thể comment dịch vụ postgresql_full trong docker-compose.yml để tăng tốc thiết lập môi trường. Khởi động môi trường bằng lệnh:
   cd env
   docker compose pull 
   docker compose up -d
   ``
   Chờ vài phút để khởi tạo cơ sở dữ liệu.

Bạn có thể theo dõi tiến trình xây dựng bằng cách: `bash docker compose logs -f --tail=100 bird_interact_postgresql_full # or bird_interact_postgresql for bird-interact-lite ` Nếu hoàn thành, bạn sẽ thấy các bản ghi mà không có lỗi như sau:

`bash bird_interact_postgresql_full | 2025-10-28 17:58:30.413 HKT [1] LOG: database system is ready to accept connection ` Nếu bạn đã tạo các container trước đó và muốn tạo lại chúng, bạn có thể chạy lệnh sau: `bash docker compose down -v # this cmd removes the containers and the volumes docker compose pull # pull the latest images from Docker Hub docker compose up -d --force-recreate # build and start the containers again. --force-recreate means force the recreation of the containers. # Or docker compose up -d --force-recreate bird_interact_eval to only recreate the bird_interact_eval container about evalution code environment. ` Điều này chạy 3 container sử dụng các ảnh dựng sẵn từ Docker Hub:

  • bird_interact_postgresql: Cơ sở dữ liệu PostgreSQL cho bird-interact-lite
  • bird_interact_postgresql_full: Cơ sở dữ liệu PostgreSQL cho bird-interact-full
  • bird_interact_eval: Môi trường đánh giá cho cả a-Interactc-Interact.
Bây giờ, bạn có thể khởi động môi trường đánh giá bằng cách thực hiện lệnh sau: `bash docker compose exec bird_interact_eval bash `
  • (Tùy chọn) Tự xây dựng môi trường (nếu bạn muốn xây dựng các image từ đầu):
  • Tải về các file dump của cơ sở dữ liệu
  • bird-interact-lite. Giải nén và đổi tên thành env/postgre_table_dumps.
  • bird-interact-full. Giải nén và đổi tên thành env/postgre_table_dumps_full.
  • Tự xây dựng môi trường bằng cách chạy docker-compose.build.yml.
`bash cd env/ docker compose -f docker-compose.build.yml build docker compose -f docker-compose.build.yml up -d `

  • (Khuyến nghị) Kiểm tra các container cơ sở dữ liệu đã được xây dựng và chạy thành công.
  • In nhật ký xây dựng container để đảm bảo rằng các cơ sở dữ liệu đã được xây dựng thành công mà không có lỗi:
`bash docker logs bird_interact_postgresql > build_bird_interact_postgresql.log 2>&1 docker logs bird_interact_postgresql_full > build_bird_interact_postgresql_full.log 2>&1 ` Nếu xảy ra lỗi, "Đã xảy ra lỗi trong quá trình nhập:" sẽ được in ra trong các tập tin nhật ký.

  • Kiểm tra xem các container cơ sở dữ liệu có đang hoạt động tốt không.
Sử dụng script Python do chúng tôi cung cấp để xác minh siêu dữ liệu cơ sở dữ liệu:
`bash docker compose exec bird_interact_eval bash cd /app/env python check_db_metadata.py --host bird_interact_postgresql python check_db_metadata.py --host bird_interact_postgresql_full ` Kết quả mong đợi:
  • bird-interact-lite:
  • 📈 Tổng số CSDL: 18
  • 📋 Tổng số Bảng: 175
  • 🔢 Tổng số Cột: 2286
  • 📈 Số dòng trung bình mỗi bảng: 1.038,48
  • 💾 Tổng dung lượng: 207,15 MB (xấp xỉ)
  • bird-interact-full:
  • 📈 Tổng số CSDL: 22
  • 📋 Tổng số Bảng: 244
  • 🔢 Tổng số Cột: 2011
  • 📈 Số dòng trung bình mỗi bảng: 1.121,19
  • 💾 Tổng dung lượng: 272,00 MB (xấp xỉ)

📦 Chi tiết Bộ Dữ Liệu

Mô tả Bộ Dữ Liệu

  • CSDL: Toàn bộ cơ sở dữ liệu PostgreSQL có thể tải xuống từ bird-interact-litebird-interact-full.
  • data: Mỗi mẫu dữ liệu bao gồm các phần chính sau:
  • selected_database: Tên của cơ sở dữ liệu.
  • query: Câu truy vấn người dùng không mơ hồ.
  • amb_user_query: Câu truy vấn người dùng đã được tiêm nhiễu mơ hồ.
  • user_query_ambiguity: Các điểm mơ hồ được tiêm vào truy vấn người dùng.
  • non_critical_ambiguity: Các mơ hồ không quan trọng như order, limit, v.v.
  • knowledge_ambiguity: Các điểm mơ hồ do kiến thức bên ngoài bị che giấu tạo ra.
  • sol_sql: Giải pháp SQL chuẩn xác.
  • preprocess_sql: Các truy vấn SQL cần chạy trước khi thực thi giải pháp hoặc dự đoán.
  • clean_up_sql: Các truy vấn SQL cần chạy sau khi kiểm thử để hoàn nguyên thay đổi trên CSDL.
  • test_cases: Tập hợp các trường hợp kiểm thử để xác thực SQL dự đoán đã sửa.
  • follow_up: Các câu hỏi tiếp theo đã được gán nhãn.
  • external_knowledge: Kiến thức bên ngoài liên quan đến tác vụ cụ thể.
  • evaluation: Mã đánh giá có trong thư mục ./evaluation.
  • Được biên soạn bởi: Nhóm BIRD & Google Cloud
  • Giấy phép: cc-by-sa-4.0
  • Thẻ Bộ Dữ Liệu HuggingFace: bird-interact-lite
bird-interact-full cho PostgreSQL; và mini-interact cho SQLite.

Sử dụng Bộ Dữ Liệu

Để tránh rò rỉ dữ liệu do tự động thu thập, chúng tôi không bao gồm các sql giải pháp GT và các trường hợp kiểm thử cùng với dữ liệu. vui lòng gửi email tới bird.bench25@gmail.com với tiêu đề chứa thẻ [bird-interact-lite GT&Test Cases] hoặc [bird-interact-full GT&Test Cases] để nhận bộ dữ liệu ground truth và các trường hợp kiểm thử cho bộ dữ liệu bird-interact-lite hoặc bird-interact-full, sẽ được gửi tự động.

Kết hợp dữ liệu công khai với ground truth và các trường hợp kiểm thử

Sau đó sử dụng đoạn script sau để kết hợp dữ liệu công khai với ground truth và các trường hợp kiểm thử:

Lấy phiên bản đầy đủ làm ví dụ: (1) Chạy:

bash python combine_public_with_gt.py /path/to/bird-interact-full/bird_interact_data.jsonl /path/to/bird_interact_full_gt_kg_testcases_08022.jsonl /path/to/bird_interact_data.jsonl # bird_interact_full_gt_kg_testcases_08022.jsonl is the data of ground-truth fields, which is obtained by emailing us.
Điều này sẽ tạo một tệp mới tại /path/to/bird_interact_data.jsonl với dữ liệu đã được kết hợp.

(2) Sau đó thay thế dữ liệu công khai gốc bằng dữ liệu đã kết hợp:

bash cp /path/to/bird_interact_data.jsonl /path/to/bird-interact-full/bird_interact_data.jsonl

Tương tự cho các phiên bản khác: bird-interact-lite, phiên bản mini, v.v. Chỉ cần đặt đúng đường dẫn cho dữ liệu công khai, dữ liệu thực tế và các trường hợp kiểm thử, sau đó thay thế dữ liệu công khai bằng dữ liệu đã kết hợp.