🌐 語言

簡體中文

繁體中文

BIRD-INTERACT 1.0

⚠️ 公告

請注意，在您的評測流程開始前，當 Docker 載入資料庫時，偶爾會因環境不一致而出現錯誤（這些錯誤不會終止流程，但會顯示於 Docker 日誌中）。因此，部分資料庫可能無法正確載入，導致資料庫為空。這將造成評測結果異常偏低。 👉 因此，我們強烈建議您在執行評測前檢查 Docker 日誌以查看是否有錯誤，並確認所有資料庫已成功載入。

👉 我們已更新提交指引，現已支援自訂化代理程式骨架。請隨時參閱我們的詳細提交規則這裡。

📰 最新消息

[2026-02-08] 🔥🔥🔥 我們的Bird-Interact 論文 已被 ICLR 2026（Oral） 接受！里約再見 🇧🇷！

[2025-11-06] 🐛 修復錯誤 & 🐳 Docker 更新：將 sqlglot 版本升級至 26.16.4，以修正 sql 解析器於用戶模擬器無法正確解析 SQL 的錯誤。您可於 bird_interact_eval 環境中執行 pip install sqlglot==26.16.4 修復此問題。bird_interact_eval 映像也已更新，亦可直接拉取並重新建立 bird_interact_eval 容器。

[2025-10-21] 🐳 Docker 更新：我們已加入 Full DB Env 的 docker，並將 3 個 docker 映像（Base/Full DB Env 及 a-Interact、c-Interact 的評測環境）推送至 Docker Hub，方便環境設置。無需手動下載 DB dump 與建構映像！

[2025-10-08] 📝 我們的Bird-Interact 論文 現已公開！

詳細介紹了我們互動式 text-to-SQL 基準的所有細節、方法論及評測。 👉 歡迎前往 BIRD-Interact 深入了解背後理念。

[2025-08-26] 🚀 我們很高興宣布BIRD-Interact-Full (600) 集正式發布！

這是一個高難度挑戰 — 最強大的 LLM 成功率僅為 16.33%，c-interact 與 a-interact 部分僅有 10.0%。 👉 更多詳情請參見我們的專案網站。

[2025-08-26] 📬 本週我們將會把 Ground Truth & Test cases 發送到我們的郵件訂閱名單。

如果你想要提前取得，請按照網站上的說明發送電子郵件以獲得自動下載。

[2025-08-26] 💾 另外，我們已經釋出了 LiveSQLBench-Lite 的 SQLite 版本，方便本地端研究。

完整版 LiveSQLBench-Base 和 -Large 即將推出！

[2025-08-22] 錯誤修正：在 Bird-Interact-Agent 代碼中，我們修正了一個錯誤，當評估 phase-2 SQL 時，存儲的 phase-1 SQL 無法成功執行，導致 Phase-2 的成功率降低。此錯誤僅影響 phase1 sql 會對資料庫進行操作（如 CREATE table 等）的任務。

🧸 總覽

BIRD-INTERACT 是一個互動式 text-to-SQL 基準，從動態互動角度重新定義 Text-to-SQL 評測方式。該環境融合了分層知識庫、資料庫文件及基於功能的用戶模擬器，重現企業級環境中的完整 CRUD 操作。它提供兩種嚴謹的測試模式：（1）被動的會話互動、（2）主動的代理互動，涵蓋 600 個標註任務，包括商業智能（BI）、CRUD 操作等，每個任務都附有可執行測試案例。典型評測會觸發模型與用戶模擬器間 1,968-5,496 次互動，而目前最先進的推理模型僅能解決約 24% 及 18% 的任務，突顯本基準的挑戰性。

✅ 兩種評測模式

BIRD-INTERACT 支援上述兩種評測模式：

c-Interact：會話互動，屬於被動模式，流程固定。相關程式與詳細資訊請見 bird_interact_conv。
a-Interact：代理互動，屬於主動體現模式，流程由模型主導，動態調整。相關程式與詳細資訊請見 bird_interact_agent。

🐣 輕量版

我們釋出了 BIRD-INTERACT 的輕量版 bird-interact-lite-exp，內含 270 個專為 PostgreSQL 設計的高品質真實世界任務，是快速實驗的良好起點。

🦜 完整版

BIRD-INTERACT 的完整版 bird-interact-full 是一套涵蓋 600 個 PostgreSQL 任務的全面基準，範圍涵蓋多種 SQL 操作與使用者查詢。完整版即將推出。

BIRD-INTERACT-FULL 的模型效能結果

#### 1. c-Interact Text-to-SQL 效能 | Rank | Model Name | Normalized Reward | Avg Cost (USD)/Task | Level | |:----:|:-------------------|:-----------------:|:-------------------:|:------------------:| | 1 | Gemini-2.5-Pro | 20.92 | $0.04 | 🏆 優異對話 | | 2 | O3-Mini | 20.27 | $0.07 | 🏆 優異對話 | | 3 | Claude-Sonnet-4 | 18.35 | $0.29 | 💎 良好對話 | | 4 | Qwen-3-Coder-480B | 17.75 | $0.11 | 💎 良好對話 | | 5 | Deepseek-Chat-V3.1 | 15.15 | $0.12 | ✨ 標準 | | 6 | Claude-Sonnet-3.7 | 13.87 | $0.29 | ✨ 標準 | | 7 | GPT-5 | 12.58 | $0.08 | ⚪ 基本 |

#### 2. a-Interact Text-to-SQL 效能表現 | Rank | Model Name | Normalized Reward | Avg Cost (USD)/Task | Level | |:----:|:-------------------|:-----------------:|:-------------------:|:------------------------:| | 1 | GPT-5 | 25.52 | $0.24 | 🏆 優異互動 | | 2 | Claude-Sonnet-4 | 23.28 | $0.51 | 🏆 優異互動 | | 3 | Claude-Sonnet-3.7 | 17.45 | $0.60 | 💎 良好互動 | | 4 | Gemini-2.5-Pro | 17.33 | $0.22 | 💎 良好互動 | | 5 | O3-Mini | 16.43 | $0.06 | ✨ 標準 | | 6 | Deepseek-Chat-V3.1 | 13.47 | $0.06 | ✨ 標準 | | 7 | Qwen-3-Coder-480B | 10.58 | $0.07 | ⚪ 基本 |

\ 預算參數：初始預算／用戶耐心預算，以我們的虛擬貨幣 bird-coin*s 為單位。更多細節請參考 bird_interact_agent/README.md。

互動時間尺度（ITS）

互動時間尺度（ITS）指的是模型透過多輪互動持續提升最終表現的能力。當這種互動式表現超越模型在完全明確、無歧義任務下的理想單輪表現時，則表示其滿足 ITS 定律。隨著用戶耐心增加與互動輪次累積，表現持續提升，展現模型能於長時間對話中維持有效溝通。目前僅發現 claude-3-7-sonnet 滿足 ITS 定律。

環境安裝

執行 Docker container 啟動 bird-interact-lite 資料庫、bird-interact-full 資料庫與評測環境：

> 如果只想在 bird-interact-lite 上進行評測，可以將 docker-compose.yml 中的 postgresql_full 服務註解掉以加速環境安裝。透過以下指令啟動環境：

   cd env
   docker compose pull 
   docker compose up -d
   ``
   請等待數分鐘以完成資料庫初始化。
   
  您可以透過以下方式追蹤建置進度：
  `bash
  docker compose logs -f --tail=100 bird_interact_postgresql_full # or bird_interact_postgresql for bird-interact-lite
  `
  如果完成，您應該會看到沒有錯誤的日誌，如下所示：  `bash
  bird_interact_postgresql_full  | 2025-10-28 17:58:30.413 HKT [1] LOG:  database system is ready to accept connection
  `
  
  如果您之前已建立過容器，並希望重新建立它，可以執行以下命令：
  `bash
  docker compose down -v # this cmd removes the containers and the volumes
  docker compose pull   # pull the latest images from Docker Hub
  docker compose up -d --force-recreate # build and start the containers again. --force-recreate means force the recreation of the containers. 
  # Or docker compose up -d --force-recreate bird_interact_eval to only recreate the bird_interact_eval container about evalution code environment.
  `
   
   這會使用來自 Docker Hub 的預建映像檔運行 3 個容器：
   
bird_interact_postgresql：bird-interact-lite 的 PostgreSQL 資料庫

   bird_interact_postgresql_full：bird-interact-full 的 PostgreSQL 資料庫

   bird_interact_eval：同時用於 a-Interact 和 c-Interact 的評估環境。
   
現在，你可以執行以下指令來啟動評估環境：
   `bash
   docker compose exec bird_interact_eval bash
   `
（可選）手動建置環境（如果您想從頭開始建構映像檔）：
   下載資料庫轉儲檔案
      bird-interact-lite。解壓縮並重新命名為 env/postgre_table_dumps。

      bird-interact-full。解壓縮並重新命名為 env/postgre_table_dumps_full。

   執行 docker-compose.build.yml 手動建置環境。
      
`bash
      cd env/
      docker compose -f docker-compose.build.yml build
      docker compose -f docker-compose.build.yml up -d
      `
3.（建議）檢查資料庫容器是否已成功建置並運行。
 列印容器建置日誌，以確保資料庫已成功建置且無錯誤：
   `bash 
   docker logs bird_interact_postgresql > build_bird_interact_postgresql.log 2>&1
   docker logs bird_interact_postgresql_full > build_bird_interact_postgresql_full.log 2>&1
   `
   如果發生錯誤，日誌檔案中會顯示 "Errors occurred during import:"。
 檢查資料庫容器是否運作正常。
   
   
使用我們提供的 Python 指令碼來驗證資料庫中繼資料：   `bash
   docker compose exec bird_interact_eval bash
   cd /app/env
   python check_db_metadata.py --host bird_interact_postgresql
   python check_db_metadata.py --host bird_interact_postgresql_full
   `
   
   預期結果：
   
bird-interact-lite: 

     📈 資料庫總數：18
     📋 資料表總數：175
     🔢 欄位總數：2286
     📈 每個資料表的平均列數：1,038.48
     💾 總大小：207.15 MB（約略值）
   bird-interact-full: 
     📈 資料庫總數：22
     📋 資料表總數：244
     🔢 欄位總數：2011
     📈 每個資料表的平均列數：1,121.19
     💾 總大小：272.00 MB（約略值）

📦 資料集詳情
資料集說明
資料庫： 完整的 PostgreSQL 資料庫可從 bird-interact-lite 及 bird-interact-full 下載。

data： 每個資料實例包含以下主要部分：
   selected_database：資料庫名稱。  

   query：無歧義的使用者查詢。  

   amb_user_query：注入歧義的使用者查詢。

   user_query_ambiguity：注入到使用者查詢的歧義。

   non_critical_ambiguity：非關鍵性歧義，如順序、限制等。

   knowledge_ambiguity：由遮蔽外部知識產生的歧義。 

   sol_sql：標準解 SQL 解答。  

   preprocess_sql：在執行解答或預測前需執行的 SQL 查詢。  

   clean_up_sql：測試案例後還原資料庫變動的 SQL 查詢。  

   test_cases：驗證預測修正後 SQL 的一組測試案例。

   follow_up：標註的後續問題。

   external_knowledge：與特定任務相關的外部知識。
evaluation： 評估程式碼可在 ./evaluation 目錄中取得。

策劃者： BIRD 團隊 & Google Cloud
授權： cc-by-sa-4.0
HuggingFace 資料集卡片： bird-interact-lite
  
及 bird-interact-full
資料集用途
為了避免自動爬取導致資料洩漏，我們並未將 GT 解答 SQL 及測試案例與資料一同提供。
請發送電子郵件至 bird.bench25@gmail.com，郵件標題請加上標籤 [bird-interact-lite GT&Test Cases] 或 [bird-interact-full GT&Test Cases]，以獲取 bird-interact-lite 或 bird-interact-full 資料集的正確解答及測試案例，這些資料將會自動發送。
合併公開資料與正確解答及測試案例
接著，請使用以下腳本將公開資料與正確解答及測試案例合併：
以完整版為例：
(1) 執行：

bash
python combine_public_with_gt.py /path/to/bird-interact-full/bird_interact_data.jsonl /path/to/bird_interact_full_gt_kg_testcases_08022.jsonl /path/to/bird_interact_data.jsonl  # bird_interact_full_gt_kg_testcases_08022.jsonl is the data of ground-truth fields, which is obtained by emailing us.
這將在 /path/to/bird_interact_data.jsonl 創建一個新檔案，內容為合併後的資料。(2) 然後用合併後的資料取代原本的公開資料：
bash
cp /path/to/bird_interact_data.jsonl /path/to/bird-interact-full/bird_interact_data.jsonl

其他版本也是如此：bird-interact-lite、mini 版本等等。只需為公共數據、真實值和測試案例設定正確的路徑，然後將公共數據替換為合併後的數據。

BIRD-Interact