🌐 भाषा

简体中文

繁體中文

BIRD-INTERACT 1.0

⚠️ घोषणा

कृपया ध्यान दें कि आपके मूल्यांकन प्रक्रिया से पहले, जब Docker डेटाबेस लोड करता है, पर्यावरण असंगति के कारण कभी-कभी त्रुटियाँ आ सकती हैं (ये प्रक्रिया को समाप्त नहीं करेंगी लेकिन Docker लॉग में दिखाई देंगी)। इसके परिणामस्वरूप कुछ डेटाबेस सही ढंग से लोड नहीं हो सकते हैं, जिससे खाली डेटाबेस हो सकते हैं। इससे मूल्यांकन परिणाम असामान्य रूप से कम हो जाएंगे। 👉 इसलिए, हम दृढ़ता से अनुशंसा करते हैं कि मूल्यांकन चलाने से पहले Docker लॉग में किसी भी त्रुटि की जाँच करें और सुनिश्चित करें कि सभी डेटाबेस सफलतापूर्वक लोड हो गए हैं।

👉 हमने Submission Guidelines को अपडेट किया है, जिसमें कस्टमाइज्ड एजेंट स्कैफोल्ड्स को सपोर्ट किया गया है। कृपया हमारे विस्तृत सबमिशन दिशानिर्देशों को यहाँ देखें।

📰 समाचार

[2026-02-08] 🔥🔥🔥 हमारा Bird-Interact पेपर ICLR 2026 (Oral) में स्वीकार हो गया है! मिलते हैं रियो 🇧🇷 में!

[2025-11-06] 🐛 बग फिक्स & 🐳 Docker अपडेट: sqlglot संस्करण को 26.16.4 में अपडेट किया गया है ताकि उपयोगकर्ता सिम्युलेटर के लिए SQL पार्सर SQL को सही से पार्स नहीं कर पाने की समस्या का समाधान किया जा सके। आप इसे pip install sqlglot==26.16.4 द्वारा bird_interact_eval एन्वायरमेंट में पुनः स्थापित कर सकते हैं। bird_interact_eval इमेज भी अपडेट की गई है, इसलिए आप उसे खींच सकते हैं और bird_interact_eval कंटेनर को फिर से बना सकते हैं।

[2025-10-21] 🐳 Docker अपडेट: हमने Full DB Env के लिए docker जोड़ा है। और हमने 3 docker इमेज (Base/Full DB Env और मूल्यांकन के लिए दोनों a-Interact और c-Interact) Docker Hub पर अपलोड की हैं ताकि पर्यावरण सेटअप आसान हो सके। अब DB dumps डाउनलोड करने और इमेज मैन्युअली बनाने की ज़रूरत नहीं है!

[2025-10-08] 📝 हमारा Bird-Interact पेपर अब सार्वजनिक रूप से उपलब्ध है!

इसमें हमारे इंटरएक्टिव टेक्स्ट-टू-SQL बेंचमार्क की पूरी जानकारी, कार्यप्रणाली और मूल्यांकन प्रस्तुत किया गया है। 👉 इसे देखें और BIRD-Interact के पीछे के विचारों को जानें।

[2025-08-26] 🚀 हम BIRD-Interact-Full (600) सेट के रिलीज की घोषणा करते हुए उत्साहित हैं!

यह कठिन है — सर्वश्रेष्ठ LLMs केवल 16.33% सफलता दर प्राप्त कर रहे हैं, जिसमें c-interact और a-interact हिस्सों पर सिर्फ 10.0% है। 👉 अधिक जानकारी के लिए कृपया हमारे प्रोजेक्ट वेबसाइट पर जाएँ।

[2025-08-26] 📬 हम इस सप्ताह अपने मेलिंग लिस्ट को ग्राउंड ट्रुथ और टेस्ट केस भेजेंगे।

यदि आप शीघ्र एक्सेस चाहते हैं, तो साइट पर दिए गए निर्देशानुसार ईमेल भेजें ताकि स्वचालित डाउनलोड प्राप्त कर सकें।

[2025-08-26] 💾 एक और जानकारी के लिए, हमने LiveSQLBench-Lite का SQLite संस्करण भी जारी किया है, जिससे स्थानीय शोध आसान हो सके।

पूर्ण LiveSQLBench-Base और -Large संस्करण जल्द ही आ रहे हैं!

[2025-08-22] बग फिक्स: Bird-Interact-Agent कोड में, हमने एक बग ठीक किया है जिसमें phase-2 SQL के मूल्यांकन के दौरान, स्टोर किया गया phase-1 SQL सफलतापूर्वक निष्पादित नहीं हो पाता था, जिससे Phase-2 की सफलता दर कम हो जाती थी। यह बग केवल उन्हीं कार्यों को प्रभावित करता है जहाँ phase1 sql डेटाबेस पर कोई ऑपरेशन करता है, जैसे CREATE table आदि।

🧸 अवलोकन

BIRD-INTERACT, एक इंटरएक्टिव टेक्स्ट-टू-SQL बेंचमार्क है, जो Text-to-SQL मूल्यांकन को डायनामिक इंटरएक्शन के दृष्टिकोण से पुनः परिभाषित करता है। यह वातावरण एक पदानुक्रमित ज्ञान आधार, डेटाबेस डाक्यूमेंटेशन और एक फंक्शन-चालित यूजर सिम्युलेटर को मिलाकर प्रामाणिक एंटरप्राइज वातावरण तैयार करता है, जिसमें पूर्ण CRUD संचालन शामिल हैं। यह दो कठोर परीक्षण मोड्स प्रदान करता है: (1) निष्क्रिय संवादी इंटरएक्शन और (2) सक्रिय एजेंटिक इंटरएक्शन, जिसमें 600 एनोटेटेड टास्क्स शामिल हैं जैसे बिजनेस इंटेलिजेंस (BI), CRUD संचालन आदि, प्रत्येक कार्य के लिए निष्पाद्य टेस्ट केस द्वारा संरक्षित। सामान्य मूल्यांकन में मॉडल और यूजर सिम्युलेटर के बीच 1,968-5,496 इंटरएक्शन टर्न्स होते हैं, जबकि अत्याधुनिक रीजनिंग मॉडल वर्तमान में केवल ≈24% और ≈18% कार्य ही हल कर पाते हैं, जो बेंचमार्क की चुनौती को दर्शाता है।

✅ दो मूल्यांकन मोड

BIRD-INTERACT उपरोक्त दोनों मूल्यांकन मोड का समर्थन करता है:

c-Interact: संवादी इंटरएक्शन, जो एक निष्क्रिय मोड है और इसका वर्कफ्लो फिक्स्ड है। कोड और विस्तृत जानकारी bird_interact_conv में पाई जा सकती है।
a-Interact: एजेंटिक इंटरएक्शन, जो एक सजीव सक्रिय मोड है जहाँ वर्कफ्लो डायनामिक होता है और मॉडल द्वारा संचालित होता है। कोड और विस्तृत जानकारी bird_interact_agent में पाई जा सकती है।

🐣 लाइट संस्करण

हम BIRD-INTERACT का एक लाइट संस्करण जारी कर रहे हैं, bird-interact-lite-exp, जिसमें PostgreSQL के लिए विशेष रूप से 270 उच्च गुणवत्ता वाले वास्तविक कार्य शामिल हैं। यह त्वरित प्रयोग के लिए एक अच्छा प्रारंभिक बिंदु है।

🦜 पूर्ण संस्करण

BIRD-INTERACT का पूर्ण संस्करण, bird-interact-full, एक व्यापक बेंचमार्क है जिसमें PostgreSQL के लिए 600 कार्य शामिल हैं। इसमें SQL संचालन और यूजर क्वेरीज़ की विस्तृत श्रृंखला शामिल है। पूर्ण संस्करण शीघ्र ही आ रहा है।

BIRD-INTERACT-FULL पर मॉडल प्रदर्शन परिणाम

#### 1. c-Interact टेक्स्ट-टू-SQL प्रदर्शन | Rank | Model Name | Normalized Reward | Avg Cost (USD)/Task | Level | |:----:|:-------------------|:-----------------:|:-------------------:|:------------------:| | 1 | Gemini-2.5-Pro | 20.92 | $0.04 | 🏆 उत्कृष्ट चैट | | 2 | O3-Mini | 20.27 | $0.07 | 🏆 उत्कृष्ट चैट | | 3 | Claude-Sonnet-4 | 18.35 | $0.29 | 💎 अच्छा चैट | | 4 | Qwen-3-Coder-480B | 17.75 | $0.11 | 💎 अच्छा चैट | | 5 | Deepseek-Chat-V3.1 | 15.15 | $0.12 | ✨ मानक | | 6 | Claude-Sonnet-3.7 | 13.87 | $0.29 | ✨ मानक | | 7 | GPT-5 | 12.58 | $0.08 | ⚪ बुनियादी |

#### 2. a-Interact Text-to-SQL प्रदर्शन | Rank | Model Name | Normalized Reward | Avg Cost (USD)/Task | Level | |:----:|:-------------------|:-----------------:|:-------------------:|:------------------------:| | 1 | GPT-5 | 25.52 | $0.24 | 🏆 उत्कृष्ट इंटरैक्शन | | 2 | Claude-Sonnet-4 | 23.28 | $0.51 | 🏆 उत्कृष्ट इंटरैक्शन | | 3 | Claude-Sonnet-3.7 | 17.45 | $0.60 | 💎 अच्छा इंटरैक्शन | | 4 | Gemini-2.5-Pro | 17.33 | $0.22 | 💎 अच्छा इंटरैक्शन | | 5 | O3-Mini | 16.43 | $0.06 | ✨ मानक | | 6 | Deepseek-Chat-V3.1 | 13.47 | $0.06 | ✨ मानक | | 7 | Qwen-3-Coder-480B | 10.58 | $0.07 | ⚪ बुनियादी |

\ बजट पैरामीटर: प्रारंभिक बजट/उपयोगकर्ता धैर्य बजट, हमारी वर्चुअल मुद्रा bird-coin*s द्वारा मापा जाता है । अधिक जानकारी के लिए देखें bird_interact_agent/README.md।

इंटरैक्शन-टाइम स्केलिंग (ITS)

इंटरैक्शन-टाइम स्केलिंग (ITS) एक मॉडल की क्षमता को दर्शाता है कि वह बहु-टर्न संवाद के माध्यम से लगातार अपनी अंतिम प्रदर्शन बढ़ा सकता है। जब यह इंटरैक्टिव प्रदर्शन मॉडल की आदर्श एकल-टर्न प्रदर्शन को पूरी तरह निर्दिष्ट, अस्पष्टता रहित कार्य पर पार कर जाता है, तो हम कहते हैं कि यह ITS कानून को संतुष्ट करता है। जैसे-जैसे उपयोगकर्ता का धैर्य बढ़ता है और इंटरैक्शन टर्न्स बढ़ते हैं, प्रदर्शन में सुधार जारी रहता है, यह दर्शाता है कि मॉडल लंबी संवाद में प्रभावी संचार बनाए रख सकता है। वर्तमान में, हम केवल claude-3-7-sonnet को ITS कानून को संतुष्ट करते हुए पाते हैं।

पर्यावरण सेटअप

bird-interact-lite डेटाबेस, bird-interact-full डेटाबेस, और मूल्यांकन पर्यावरण के लिए Docker कंटेनर चलाएँ:

> यदि आप केवल bird-interact-lite पर मूल्यांकन करना चाहते हैं, तो आप postgresql_full सेवा को docker-compose.yml में टिप्पणी कर सकते हैं ताकि पर्यावरण सेटअप तेज हो सके। वातावरण शुरू करने के लिए निम्नलिखित चलाएँ:

   cd env
   docker compose pull 
   docker compose up -d
   ``
   डेटाबेस इनिशियलाइजेशन के लिए कुछ मिनट प्रतीक्षा करें।
   
  आप निर्माण प्रगति को निम्न तरीकों से ट्रैक कर सकते हैं:
  `bash
  docker compose logs -f --tail=100 bird_interact_postgresql_full # or bird_interact_postgresql for bird-interact-lite
  `
  यदि समाप्त हो गया है, तो आपको बिना त्रुटियों के लॉग्स दिखाई देंगे, जैसे:  `bash
  bird_interact_postgresql_full  | 2025-10-28 17:58:30.413 HKT [1] LOG:  database system is ready to accept connection
  `
  
  यदि आपने पहले कंटेनर बनाए हैं और उसे पुनः बनाना चाहते हैं, तो आप निम्नलिखित कमांड चला सकते हैं:
  `bash
  docker compose down -v # this cmd removes the containers and the volumes
  docker compose pull   # pull the latest images from Docker Hub
  docker compose up -d --force-recreate # build and start the containers again. --force-recreate means force the recreation of the containers. 
  # Or docker compose up -d --force-recreate bird_interact_eval to only recreate the bird_interact_eval container about evalution code environment.
  `
   
   यह 3 कंटेनर Docker Hub से पूर्वनिर्मित इमेज का उपयोग करके चलाता है:
   
bird_interact_postgresql: bird-interact-lite के लिए PostgreSQL डाटाबेस

   bird_interact_postgresql_full: bird-interact-full के लिए PostgreSQL डाटाबेस

   bird_interact_eval: दोनों a-Interact और c-Interact के लिए मूल्यांकन वातावरण।
   
अब, आप निम्नलिखित कमांड चलाकर मूल्यांकन वातावरण प्रारंभ कर सकते हैं:
   `bash
   docker compose exec bird_interact_eval bash
   `
(वैकल्पिक) पर्यावरण को मैन्युअली बनाएं (यदि आप इमेजेस को शुरू से बनाना चाहते हैं): 
   डाटाबेस डंप्स डाउनलोड करें 
      bird-interact-lite। अनज़िप करें और इसे env/postgre_table_dumps नाम दें।

      bird-interact-full। अनज़िप करें और इसे env/postgre_table_dumps_full नाम दें।

   docker-compose.build.yml चलाकर पर्यावरण को मैन्युअली बनाएं।
      
`bash
      cd env/
      docker compose -f docker-compose.build.yml build
      docker compose -f docker-compose.build.yml up -d
      `
(अनुशंसित) जाँचें कि डेटाबेस कंटेनर सफलतापूर्वक बनाए गए हैं और चल रहे हैं।
 कंटेनर बिल्ड लॉग प्रिंट करें ताकि यह सुनिश्चित किया जा सके कि डेटाबेस बिना किसी त्रुटि के सफलतापूर्वक बनाए गए हैं:
   `bash 
   docker logs bird_interact_postgresql > build_bird_interact_postgresql.log 2>&1
   docker logs bird_interact_postgresql_full > build_bird_interact_postgresql_full.log 2>&1
   `
   यदि त्रुटियाँ होती हैं, तो "Errors occurred during import:" लॉग फ़ाइलों में मुद्रित किया जाएगा।
 जाँचें कि डेटाबेस कंटेनर अच्छी स्थिति में हैं।
   
   हमारे द्वारा प्रदान की गई Python स्क्रिप्ट का उपयोग करके डेटाबेस मेटाडेटा सत्यापित करें:
   `bash
   docker compose exec bird_interact_eval bash
   cd /app/env
   python check_db_metadata.py --host bird_interact_postgresql
   python check_db_metadata.py --host bird_interact_postgresql_full
   `
   
   अपेक्षित परिणाम:
   bird-interact-lite: 
     📈 कुल डाटाबेस: 18
     📋 कुल टेबल: 175
     🔢 कुल कॉलम: 2286
     📈 प्रति टेबल औसत पंक्तियाँ: 1,038.48
     💾 कुल आकार: 207.15 MB (लगभग)
   bird-interact-full: 
     📈 कुल डाटाबेस: 22
     📋 कुल टेबल: 244
     🔢 कुल कॉलम: 2011
     📈 प्रति टेबल औसत पंक्तियाँ: 1,121.19
     💾 कुल आकार: 272.00 MB (लगभग)

📦 डेटासेट विवरण
डेटासेट विवरण
डाटाबेस: पूर्ण PostgreSQL डाटाबेस bird-interact-lite और bird-interact-full से डाउनलोड किया जा सकता है।
data: प्रत्येक डेटा उदाहरण में निम्नलिखित मुख्य भाग होते हैं:
   selected_database: डाटाबेस का नाम।  

   query: स्पष्ट यूजर क्वेरी।  

   amb_user_query: यूजर क्वेरी जिसमें अस्पष्टता जोड़ी गई है।

   user_query_ambiguity: यूजर क्वेरी में डाली गई अस्पष्टताएँ।

   non_critical_ambiguity: गैर-महत्वपूर्ण अस्पष्टताएँ जैसे क्रम, सीमा आदि।

   knowledge_ambiguity: बाहरी ज्ञान को छुपाकर बनाई गई अस्पष्टताएँ। 

   sol_sql: ग्राउंड ट्रुथ SQL समाधान।  

   preprocess_sql: समाधान या भविष्यवाणी निष्पादित करने से पहले चलाने के लिए SQL क्वेरी।  

   clean_up_sql: टेस्ट केस के बाद डाटाबेस में किए गए बदलाव वापस करने के लिए SQL क्वेरी।  

   test_cases: भविष्यवाणी किए गए सही SQL को मान्य करने के लिए टेस्ट केस का सेट।

   follow_up: लेबल किए गए फॉलो अप प्रश्न।

   external_knowledge: विशिष्ट कार्य से संबंधित बाहरी ज्ञान।
मूल्यांकन: मूल्यांकन कोड ./evaluation डायरेक्टरी में उपलब्ध है।

संयोजित द्वारा: BIRD टीम & Google Cloud
लाइसेंस: cc-by-sa-4.0
HuggingFace डेटासेट कार्ड: bird-interact-lite
  
और bird-interact-full
डेटासेट उपयोग
ऑटो-क्रॉलिंग द्वारा डेटा लीक से बचने के लिए, हम GT समाधान SQLs और टेस्ट केस को डेटा के साथ शामिल नहीं करते हैं।
कृपया ग्राउंड ट्रुथ और टेस्ट केस के लिए bird.bench25@gmail.com पर टाइटल में टैग [bird-interact-lite GT&Test Cases] या [bird-interact-full GT&Test Cases] के साथ ईमेल करें, जो आपको bird-interact-lite या bird-interact-full डेटासेट के लिए स्वचालित रूप से भेज दिए जाएंगे।
सार्वजनिक डेटा को ग्राउंड ट्रुथ और टेस्ट केस के साथ मिलाएं
फिर सार्वजनिक डेटा को ग्राउंड ट्रुथ और टेस्ट केस के साथ मिलाने के लिए निम्नलिखित स्क्रिप्ट का उपयोग करें:
पूर्ण संस्करण को उदाहरण के रूप में लें:
(1) चलाएँ:

bash
python combine_public_with_gt.py /path/to/bird-interact-full/bird_interact_data.jsonl /path/to/bird_interact_full_gt_kg_testcases_08022.jsonl /path/to/bird_interact_data.jsonl  # bird_interact_full_gt_kg_testcases_08022.jsonl is the data of ground-truth fields, which is obtained by emailing us.
यह /path/to/bird_interact_data.jsonl पर संयुक्त डेटा के साथ एक नई फ़ाइल बनाएगा।(2) फिर मूल सार्वजनिक डेटा को संयुक्त डेटा से बदलें:
bash
cp /path/to/bird_interact_data.jsonl /path/to/bird-interact-full/bird_interact_data.jsonl

अन्य संस्करणों के लिए भी यही करें: bird-interact-lite, मिनी संस्करण, आदि। बस सार्वजनिक डेटा और ग्राउंड ट्रुथ तथा टेस्ट केस के लिए सही पथ सेट करें, और फिर सार्वजनिक डेटा को संयुक्त डेटा से बदल दें।