BIRD-INTERACT 1.0

⚠️ ঘোষণা
অনুগ্ৰহ কৰি মনত ৰাখিব, আপোনাৰ মূল্যায়ন প্ৰক্ৰিয়াৰ আগতে, যেতিয়া Docker-এ ডেটাবেছসমূহ লোড কৰে, পৰিৱেশৰ অসামঞ্জস্যতাৰ বাবে কেতিয়াবা ত্ৰুটি দেখা দিব পাৰে (এইবোৰে প্ৰক্ৰিয়া সামৰণি নিদিয়ে, কিন্তু Docker লগত দেখা যাব)। ফলস্বৰূপ, কিছুমান ডেটাবেছ সঠিকভাৱে লোড নহ’ব পাৰে, যাৰ ফলত খালী ডেটাবেছ হ’ব পাৰে। ইয়াৰ ফলত মূল্যায়নৰ ফলাফল অস্বাভাৱিকভাৱে কম হ’ব পাৰে। 👉 সেয়া বাবে, আমি দৃঢ়ভাৱে পৰামৰ্শ দিছোঁ যাতে মূল্যায়ন চলোৱাৰ আগতে Docker লগত কোনো ত্ৰুটি আছে নে নাই পৰীক্ষা কৰক আৰু সকলো ডেটাবেছ সফলতাৰে লোড হৈছে নে নাই নিশ্চিত কৰক।👉 আমি Submission Guidelines আপডেট কৰিছোঁ, য’ত কাষ্টমাইজ্ড এজেন্ট স্কেফল্ডসমূহক সমৰ্থন কৰা হৈছে। অনুগ্ৰহ কৰি আমাৰ বিস্তারিত জমা দিয়াৰ নিৰ্দেশিকা এই ঠাইত চাওক।
📰 বাতৰি
- [২০২৬-০৩-২৯] 🔥🔥🔥 BIRD-Interact-ADK: আমি মুক্তি দিছোঁ BIRD-Interact-ADK, এটা Google ADK-ভিত্তিক বাস্তবায়ন য’ত আছে মডুলাৰ ৩-মাইক্রোসাৰ্ভিচ (এজেন্ট, ইউজাৰ ছিমুলেটৰ, আৰু DB Env) স্থাপত্য। আপোনাৰ নিজা এজেন্ট, ইউজাৰ ছিমুলেটৰ বা ডেটাবেছ পৰিবেশ সহজে সলনি কৰিব পাৰিব। সমান্তৰাল এক্সেকিউশ্যন আৰু যিকোনো LiteLlm-compatible LLM প্ৰভাইডাৰ সমৰ্থন কৰে। গৱেষণাৰ বাবে এই বাস্তবায়ন ব্যৱহাৰৰ পৰামৰ্শ দিয়া হৈছে।
- [২০২৬-০২-০৮] 🔥🔥🔥 আমাৰ Bird-Interact paper ICLR 2026 (Oral)-ত গ্ৰহণ কৰা হৈছে! ৰিঅ’ত দেখা হ’ব 🇧🇷!
- [২০২৫-১১-০৬] 🐛 বাগ ফিক্স & 🐳 Docker আপডেট: sqlglot সংস্কৰণ ২৬.১৬.৪-লৈ আপডেট কৰি ইউজাৰ ছিমুলেটৰৰ বাবে SQL সঠিকভাৱে পাৰ্ছ কৰিব নোৱাৰা বাগটো সমাধান কৰা হৈছে। আপুনি
bird_interact_evalপৰিবেশতpip install sqlglot==26.16.4দ্বাৰা পুনৰ ইনষ্টল কৰি সমাধান কৰিব পাৰে।bird_interact_evalইমেজো আপডেট কৰা হৈছে, সেইবাবে আপুনি পুনৰ টানি নতুনbird_interact_evalকণ্টেইনাৰ সৃষ্টি কৰিব পাৰে। - [২০২৫-১০-২১] 🐳 Docker আপডেট: আমি সম্পূৰ্ণ ডেটাবেছ পৰিবেশৰ বাবে Docker যোগ দিছোঁ। আৰু আমি ৩টা Docker ইমেজ (Base/Full DB Env আৰু মূল্যায়ন পৰিবেশ
a-Interactআৰুc-Interactউভয়ৰ বাবে) Docker Hub-ত আপলোড কৰিছোঁ যাতে পৰিবেশ স্থাপন সহজ হয়। DB ডাম্প ডাউনলোড আৰু ইমেজ মেনুৱেলি বনোৱাৰ প্ৰয়োজন নাই! - [২০২৫-১০-০৮] 📝 আমাৰ Bird-Interact paper এতিয়া সৰ্বসাধাৰণৰ বাবে উপলব্ধ!
- [২০২৫-০৮-২৬] 🚀 আমি BIRD-Interact-Full (600) চেট মুক্তি দিয়া ঘোষিত কৰিছোঁ!
c-interact আৰু a-interact অংশত কেৱল ১০.০%।
👉 অধিক তথ্যৰ বাবে, অনুগ্ৰহ কৰি আমাৰ প্ৰকল্প ৱেবছাইট চাওক।- [2025-08-26] 📬 আমি এই সপ্তাহত আমাৰ মেইলিং তালিকাত Ground Truth & Test cases পঠাব।
- [2025-08-26] 💾 আন এটা দিশত, আমি LiveSQLBench-Lite ৰ SQLite সংস্কৰণ মুক্তি দিছোঁ, যাতে স্থানীয়ভাৱে গৱেষণা সহজ হয়।
- [2025-08-22] বাগ ফিক্স: Bird-Interact-Agent ক'ডত, আমি এটা বাগ ফিক্স কৰিছোঁ য'ত phase-2 SQL মূল্যায়ন কৰাৰ সময়ত, সংৰক্ষিত phase-1 SQL সফলভাৱে চলিব নোৱাৰে, ফলত Phase-2 ৰ সফলতা হাৰ কম হয়। এই বাগ মাত্ৰ সেই টাস্কসমূহত প্ৰভাৱিত হয় য'ত phase1 sql ডাটাবেইচত কিছুমান প্ৰচলিত অপাৰেশ্যন কৰে, যেনে CREATE table, আদি।
🧸 সংক্ষিপ্ত বিৱৰণ
BIRD-INTERACT, এটা ইন্টাৰেক্টিভ টেক্স্ট-টু-SQL বেঞ্চমাৰ্ক, dynamic interaction ৰ lens ৰে Text-to-SQL মূল্যায়ন পুনৰ কল্পনা কৰে। এই পৰিৱেশে এটা হায়াৰাৰ্কিকেল জ্ঞানভিত্তি, ডাটাবেইচ ডকুমেণ্টেশ্যন আৰু ফাংশন-চালিত ইউজাৰ চিমুলেটৰ সংমিশ্ৰণ কৰে, যাতে পূৰ্ণ CRUD অপাৰেশ্যনসমূহত প্ৰকৃত এন্টাৰপ্ৰাইজ পৰিৱেশ পুনঃনির্মাণ হয়। এই বেঞ্চমাৰ্কত দুটা কঠোৰ টেষ্ট মোড আছে: (1) নিষ্ক্ৰিয় Conversational Interaction আৰু (2) সক্ৰিয় Agentic Interaction, যি 600 টা এনোটেটেড টাস্কৰ বিস্তৃত, Business Intelligence (BI), CRUD অপাৰেশ্যন আদি অন্তৰ্ভুক্ত, আৰু প্ৰতিটো টাস্ক executable test cases ৰে সুৰক্ষিত। সাধাৰণ মূল্যায়নসমূহত মডেল আৰু ইউজাৰ চিমুলেটৰৰ মাজত 1,968-5,496 interaction turn হয়, আৰু আধুনিক reasoning মডেলসমূহে মাত্ৰ ≈24% আৰু ≈18% টাস্ক সফলভাৱে সমাধান কৰে, যাৰ দ্বাৰা বেঞ্চমাৰ্কৰ চেলেঞ্জ স্পষ্ট হয়।
✅ দুটা মূল্যায়ন মোড
BIRD-INTERACT ত উপৰোক্ত দুটা মূল্যায়ন মোড আছে:
- c-Interact: Conversational Interaction যি এটা নিষ্ক্ৰিয় মোড, আৰু workflow স্থিৰ। ক'ড আৰু বিস্তৃত তথ্য
bird_interact_convত পোৱা যায়। - a-Interact: Agentic Interaction যি এটা embodied সক্ৰিয় মোড, workflow dynamic আৰু মডেল-নেতৃত্বাধীন। ক'ড আৰু বিস্তৃত তথ্য
bird_interact_agentত পোৱা যায়।
🐣 Lite সংস্কৰণ
আমি BIRD-INTERACT ৰ lite সংস্কৰণ, bird-interact-lite-exp, মুক্তি দিছোঁ, য'ত PostgreSQL ৰ বাবে 270 টা উচ্চ-মানৰ বাস্তৱিক টাস্ক অন্তৰ্ভুক্ত। এইটো তৎক্ষণাত পৰীক্ষাৰ বাবে ভাল আৰম্ভণি।
🦜 সম্পূর্ণ সংস্কৰণ
BIRD-INTERACT ৰ সম্পূর্ণ সংস্কৰণ, bird-interact-full, এটা বিস্তৃত বেঞ্চমাৰ্ক য'ত PostgreSQL ৰ বাবে 600 টা টাস্ক আছে। ই SQL অপাৰেশ্যন আৰু ইউজাৰ কুৱেৰীৰ বিস্তৃত ক্ষেত্ৰ কভার কৰে। সম্পূর্ণ সংস্কৰণ শীঘ্ৰে আহিব।
BIRD-INTERACT-FULL ৰ মডেল পাৰফৰ্মেন্স ফলাফল
#### 1. c-Interact Text-to-SQL কাৰ্যক্ষমতা | স্থান | মডেলৰ নাম | সাধাৰণীকৃত ইনাম | প্ৰতি কামৰ গড় খৰচ (USD) | স্তৰ | |:----:|:-------------------|:--------------------:|:------------------------:|:---------------------:| | 1 | Gemini-2.5-Pro | 20.92 | $0.04 | 🏆 উৎকৃষ্ট চেট | | 2 | O3-Mini | 20.27 | $0.07 | 🏆 উৎকৃষ্ট চেট | | 3 | Claude-Sonnet-4 | 18.35 | $0.29 | 💎 ভাল চেট | | 4 | Qwen-3-Coder-480B | 17.75 | $0.11 | 💎 ভাল চেট | | 5 | Deepseek-Chat-V3.1 | 15.15 | $0.12 | ✨ মানক | | 6 | Claude-Sonnet-3.7 | 13.87 | $0.29 | ✨ মানক | | 7 | GPT-5 | 12.58 | $0.08 | ⚪ প্ৰাথমিক |
#### 2. a-Interact Text-to-SQL কাৰ্যক্ষমতা | স্থান | মডেলৰ নাম | সাধাৰণীকৃত ইনাম | প্ৰতি কামৰ গড় খৰচ (USD) | স্তৰ | |:----:|:-------------------|:--------------------:|:------------------------:|:--------------------------:| | 1 | GPT-5 | 25.52 | $0.24 | 🏆 উৎকৃষ্ট ইন্টাৰেকশ্যন | | 2 | Claude-Sonnet-4 | 23.28 | $0.51 | 🏆 উৎকৃষ্ট ইন্টাৰেকশ্যন | | 3 | Claude-Sonnet-3.7 | 17.45 | $0.60 | 💎 ভাল ইন্টাৰেকশ্যন | | 4 | Gemini-2.5-Pro | 17.33 | $0.22 | 💎 ভাল ইন্টাৰেকশ্যন | | 5 | O3-Mini | 16.43 | $0.06 | ✨ মানক | | 6 | Deepseek-Chat-V3.1 | 13.47 | $0.06 | ✨ মানক | | 7 | Qwen-3-Coder-480B | 10.58 | $0.07 | ⚪ প্ৰাথমিক |
\ বাজেট পেৰামিটাৰ: আৰম্ভণি বাজেট/ব্যৱহাৰকাৰীৰ ধৈৰ্য্য বাজেট, আমাৰ ভাৰ্চুৱেল মুদ্ৰা bird-coin*sদ্বাৰা মাপা হয়। অধিক তথ্যৰ বাবে bird_interact_agent/README.md চাওক।
ইন্টাৰেকশ্যন-টাইম স্কেলিং (ITS)
ইন্টাৰেকশ্যন-টাইম স্কেলিং (ITS) অৰ্থ হৈছে এখন মডেলৰ বহুমোৰী ইন্টাৰেকশ্যনৰ জৰিয়তে তাৰ চূড়ান্ত কার্যক্ষমতা অব্যাহতভাৱে বৃদ্ধি কৰাৰ সামৰ্থ্য। যেতিয়া এই ইন্টাৰেক্টিভ কার্যক্ষমতাই সম্পূৰ্ণৰূপে নিৰ্দিষ্ট, অসন্দিগ্ধ কামত মডেলৰ আদৰ্শ এক-মোৰী কার্যক্ষমতাক অতিক্ৰম কৰে, তেতিয়া আমি কওঁ যে সেই মডেলটোৱে ITS নিয়ম মানে। ব্যৱহাৰকাৰীৰ ধৈৰ্য্য বৃদ্ধি পালে আৰু ইন্টাৰেকশ্যন পালি সংগ্ৰহ হʼলে, কার্যক্ষমতা উন্নত হʼতেই থাকে, যি মডেলটোৱে দীঘল সংলাপত প্ৰভাৱশালী যোগাযোগ বজাই ৰাখিব পাৰে বুলি প্ৰমাণ কৰে। বৰ্তমান আমি কেৱল claude-3-7-sonnet মডেলটোৱেই ITS নিয়ম মানে বুলি পোৱা গৈছে।
পৰিবেশ স্থাপন
- bird-interact-lite ডেটাবেছ, bird-interact-full ডেটাবেছ, আৰু মূল্যায়ন পৰিবেশৰ বাবে Docker কন্টেইনাৰ চলাওক:
bird-interact-liteত মূল্যায়ন কৰিব বিচাৰে, তেন্তে docker-compose.ymlৰ postgresql_full সেৱা কমেণ্ট আউট কৰিলে পৰিবেশ স্থাপন অধিক দ্ৰুত হʼব।
পৰিবেশ আৰম্ভ কৰিবলৈ এইটো চলাওক:
cd env
docker compose pull
docker compose up -d
``
ডেটাবেছ আৰম্ভণিৰ বাবে কেইমিনিটমান অপেক্ষা কৰক। আপুনি নিৰ্মাণৰ প্ৰগতি তলত দৰ্শন কৰিব পাৰে:
`bash
docker compose logs -f --tail=100 bird_interact_postgresql_full # or bird_interact_postgresql for bird-interact-lite
`
যদি সম্পূৰ্ণ হোৱা থাকে, আপুনি ত্ৰুটিবিহীনভাৱে লগসমূহ চাব লাগিব যেনে:
`bash
bird_interact_postgresql_full | 2025-10-28 17:58:30.413 HKT [1] LOG: database system is ready to accept connection
`
যদি আপুনি পূৰ্বে containers সৃষ্টি কৰিছে আৰু পুনৰ সৃষ্টি কৰিব বিচাৰে, তেন্তে তলত দিয়া নিৰ্দেশনা চলাব পাৰে:
`bash
docker compose down -v # this cmd removes the containers and the volumes
docker compose pull # pull the latest images from Docker Hub
docker compose up -d --force-recreate # build and start the containers again. --force-recreate means force the recreation of the containers.
# Or docker compose up -d --force-recreate bird_interact_eval to only recreate the bird_interact_eval container about evalution code environment.
`
এইটো ৩টা কণ্টেইনাৰ চলায় যি আগতে নিৰ্মিত ইমেজসমূহ Docker Hub ৰ পৰা ব্যৱহাৰ কৰে:
bird_interact_postgresql: bird-interact-lite ৰ বাবে PostgreSQL ডেটাবেছ
bird_interact_postgresql_full: bird-interact-full ৰ বাবে PostgreSQL ডেটাবেছ
bird_interact_eval: a-Interact আৰু c-Interact উভয়ৰ বাবে মূল্যাংকন পৰিবেশ। এতিয়া, আপুনি তলত দিয়া নিৰ্দেশনা চলাই মূল্যাংকন পৰিবেশ আৰম্ভ কৰিব পাৰিব:
`bash
docker compose exec bird_interact_eval bash
`- (ঐচ্ছিক) পৰিবেশটো নিজে নিজে নিৰ্মাণ কৰক (যদি আপুনি ছবিসমূহ আৰম্ভণিৰ পৰা নিৰ্মাণ কৰিব বিচাৰে):
- ডাটাবেছ ডাম্পসমূহ ডাউনলোড কৰক
- bird-interact-lite। আনজিপ কৰক আৰু ইয়াক
env/postgre_table_dumps হিচাপে পুনৰ নামকৰণ কৰক।
bird-interact-full। আনজিপ কৰক আৰু ইয়াক env/postgre_table_dumps_full হিচাপে পুনৰ নামকৰণ কৰক।
docker-compose.build.yml চলাই নিজে নিজে পৰিবেশটো নিৰ্মাণ কৰক।
`bash
cd env/
docker compose -f docker-compose.build.yml build
docker compose -f docker-compose.build.yml up -d
`- (সুপারিশকৃত) পৰীক্ষা কৰক যে ডেটাবেছ কণ্টেইনাৰসমূহ সফলভাৱে নিৰ্মাণ আৰু চলি আছে।
- কণ্টেইনাৰৰ নিৰ্মাণ লগসমূহ মুদ্ৰণ কৰক যাতে নিশ্চিত কৰিব পৰা যায় যে ডেটাবেছসমূহ কোনো ত্ৰুটি নোহোৱাকৈ সফলভাৱে নিৰ্মাণ হৈছে:
`bash
docker logs bird_interact_postgresql > build_bird_interact_postgresql.log 2>&1
docker logs bird_interact_postgresql_full > build_bird_interact_postgresql_full.log 2>&1
`
যদি ত্ৰুটি দেখা দেয়, "Errors occurred during import:" লগ ফাইলত ছাপ হ'ব।- পৰীক্ষা কৰক যে ডেটাবেচ কন্টেইনাৰসমূহ সুস্থ অৱস্থাত আছে নে নাই।
ডেটাবেচ মেটাডাটা যাচাই কৰিবলৈ আমাৰ প্ৰদান কৰা Python স্ক্ৰিপ্ট ব্যৱহাৰ কৰক:
`bash
docker compose exec bird_interact_eval bash
cd /app/env
python check_db_metadata.py --host bird_interact_postgresql
python check_db_metadata.py --host bird_interact_postgresql_full
`
আশা কৰা ফলাফল:
- bird-interact-lite:
- 📈 মুঠ ডেটাবেছ: ১৮
- 📋 মুঠ টেবুল: ১৭৫
- 🔢 মুঠ কলাম: ২২৮৬
- 📈 প্ৰতি টেবুলত গড় শাৰীৰ সংখ্যা: ১,০৩৮.৪৮
- 💾 মুঠ আকাৰ: ২০৭.১৫ এম.বি. (প্ৰায়)
- bird-interact-full:
- 📈 মুঠ ডেটাবেছ: ২২
- 📋 মুঠ টেবুল: ২৪৪
- 🔢 মুঠ কলাম: ২০১১
- 📈 প্ৰতি টেবুলত গড় শাৰীৰ সংখ্যা: ১,১২১.১৯
- 💾 মুঠ আকাৰ: ২৭২.০০ এম.বি. (প্ৰায়)
📦 ডেটাসেটৰ বিৱৰণ
ডেটাসেটৰ বৰ্ণনা
- ডেটাবেছ: সম্পূৰ্ণ PostgreSQL ডেটাবেছ bird-interact-lite আৰু bird-interact-fullৰ পৰা ডাউনলোড কৰিব পাৰি।
- data: প্ৰতিটো ডেটা ইনষ্টেন্সত তলত উল্লেখ কৰা মূল অংশসমূহ থাকে:
selected_database: ডেটাবেছৰ নাম।
query: স্পষ্ট ইউজাৰ কুয়েৰি।
amb_user_query: অস্পষ্টতা সংযোগ কৰা ইউজাৰ কুয়েৰি।
user_query_ambiguity: ইউজাৰ কুয়েৰিত সংযোগ কৰা অস্পষ্টতাসমূহ।
non_critical_ambiguity: অ-গুরুত্বপূর্ণ অস্পষ্টতা যেনে order, limit, আদি।
knowledge_ambiguity: বাহ্যিক জ্ঞান আৱৃত কৰা অস্পষ্টতা।
sol_sql: মূল SQL সমাধান।
preprocess_sql: সমাধান বা পূৰ্বানুমান চলোৱাৰ আগতে চলাবলগীয়া SQL কুয়েৰি।
clean_up_sql: পৰীক্ষাৰ পিছত ডেটাবেছৰ কোনো পৰিবর্তন উলটাবলগীয়া SQL কুয়েৰি।
test_cases: পূৰ্বানুমান সংশোধিত SQL যাচাই কৰিবলৈ পৰীক্ষা কেচসমূহ।
follow_up: লেবেল কৰা অনুগামী প্ৰশ্নসমূহ।
external_knowledge: নিৰ্দিষ্ট কামৰ সৈতে সম্পৰ্কিত বাহ্যিক জ্ঞান।evaluation: মূল্যায়ন ক’ড ./evaluation ডিৰেক্টৰিত উপলব্ধ।
Curated by: BIRD Team & Google Cloud
License: cc-by-sa-4.0
HuggingFace ডেটাসেট কাৰ্ড: bird-interact-lite
আৰু bird-interact-full PostgreSQLৰ বাবে; আৰু mini-interact SQLiteৰ বাবে।
ডেটাসেট ব্যৱহাৰ
ডাটা স্বয়ংক্ৰিয়ভাৱে সংগ্ৰহ কৰাৰ ফলত ডাটা লিকেজ ৰোধ কৰিবলৈ, আমি GT সমাধান sql আৰু পৰীক্ষা কেছসমূহ ডাটাৰ সৈতে সংলগ্ন কৰা নাই।
অনুগ্ৰহ কৰি bird.bench25@gmail.com ইমেইল কৰক, আৰু বিষয়ত
[bird-interact-lite GT&Test Cases] অথবা [bird-interact-full GT&Test Cases] টেগ ব্যৱহাৰ কৰক, যাতে bird-interact-lite বা bird-interact-full ডেটাসেটৰ বাবে ground truth আৰু test cases স্বয়ংক্ৰিয়ভাৱে প্ৰেৰণ কৰা হ’ব।ৰাজহুৱা ডেটা আৰু ground truth আৰু test cases সংলগ্ন কৰক
তাৰ পিছত তলত দিয়া স্ক্ৰিপ্ট ব্যৱহাৰ কৰি ৰাজহুৱা ডেটা, ground truth আৰু test cases সংলগ্ন কৰক:
সম্পূৰ্ণ সংস্কৰণৰ উদাহৰণ হিচাপে ধৰা হ’ল:
(1) চলাও:
bash
python combine_public_with_gt.py /path/to/bird-interact-full/bird_interact_data.jsonl /path/to/bird_interact_full_gt_kg_testcases_08022.jsonl /path/to/bird_interact_data.jsonl # bird_interact_full_gt_kg_testcases_08022.jsonl is the data of ground-truth fields, which is obtained by emailing us.
bash cp /path/to/bird_interact_data.jsonl /path/to/bird-interact-full/bird_interact_data.jsonlএইটো/path/to/bird_interact_data.jsonl-ত সংযুক্ত তথ্যৰ সৈতে এটা নতুন ফাইল সৃষ্টি কৰিব।(2) তাৰপিছত মূল পাব্লিক তথ্যটো সংযুক্ত তথ্যৰ সৈতে প্ৰতিস্থাপন কৰক:
অন্যান্য সংস্কৰণসমূহৰ ক্ষেত্ৰতো একেই: bird-interact-lite, mini version, আদি। কেৱল public data আৰু ground truth আৰু test cases-ৰ বাবে সঠিক path নিৰ্ধাৰণ কৰক, আৰু তাৰ পিছত public data-টো combined data-ৰে পৰিৱৰ্তন কৰক।
দ্বাৰা মাপা হয়। অধিক তথ্যৰ বাবে