BIRD-INTERACT 1.0

⚠️ ঘোষণা
অনুগ্ৰহ কৰি মনত ৰাখিব যে আপোনাৰ মূল্যাংকন প্ৰক্ৰিয়াৰ পূৰ্বে, Docker-এ ডেটাবেইজসমূহ লোড কৰাৰ সময়ত, পৰিৱেশৰ অসামঞ্জস্যতাকাৰণে কেতিয়াবা ত্ৰুটি দেখা যাব পাৰে (এইবোৰে প্ৰক্ৰিয়াটো বন্ধ নকৰে, কিন্তু Docker লগত দেখা যাব)। ফলস্বৰূপে, কিছুমান ডেটাবেইজ ঠিককৈ লোড নহব পাৰে, যাৰ বাবে ডেটাবেইজ খালী হৈ থাকিব পাৰে। এইবোৰৰ বাবে মূল্যাংকনৰ ফলাফল অস্বাভাৱিকভাৱে কম হব। 👉 সেয়ে, আমি দৃঢ়ভাবে পৰামৰ্শ দিছো যে মূল্যাংকন চলোৱাৰ পূৰ্বে Docker লগত কোনো ত্ৰুটি আছে নে নাই পৰীক্ষা কৰক আৰু সকলো ডেটাবেইজ সফলভাৱে লোড হৈছে নে নাই নিশ্চিত কৰক।👉 আমি Submission Guidelines আপডেট কৰিছো, য'ত কাষ্টমাইজড এজেন্ট স্কেফোল্ডসমূহ সমৰ্থিত। অনুগ্ৰহ কৰি এই ঠাইত আমাৰ বিস্তারিত জমা দিয়াৰ নিৰ্দেশনা চাই লওক।
📰 বাতৰি
- [2025-11-06] 🐛 বাগ ফিক্স & 🐳 Docker আপডেট: sqlglot সংস্কৰণ 26.16.4-লৈ আপডেট কৰা হৈছে, যাতে ইউজাৰ ছিমুলেটৰৰ বাবে SQL পাৰ্সাৰ ঠিকদৰে SQL পাৰ্স কৰিব নোৱাৰা বাগটো মুকলি হয়। আপুনি
bird_interact_evalপৰিবেশতpip install sqlglot==26.16.4ব্যৱহাৰ কৰি পুনৰ ইনস্টল কৰিলে এইটো ঠিক কৰিব পাৰে।bird_interact_evalইমেজো আপডেট কৰা হৈছে, সেয়ে আপুনি ইয়াক পুলি পুনৰbird_interact_evalকণ্টেইনাৰ সৃষ্টি কৰিব পাৰে। - [2025-10-21] 🐳 Docker আপডেট: আমি Full DB Env-ৰ বাবে Docker যোগ দিয়েছি। আৰু আমি ৩টা Docker ইমেজ (Base/Full DB Env আৰু মূল্যাংকন পৰিবেশ দুয়োটা
a-Interactআৰুc-Interact-ৰ বাবে) Docker Hub-ত পুশ কৰিছো যাতে পৰিবেশ স্থাপন সহজ হয়। DB dumps ডাউনলোড আৰু ইমেজ নিজে তৈয়াৰ কৰাৰ প্ৰয়োজন নাই! - [2025-10-08] 📝 আমাৰ Bird-Interact পেপাৰ এতিয়া পাব্লিকলি উপলব্ধ!
- [2025-08-26] 🚀 আমি BIRD-Interact-Full (600) ছেট মুক্ত কৰাৰ কথা ঘোষণা কৰি উৎফুল্লিত।
c-interact আৰু a-interact অংশত মাত্ৰ 10.0%।
👉 অধিক তথ্যৰ বাবে অনুগ্ৰহ কৰি আমাৰ প্ৰকল্প ৱেবছাইট চাওক।- [2025-08-26] 📬 আমি এই সপ্তাহত Ground Truth & Test cases আমাৰ মেইলিং লিষ্টলৈ পঠিয়াম।
- [2025-08-26] 💾 আন এটা তথ্য হিচাপে, আমি এতিয়া LiveSQLBench-Lite ৰ এটা SQLite সংস্কৰণ মুক্তি দিছোঁ, যাতে স্থানীয় গৱেষণাত অধিক সুবিধা হয়।
- [2025-08-22] বাগ ফিক্স: Bird-Interact-Agent ক'ডত, আমি এটা বাগ সমাধান কৰিছোঁ, য'ত phase-2 SQL মূল্যাংকন কৰাৰ সময়ত, সংৰক্ষিত phase-1 SQL সফলতাৰে চলাব নোৱাৰি, যাৰ ফলত Phase-2 ৰ সফলতাৰ হাৰ কমি গৈছিল। এই বাগ কেৱল সেইবোৰ টাস্কত প্ৰভাৱ পেলায়, য'ত phase1 sql ডাটাবেছত কিবা অপাৰেশ্যন কৰে, যেনে CREATE table আদি।
🧸 সামগ্ৰিক পৰ্যালোচনা
BIRD-INTERACT, এটা ইন্টাৰেক্টিভ টেক্সট-টু-SQL বেঞ্চমাৰ্ক, dynamic interactions ৰ প্ৰেক্ষাপটত Text-to-SQL মূল্যাংকন নতুনকৈ কল্পনা কৰিছে। এই পৰিৱেশে এটা স্তৰবদ্ধ জ্ঞানভাণ্ডাৰ, ডাটাবেছ ডকুমেণ্টেশ্যন আৰু এটা ফাংশন-ভিত্তিক ব্যৱহাৰকাৰী চিমুলেটৰ সংমিশ্ৰণ ঘটাই সম্পূৰ্ণ CRUD অপাৰেশ্যনৰ সৈতে প্ৰকৃত উদ্যোগিক পৰিৱেশ পুনৰুজ্জীৱিত কৰে। ই দুটা কঠোৰ পৰীক্ষা মুড আগবঢ়ায়: (1) নিষ্ক্ৰিয় Conversation Interaction আৰু (2) সক্ৰিয় Agentic Interaction, য'ত ৬০০ টা টাস্ক এনোটেটেড আছে, যেনে বিজনেছ ইন্টেলিজেন্স (BI), CRUD অপাৰেশ্যন আদি, প্ৰতিটো চলাব পৰা টেষ্ট কেচৰ দ্বাৰা সংৰক্ষিত। সাধাৰণ মূল্যাংকনত মডেল আৰু ইউজাৰ চিমুলেটৰৰ মাজত ১,৯৬৮-৫,৪৯৬ টা ইন্টাৰেকশ্যন টাৰ্ন সৃষ্টি হয়, আৰু সৰ্বাধুনিক ৰিজনিং মডেলসমূহে বৰ্তমান মাত্ৰ ≈২৪% আৰু ≈১৮% টাস্কহে সমাধান কৰিব পাৰে, যি বেঞ্চমাৰ্কটোৰ চেলেঞ্জ প্ৰকাশ কৰে।
✅ দুটা মূল্যাংকন মুড
BIRD-INTERACT তলত উল্লেখ কৰা দুটা মূল্যাংকন মুড সমৰ্থন কৰে:
- c-Interact: Conversation Interaction, যি এটা নিষ্ক্ৰিয় মুড আৰু ইয়াৰ workflow স্থিৰ। ক'ড আৰু বিস্তৃত তথ্য
bird_interact_convত পোৱা যাব। - a-Interact: Agentic Interaction, যি এটা embodied সক্ৰিয় মুড, ইয়াৰ workflow dynamic আৰু মডেল-নিয়ন্ত্ৰিত। ক'ড আৰু বিস্তৃত তথ্য
bird_interact_agentত পোৱা যাব।
🐣 লাইট সংস্কৰণ
আমি এতিয়া BIRD-INTERACT ৰ এটা লাইট সংস্কৰণ, bird-interact-lite-exp, মুক্তি দিছোঁ, য'ত PostgreSQL ৰ বাবে ২৭০ টা উচ্চ-মানৰ বাস্তৱ টাস্ক অন্তৰ্ভুক্ত আছে। সোনকালে এক্সপেৰিমেণ্ট কৰাৰ বাবে এইটো ভাল আৰম্ভণি।
🦜 পূৰ্ণ সংস্কৰণ
BIRD-INTERACT ৰ পূৰ্ণ সংস্কৰণ, bird-interact-full, এটা ব্যাপক বেঞ্চমাৰ্ক য'ত PostgreSQL ৰ বাবে ৬০০ টা টাস্ক অন্তৰ্ভুক্ত। ইয়াত SQL অপাৰেশ্যন আৰু ইউজাৰ কুৱেৰীৰ ব্যাপক পৰিসৰ ধৰা হৈছে। পূৰ্ণ সংস্কৰণ শীঘ্ৰে আহি আছে।
BIRD-INTERACT-FULL ত মডেলৰ কার্যক্ষমতাৰ ফলাফল
#### 1. c-Interact Text-to-SQL কার্যক্ষমতা | শ্ৰেণী | মডেলৰ নাম | Normalized Reward | Avg Cost (USD)/Task | স্তৰ | |:----:|:-------------------|:-----------------:|:-------------------:|:------------------:| | 1 | Gemini-2.5-Pro | 20.92 | $0.04 | 🏆 উৎকৃষ্ট চাট | | 2 | O3-Mini | ২০.২৭ | $০.০৭ | 🏆 উৎকৃষ্ট চেট | | 3 | Claude-Sonnet-4 | ১৮.৩৫ | $০.২৯ | 💎 ভাল চেট | | 4 | Qwen-3-Coder-480B | ১৭.৭৫ | $০.১১ | 💎 ভাল চেট | | 5 | Deepseek-Chat-V3.1 | ১৫.১৫ | $০.১২ | ✨ মানদণ্ড | | 6 | Claude-Sonnet-3.7 | ১৩.৮৭ | $০.২৯ | ✨ মানদণ্ড | | 7 | GPT-5 | ১২.৫৮ | $০.০৮ | ⚪ মৌলিক |
#### ২. a-Interact Text-to-SQL কাৰ্যক্ষমতা | স্থান | মডেলৰ নাম | স্বাভাবিকীকৃত ৰিৱাৰ্ড | গড় ব্যয় (USD)/টাস্ক | স্তৰ | |:----:|:-------------------|:---------------------:|:---------------------:|:----------------------:| | 1 | GPT-5 | ২৫.৫২ | $০.২৪ | 🏆 উৎকৃষ্ট আন্তঃক্ৰিয়া | | 2 | Claude-Sonnet-4 | ২৩.২৮ | $০.৫১ | 🏆 উৎকৃষ্ট আন্তঃক্ৰিয়া | | 3 | Claude-Sonnet-3.7 | ১৭.৪৫ | $০.৬০ | 💎 ভাল আন্তঃক্ৰিয়া | | 4 | Gemini-2.5-Pro | ১৭.৩৩ | $০.২২ | 💎 ভাল আন্তঃক্ৰিয়া | | 5 | O3-Mini | ১৬.৪৩ | $০.০৬ | ✨ মানদণ্ড | | 6 | Deepseek-Chat-V3.1 | ১৩.৪৭ | $০.০৬ | ✨ মানদণ্ড | | 7 | Qwen-3-Coder-480B | ১০.৫৮ | $০.০৭ | ⚪ মৌলিক |
\ বাজেট পৰামিতি: আৰম্ভণি বাজেট/ব্যৱহাৰকাৰীৰ ধৈৰ্য বাজেট, আমাৰ কল্পিত মুদ্ৰা bird-coin*sদ্বাৰা মাপা হয়। অধিক তথ্যৰ বাবে bird_interact_agent/README.md চাওক।
আন্তঃক্ৰিয়া-সময় স্কেলিং (ITS)
আন্তঃক্ৰিয়া-সময় স্কেলিং (ITS) মানে হৈছে এটা মডেলৰ বহু-ফেৰ্ত ইন্টাৰেকশ্যনৰ জৰিয়তে তাৰ চূড়ান্ত কাৰ্যক্ষমতা অবিৰতভাৱে বৃদ্ধি কৰাৰ ক্ষমতা। যেতিয়া এই আন্তঃক্ৰিয়াত্মক কাৰ্যক্ষমতাই মডেলৰ ঐপৰ্যায়িক এক-ফেৰ্ত কাৰ্যক্ষমতাক এটা সম্পূৰ্ণৰূপে নিৰ্দিষ্ট, অস্পষ্টতাবিহীন টাস্কত অতিক্ৰম কৰে, তেতিয়া আমি কৈছো যে ই ITS নীতি পূৰণ কৰে। ব্যৱহাৰকাৰীৰ ধৈৰ্য বৃদ্ধি পালে আৰু আন্তঃক্ৰিয়া ফেৰ্ত বৃদ্ধি পালে, কাৰ্যক্ষমতাও উন্নত হয়, যাৰ অৰ্থ মডেলটো দীঘলীয়া বাৰ্তালাপত কাৰ্যকৰী যোগাযোগ অব্যাহত ৰাখিব পাৰে। বৰ্তমান আমি কেৱল claude-3-7-sonnet ক ITS নীতি পূৰণ কৰা বুলি পাইছো।
পৰিবেশ সংস্থাপন
- bird-interact-lite ডাটাবেছ, bird-interact-full ডাটাবেছ, আৰু মূল্যায়ন পৰিবেশৰ বাবে Docker কণ্টেইনাৰ চলাওক:
bird-interact-lite ত মূল্যায়ন কৰিব বিচাৰে, তেন্তে postgresql_full সেৱা টো docker-compose.yml ত মন্তব্য (comment) কৰি দিয়া পাৰে, যাতে সংস্থাপন দ্ৰুত হয়।
পৰিবেশ আৰম্ভ কৰিবলৈ চলাওক:
cd env
docker compose pull
docker compose up -d
``
ডেটাবেছ আৰম্ভণিৰ বাবে কেইমিনিটমান অপেক্ষা কৰক। আপুনি নিৰ্মাণৰ প্ৰগতি তলত দৰ্শন কৰিব পাৰে:
`bash
docker compose logs -f --tail=100 bird_interact_postgresql_full # or bird_interact_postgresql for bird-interact-lite
`
যদি সম্পূৰ্ণ হোৱা থাকে, আপুনি ত্ৰুটিবিহীনভাৱে লগসমূহ চাব লাগিব যেনে:
`bash
bird_interact_postgresql_full | 2025-10-28 17:58:30.413 HKT [1] LOG: database system is ready to accept connection
`
যদি আপুনি পূৰ্বে containers সৃষ্টি কৰিছে আৰু পুনৰ সৃষ্টি কৰিব বিচাৰে, তেন্তে তলত দিয়া নিৰ্দেশনা চলাব পাৰে:
`bash
docker compose down -v # this cmd removes the containers and the volumes
docker compose pull # pull the latest images from Docker Hub
docker compose up -d --force-recreate # build and start the containers again. --force-recreate means force the recreation of the containers.
# Or docker compose up -d --force-recreate bird_interact_eval to only recreate the bird_interact_eval container about evalution code environment.
`
এইটো ৩টা কণ্টেইনাৰ চলায় যি আগতে নিৰ্মিত ইমেজসমূহ Docker Hub ৰ পৰা ব্যৱহাৰ কৰে:
bird_interact_postgresql: bird-interact-lite ৰ বাবে PostgreSQL ডেটাবেছ
bird_interact_postgresql_full: bird-interact-full ৰ বাবে PostgreSQL ডেটাবেছ
bird_interact_eval: a-Interact আৰু c-Interact উভয়ৰ বাবে মূল্যাংকন পৰিবেশ। এতিয়া, আপুনি তলত দিয়া নিৰ্দেশনা চলাই মূল্যাংকন পৰিবেশ আৰম্ভ কৰিব পাৰিব:
`bash
docker compose exec bird_interact_eval bash
`- (ঐচ্ছিক) পৰিবেশটো নিজে নিজে নিৰ্মাণ কৰক (যদি আপুনি ছবিসমূহ আৰম্ভণিৰ পৰা নিৰ্মাণ কৰিব বিচাৰে):
- ডাটাবেছ ডাম্পসমূহ ডাউনলোড কৰক
- bird-interact-lite। আনজিপ কৰক আৰু ইয়াক
env/postgre_table_dumps হিচাপে পুনৰ নামকৰণ কৰক।
bird-interact-full। আনজিপ কৰক আৰু ইয়াক env/postgre_table_dumps_full হিচাপে পুনৰ নামকৰণ কৰক।
docker-compose.build.yml চলাই নিজে নিজে পৰিবেশটো নিৰ্মাণ কৰক।
`bash
cd env/
docker compose -f docker-compose.build.yml build
docker compose -f docker-compose.build.yml up -d
`- (সুপারিশকৃত) পৰীক্ষা কৰক যে ডেটাবেছ কণ্টেইনাৰসমূহ সফলভাৱে নিৰ্মাণ আৰু চলি আছে।
- কণ্টেইনাৰৰ নিৰ্মাণ লগসমূহ মুদ্ৰণ কৰক যাতে নিশ্চিত কৰিব পৰা যায় যে ডেটাবেছসমূহ কোনো ত্ৰুটি নোহোৱাকৈ সফলভাৱে নিৰ্মাণ হৈছে:
`bash
docker logs bird_interact_postgresql > build_bird_interact_postgresql.log 2>&1
docker logs bird_interact_postgresql_full > build_bird_interact_postgresql_full.log 2>&1
`
যদি ত্ৰুটি দেখা দেয়, "Errors occurred during import:" লগ ফাইলত ছাপ হ'ব।- পৰীক্ষা কৰক যে ডেটাবেচ কন্টেইনাৰসমূহ সুস্থ অৱস্থাত আছে নে নাই।
ডেটাবেচ মেটাডাটা যাচাই কৰিবলৈ আমাৰ প্ৰদান কৰা Python স্ক্ৰিপ্ট ব্যৱহাৰ কৰক:
`bash
docker compose exec bird_interact_eval bash
cd /app/env
python check_db_metadata.py --host bird_interact_postgresql
python check_db_metadata.py --host bird_interact_postgresql_full
`
আশা কৰা ফলাফলসমূহ:
- bird-interact-lite:
- 📈 মুঠ ডেটাবেইচ: ১৮টা
- 📋 মুঠ টেবল: ১৭৫টা
- 🔢 মুঠ কলাম: ২২৮৬টা
- 📈 প্ৰতি টেবলত গড় ৰো: ১,০৩৮.৪৮
- 💾 মুঠ মাপ: ২০৭.১৫ এম.বি. (প্ৰায়)
- bird-interact-full:
- 📈 মুঠ ডেটাবেইচ: ২২টা
- 📋 মুঠ টেবল: ২৪৪টা
- 🔢 মুঠ কলাম: ২০১১টা
- 📈 প্ৰতি টেবলত গড় ৰো: ১,১২১.১৯
- 💾 মুঠ মাপ: ২৭২.০০ এম.বি. (প্ৰায়)
📦 ডেটা ছেটৰ বিস্তৃত তথ্য
ডেটা ছেটৰ বিৱৰণ
- Database: সম্পূৰ্ণ PostgreSQL ডেটাবেইচ bird-interact-lite আৰু bird-interact-full ৰ পৰা ডাউনলোড কৰিব পাৰি।
- data: প্ৰতিটো ডেটা ইনষ্টান্সত তলত উল্লেখ কৰা প্ৰধান অংশবোৰ থাকে:
selected_database: ডেটাবেইচৰ নাম।
query: স্পষ্টভাৱে ব্যৱহাৰকাৰী দ্বাৰা কৰা প্ৰশ্ন।
amb_user_query: অস্পষ্টতা যোগ কৰা ব্যৱহাৰকাৰীৰ প্ৰশ্ন।
user_query_ambiguity: ব্যৱহাৰকাৰীৰ প্ৰশ্নত যোগ কৰা অস্পষ্টতাসমূহ।
non_critical_ambiguity: অ-গুরুত্বপূৰ্ণ অস্পষ্টতা যেনে order, limit, আদি।
knowledge_ambiguity: বাহ্যিক জ্ঞান গোপন কৰি সৃষ্টি কৰা অস্পষ্টতা।
sol_sql: ভূমি সত্য SQL সমাধান।
preprocess_sql: সমাধান বা অনুমান কৰাৰ আগতে চলাবলগীয়া SQL প্ৰশ্ন।
clean_up_sql: টেস্ট কেচসমূহৰ পাছত ডেটাবেইচত হোৱা পৰিবর্তন পুনৰুদ্ধাৰ কৰিবলৈ চলাবলগীয়া SQL প্ৰশ্ন।
test_cases: অনুমান কৰা SQL শুদ্ধতা যাচাই কৰাৰ বাবে টেস্ট কেচৰ এক ছেট।
follow_up: লেবেল কৰা ফলো-আপ প্ৰশ্নসমূহ।
external_knowledge: নিৰ্দিষ্ট টাস্কৰ সৈতে সম্পৰ্কিত বাহ্যিক জ্ঞান।evaluation: মূল্যায়ন কোড ./evaluation ডাইৰেক্টৰীত উপলব্ধ।
Curated by: BIRD Team & Google Cloud
License: cc-by-sa-4.0
HuggingFace Dataset Card: bird-interact-lite
আৰু bird-interact-full
ডেটাসেট ব্যৱহাৰ
ডাটা স্বয়ংক্ৰিয়ভাৱে সংগ্ৰহ কৰাৰ ফলত ডাটা লিকেজ ৰোধ কৰিবলৈ, আমি GT সমাধান sql আৰু পৰীক্ষা কেছসমূহ ডাটাৰ সৈতে সংলগ্ন কৰা নাই।
অনুগ্ৰহ কৰি bird.bench25@gmail.com ইমেইল কৰক, আৰু বিষয়ত
[bird-interact-lite GT&Test Cases] অথবা [bird-interact-full GT&Test Cases] টেগ ব্যৱহাৰ কৰক, যাতে bird-interact-lite বা bird-interact-full ডেটাসেটৰ বাবে ground truth আৰু test cases স্বয়ংক্ৰিয়ভাৱে প্ৰেৰণ কৰা হ’ব।ৰাজহুৱা ডেটা আৰু ground truth আৰু test cases সংলগ্ন কৰক
তাৰ পিছত তলত দিয়া স্ক্ৰিপ্ট ব্যৱহাৰ কৰি ৰাজহুৱা ডেটা, ground truth আৰু test cases সংলগ্ন কৰক:
সম্পূৰ্ণ সংস্কৰণৰ উদাহৰণ হিচাপে ধৰা হ’ল:
(1) চলাও:
bash
python combine_public_with_gt.py /path/to/bird-interact-full/bird_interact_data.jsonl /path/to/bird_interact_full_gt_kg_testcases_08022.jsonl /path/to/bird_interact_data.jsonl # bird_interact_full_gt_kg_testcases_08022.jsonl is the data of ground-truth fields, which is obtained by emailing us.
bash cp /path/to/bird_interact_data.jsonl /path/to/bird-interact-full/bird_interact_data.jsonlএইটো/path/to/bird_interact_data.jsonl-ত সংযুক্ত তথ্যৰ সৈতে এটা নতুন ফাইল সৃষ্টি কৰিব।(2) তাৰপিছত মূল পাব্লিক তথ্যটো সংযুক্ত তথ্যৰ সৈতে প্ৰতিস্থাপন কৰক:
অন্যান্য সংস্কৰণসমূহৰ ক্ষেত্ৰতো একেই: bird-interact-lite, mini version, আদি। কেৱল public data আৰু ground truth আৰু test cases-ৰ বাবে সঠিক path নিৰ্ধাৰণ কৰক, আৰু তাৰ পিছত public data-টো combined data-ৰে পৰিৱৰ্তন কৰক।
দ্বাৰা মাপা হয়। অধিক তথ্যৰ বাবে