Web Analytics

BIRD-Interact

⭐ 678 stars Assamese by bird-bench

🌐 ভাষা

BIRD-INTERACT 1.0 HKU Logo Google Cloud Logo

License Leaderboard HuggingFace Python OpenAI

⚠️ ঘোষণা

অনুগ্ৰহ কৰি মনত ৰাখিব, আপোনাৰ মূল্যায়ন প্ৰক্ৰিয়াৰ আগতে, যেতিয়া Docker-এ ডেটাবেছসমূহ লোড কৰে, পৰিৱেশৰ অসামঞ্জস্যতাৰ বাবে কেতিয়াবা ত্ৰুটি দেখা দিব পাৰে (এইবোৰে প্ৰক্ৰিয়া সামৰণি নিদিয়ে, কিন্তু Docker লগত দেখা যাব)। ফলস্বৰূপ, কিছুমান ডেটাবেছ সঠিকভাৱে লোড নহ’ব পাৰে, যাৰ ফলত খালী ডেটাবেছ হ’ব পাৰে। ইয়াৰ ফলত মূল্যায়নৰ ফলাফল অস্বাভাৱিকভাৱে কম হ’ব পাৰে। 👉 সেয়া বাবে, আমি দৃঢ়ভাৱে পৰামৰ্শ দিছোঁ যাতে মূল্যায়ন চলোৱাৰ আগতে Docker লগত কোনো ত্ৰুটি আছে নে নাই পৰীক্ষা কৰক আৰু সকলো ডেটাবেছ সফলতাৰে লোড হৈছে নে নাই নিশ্চিত কৰক।

👉 আমি Submission Guidelines আপডেট কৰিছোঁ, য’ত কাষ্টমাইজ্ড এজেন্ট স্কেফল্ডসমূহক সমৰ্থন কৰা হৈছে। অনুগ্ৰহ কৰি আমাৰ বিস্তারিত জমা দিয়াৰ নিৰ্দেশিকা এই ঠাইত চাওক।

📰 বাতৰি

ইয়াত সম্পূৰ্ণ বিৱৰণ, পদ্ধতি আৰু আমাৰ ইনটাৰেক্টিভ টেক্সট-টু-SQL বেঞ্চমাৰ্কৰ মূল্যায়ন দিয়া হৈছে। 👉 BIRD-Interactৰ পিছৰ আইডিয়াসমূহ জানিবলৈ চাওক।

এইটো কঠিন — শ্ৰেষ্ঠ LLMসমূহে কেৱল ১৬.৩৩% সফলতা লাভ কৰিছে, c-interact আৰু a-interact অংশত কেৱল ১০.০%। 👉 অধিক তথ্যৰ বাবে, অনুগ্ৰহ কৰি আমাৰ প্ৰকল্প ৱেবছাইট চাওক।

যদি আপুনি আগতীয়াকৈ লাভ কৰিব বিচাৰে, অনুগ্ৰহ কৰি ছাইটত উল্লেখ কৰা নিয়ম অনুসৰি ইমেইল পঠিয়াওক স্বয়ংক্ৰিয় ডাউনলোডৰ বাবে।

সম্পূর্ণ LiveSQLBench-Base আৰু -Large সংস্কৰণ শীঘ্ৰে আহিব!

🧸 সংক্ষিপ্ত বিৱৰণ

BIRD-INTERACT, এটা ইন্টাৰেক্টিভ টেক্স্ট-টু-SQL বেঞ্চমাৰ্ক, dynamic interaction ৰ lens ৰে Text-to-SQL মূল্যায়ন পুনৰ কল্পনা কৰে। এই পৰিৱেশে এটা হায়াৰাৰ্কিকেল জ্ঞানভিত্তি, ডাটাবেইচ ডকুমেণ্টেশ্যন আৰু ফাংশন-চালিত ইউজাৰ চিমুলেটৰ সংমিশ্ৰণ কৰে, যাতে পূৰ্ণ CRUD অপাৰেশ্যনসমূহত প্ৰকৃত এন্টাৰপ্ৰাইজ পৰিৱেশ পুনঃনির্মাণ হয়। এই বেঞ্চমাৰ্কত দুটা কঠোৰ টেষ্ট মোড আছে: (1) নিষ্ক্ৰিয় Conversational Interaction আৰু (2) সক্ৰিয় Agentic Interaction, যি 600 টা এনোটেটেড টাস্কৰ বিস্তৃত, Business Intelligence (BI), CRUD অপাৰেশ্যন আদি অন্তৰ্ভুক্ত, আৰু প্ৰতিটো টাস্ক executable test cases ৰে সুৰক্ষিত। সাধাৰণ মূল্যায়নসমূহত মডেল আৰু ইউজাৰ চিমুলেটৰৰ মাজত 1,968-5,496 interaction turn হয়, আৰু আধুনিক reasoning মডেলসমূহে মাত্ৰ ≈24% আৰু ≈18% টাস্ক সফলভাৱে সমাধান কৰে, যাৰ দ্বাৰা বেঞ্চমাৰ্কৰ চেলেঞ্জ স্পষ্ট হয়।

✅ দুটা মূল্যায়ন মোড

BIRD-INTERACT ত উপৰোক্ত দুটা মূল্যায়ন মোড আছে:

🐣 Lite সংস্কৰণ

আমি BIRD-INTERACT ৰ lite সংস্কৰণ, bird-interact-lite-exp, মুক্তি দিছোঁ, য'ত PostgreSQL ৰ বাবে 270 টা উচ্চ-মানৰ বাস্তৱিক টাস্ক অন্তৰ্ভুক্ত। এইটো তৎক্ষণাত পৰীক্ষাৰ বাবে ভাল আৰম্ভণি।

🦜 সম্পূর্ণ সংস্কৰণ

BIRD-INTERACT ৰ সম্পূর্ণ সংস্কৰণ, bird-interact-full, এটা বিস্তৃত বেঞ্চমাৰ্ক য'ত PostgreSQL ৰ বাবে 600 টা টাস্ক আছে। ই SQL অপাৰেশ্যন আৰু ইউজাৰ কুৱেৰীৰ বিস্তৃত ক্ষেত্ৰ কভার কৰে। সম্পূর্ণ সংস্কৰণ শীঘ্ৰে আহিব।

BIRD-INTERACT-FULL ৰ মডেল পাৰফৰ্মেন্স ফলাফল

#### 1. c-Interact Text-to-SQL কাৰ্যক্ষমতা | স্থান | মডেলৰ নাম | সাধাৰণীকৃত ইনাম | প্ৰতি কামৰ গড় খৰচ (USD) | স্তৰ | |:----:|:-------------------|:--------------------:|:------------------------:|:---------------------:| | 1 | Gemini-2.5-Pro | 20.92 | $0.04 | 🏆 উৎকৃষ্ট চেট | | 2 | O3-Mini | 20.27 | $0.07 | 🏆 উৎকৃষ্ট চেট | | 3 | Claude-Sonnet-4 | 18.35 | $0.29 | 💎 ভাল চেট | | 4 | Qwen-3-Coder-480B | 17.75 | $0.11 | 💎 ভাল চেট | | 5 | Deepseek-Chat-V3.1 | 15.15 | $0.12 | ✨ মানক | | 6 | Claude-Sonnet-3.7 | 13.87 | $0.29 | ✨ মানক | | 7 | GPT-5 | 12.58 | $0.08 | ⚪ প্ৰাথমিক |

#### 2. a-Interact Text-to-SQL কাৰ্যক্ষমতা | স্থান | মডেলৰ নাম | সাধাৰণীকৃত ইনাম | প্ৰতি কামৰ গড় খৰচ (USD) | স্তৰ | |:----:|:-------------------|:--------------------:|:------------------------:|:--------------------------:| | 1 | GPT-5 | 25.52 | $0.24 | 🏆 উৎকৃষ্ট ইন্টাৰেকশ্যন | | 2 | Claude-Sonnet-4 | 23.28 | $0.51 | 🏆 উৎকৃষ্ট ইন্টাৰেকশ্যন | | 3 | Claude-Sonnet-3.7 | 17.45 | $0.60 | 💎 ভাল ইন্টাৰেকশ্যন | | 4 | Gemini-2.5-Pro | 17.33 | $0.22 | 💎 ভাল ইন্টাৰেকশ্যন | | 5 | O3-Mini | 16.43 | $0.06 | ✨ মানক | | 6 | Deepseek-Chat-V3.1 | 13.47 | $0.06 | ✨ মানক | | 7 | Qwen-3-Coder-480B | 10.58 | $0.07 | ⚪ প্ৰাথমিক |

\ বাজেট পেৰামিটাৰ: আৰম্ভণি বাজেট/ব্যৱহাৰকাৰীৰ ধৈৰ্য্য বাজেট, আমাৰ ভাৰ্চুৱেল মুদ্ৰা bird-coin*s দ্বাৰা মাপা হয়। অধিক তথ্যৰ বাবে bird_interact_agent/README.md চাওক।

ইন্টাৰেকশ্যন-টাইম স্কেলিং (ITS)

ইন্টাৰেকশ্যন-টাইম স্কেলিং (ITS) অৰ্থ হৈছে এখন মডেলৰ বহুমোৰী ইন্টাৰেকশ্যনৰ জৰিয়তে তাৰ চূড়ান্ত কার্যক্ষমতা অব্যাহতভাৱে বৃদ্ধি কৰাৰ সামৰ্থ্য। যেতিয়া এই ইন্টাৰেক্টিভ কার্যক্ষমতাই সম্পূৰ্ণৰূপে নিৰ্দিষ্ট, অসন্দিগ্ধ কামত মডেলৰ আদৰ্শ এক-মোৰী কার্যক্ষমতাক অতিক্ৰম কৰে, তেতিয়া আমি কওঁ যে সেই মডেলটোৱে ITS নিয়ম মানে। ব্যৱহাৰকাৰীৰ ধৈৰ্য্য বৃদ্ধি পালে আৰু ইন্টাৰেকশ্যন পালি সংগ্ৰহ হʼলে, কার্যক্ষমতা উন্নত হʼতেই থাকে, যি মডেলটোৱে দীঘল সংলাপত প্ৰভাৱশালী যোগাযোগ বজাই ৰাখিব পাৰে বুলি প্ৰমাণ কৰে। বৰ্তমান আমি কেৱল claude-3-7-sonnet মডেলটোৱেই ITS নিয়ম মানে বুলি পোৱা গৈছে।

পৰিবেশ স্থাপন

> যদি আপুনি কেৱল bird-interact-liteত মূল্যায়ন কৰিব বিচাৰে, তেন্তে docker-compose.ymlpostgresql_full সেৱা কমেণ্ট আউট কৰিলে পৰিবেশ স্থাপন অধিক দ্ৰুত হʼব। পৰিবেশ আৰম্ভ কৰিবলৈ এইটো চলাওক:
   cd env
   docker compose pull 
   docker compose up -d
   ``
   ডেটাবেছ আৰম্ভণিৰ বাবে কেইমিনিটমান অপেক্ষা কৰক।

আপুনি নিৰ্মাণৰ প্ৰগতি তলত দৰ্শন কৰিব পাৰে: `bash docker compose logs -f --tail=100 bird_interact_postgresql_full # or bird_interact_postgresql for bird-interact-lite ` যদি সম্পূৰ্ণ হোৱা থাকে, আপুনি ত্ৰুটিবিহীনভাৱে লগসমূহ চাব লাগিব যেনে:

`bash bird_interact_postgresql_full | 2025-10-28 17:58:30.413 HKT [1] LOG: database system is ready to accept connection ` যদি আপুনি পূৰ্বে containers সৃষ্টি কৰিছে আৰু পুনৰ সৃষ্টি কৰিব বিচাৰে, তেন্তে তলত দিয়া নিৰ্দেশনা চলাব পাৰে: `bash docker compose down -v # this cmd removes the containers and the volumes docker compose pull # pull the latest images from Docker Hub docker compose up -d --force-recreate # build and start the containers again. --force-recreate means force the recreation of the containers. # Or docker compose up -d --force-recreate bird_interact_eval to only recreate the bird_interact_eval container about evalution code environment. ` এইটো ৩টা কণ্টেইনাৰ চলায় যি আগতে নিৰ্মিত ইমেজসমূহ Docker Hub ৰ পৰা ব্যৱহাৰ কৰে:

  • bird_interact_postgresql: bird-interact-lite ৰ বাবে PostgreSQL ডেটাবেছ
  • bird_interact_postgresql_full: bird-interact-full ৰ বাবে PostgreSQL ডেটাবেছ
  • bird_interact_eval: a-Interact আৰু c-Interact উভয়ৰ বাবে মূল্যাংকন পৰিবেশ।
এতিয়া, আপুনি তলত দিয়া নিৰ্দেশনা চলাই মূল্যাংকন পৰিবেশ আৰম্ভ কৰিব পাৰিব: `bash docker compose exec bird_interact_eval bash `

  • (ঐচ্ছিক) পৰিবেশটো নিজে নিজে নিৰ্মাণ কৰক (যদি আপুনি ছবিসমূহ আৰম্ভণিৰ পৰা নিৰ্মাণ কৰিব বিচাৰে):
  • ডাটাবেছ ডাম্পসমূহ ডাউনলোড কৰক
  • bird-interact-lite। আনজিপ কৰক আৰু ইয়াক env/postgre_table_dumps হিচাপে পুনৰ নামকৰণ কৰক।
  • bird-interact-full। আনজিপ কৰক আৰু ইয়াক env/postgre_table_dumps_full হিচাপে পুনৰ নামকৰণ কৰক।
  • docker-compose.build.yml চলাই নিজে নিজে পৰিবেশটো নিৰ্মাণ কৰক।
`bash cd env/ docker compose -f docker-compose.build.yml build docker compose -f docker-compose.build.yml up -d `

  • (সুপারিশকৃত) পৰীক্ষা কৰক যে ডেটাবেছ কণ্টেইনাৰসমূহ সফলভাৱে নিৰ্মাণ আৰু চলি আছে।
  • কণ্টেইনাৰৰ নিৰ্মাণ লগসমূহ মুদ্ৰণ কৰক যাতে নিশ্চিত কৰিব পৰা যায় যে ডেটাবেছসমূহ কোনো ত্ৰুটি নোহোৱাকৈ সফলভাৱে নিৰ্মাণ হৈছে:
`bash docker logs bird_interact_postgresql > build_bird_interact_postgresql.log 2>&1 docker logs bird_interact_postgresql_full > build_bird_interact_postgresql_full.log 2>&1 ` যদি ত্ৰুটি দেখা দেয়, "Errors occurred during import:" লগ ফাইলত ছাপ হ'ব।

  • পৰীক্ষা কৰক যে ডেটাবেচ কন্টেইনাৰসমূহ সুস্থ অৱস্থাত আছে নে নাই।
ডেটাবেচ মেটাডাটা যাচাই কৰিবলৈ আমাৰ প্ৰদান কৰা Python স্ক্ৰিপ্ট ব্যৱহাৰ কৰক:
`bash docker compose exec bird_interact_eval bash cd /app/env python check_db_metadata.py --host bird_interact_postgresql python check_db_metadata.py --host bird_interact_postgresql_full ` আশা কৰা ফলাফল:
  • bird-interact-lite:
  • 📈 মুঠ ডেটাবেছ: ১৮
  • 📋 মুঠ টেবুল: ১৭৫
  • 🔢 মুঠ কলাম: ২২৮৬
  • 📈 প্ৰতি টেবুলত গড় শাৰীৰ সংখ্যা: ১,০৩৮.৪৮
  • 💾 মুঠ আকাৰ: ২০৭.১৫ এম.বি. (প্ৰায়)
  • bird-interact-full:
  • 📈 মুঠ ডেটাবেছ: ২২
  • 📋 মুঠ টেবুল: ২৪৪
  • 🔢 মুঠ কলাম: ২০১১
  • 📈 প্ৰতি টেবুলত গড় শাৰীৰ সংখ্যা: ১,১২১.১৯
  • 💾 মুঠ আকাৰ: ২৭২.০০ এম.বি. (প্ৰায়)

📦 ডেটাসেটৰ বিৱৰণ

ডেটাসেটৰ বৰ্ণনা

  • ডেটাবেছ: সম্পূৰ্ণ PostgreSQL ডেটাবেছ bird-interact-lite আৰু bird-interact-fullৰ পৰা ডাউনলোড কৰিব পাৰি।
  • data: প্ৰতিটো ডেটা ইনষ্টেন্সত তলত উল্লেখ কৰা মূল অংশসমূহ থাকে:
  • selected_database: ডেটাবেছৰ নাম।
  • query: স্পষ্ট ইউজাৰ কুয়েৰি।
  • amb_user_query: অস্পষ্টতা সংযোগ কৰা ইউজাৰ কুয়েৰি।
  • user_query_ambiguity: ইউজাৰ কুয়েৰিত সংযোগ কৰা অস্পষ্টতাসমূহ।
  • non_critical_ambiguity: অ-গুরুত্বপূর্ণ অস্পষ্টতা যেনে order, limit, আদি।
  • knowledge_ambiguity: বাহ্যিক জ্ঞান আৱৃত কৰা অস্পষ্টতা।
  • sol_sql: মূল SQL সমাধান।
  • preprocess_sql: সমাধান বা পূৰ্বানুমান চলোৱাৰ আগতে চলাবলগীয়া SQL কুয়েৰি।
  • clean_up_sql: পৰীক্ষাৰ পিছত ডেটাবেছৰ কোনো পৰিবর্তন উলটাবলগীয়া SQL কুয়েৰি।
  • test_cases: পূৰ্বানুমান সংশোধিত SQL যাচাই কৰিবলৈ পৰীক্ষা কেচসমূহ।
  • follow_up: লেবেল কৰা অনুগামী প্ৰশ্নসমূহ।
  • external_knowledge: নিৰ্দিষ্ট কামৰ সৈতে সম্পৰ্কিত বাহ্যিক জ্ঞান।
  • evaluation: মূল্যায়ন ক’ড ./evaluation ডিৰেক্টৰিত উপলব্ধ।
  • Curated by: BIRD Team & Google Cloud
  • License: cc-by-sa-4.0
  • HuggingFace ডেটাসেট কাৰ্ড: bird-interact-lite
আৰু bird-interact-full PostgreSQLৰ বাবে; আৰু mini-interact SQLiteৰ বাবে।

ডেটাসেট ব্যৱহাৰ

ডাটা স্বয়ংক্ৰিয়ভাৱে সংগ্ৰহ কৰাৰ ফলত ডাটা লিকেজ ৰোধ কৰিবলৈ, আমি GT সমাধান sql আৰু পৰীক্ষা কেছসমূহ ডাটাৰ সৈতে সংলগ্ন কৰা নাই। অনুগ্ৰহ কৰি bird.bench25@gmail.com ইমেইল কৰক, আৰু বিষয়ত [bird-interact-lite GT&Test Cases] অথবা [bird-interact-full GT&Test Cases] টেগ ব্যৱহাৰ কৰক, যাতে bird-interact-lite বা bird-interact-full ডেটাসেটৰ বাবে ground truth আৰু test cases স্বয়ংক্ৰিয়ভাৱে প্ৰেৰণ কৰা হ’ব।

ৰাজহুৱা ডেটা আৰু ground truth আৰু test cases সংলগ্ন কৰক

তাৰ পিছত তলত দিয়া স্ক্ৰিপ্ট ব্যৱহাৰ কৰি ৰাজহুৱা ডেটা, ground truth আৰু test cases সংলগ্ন কৰক:

সম্পূৰ্ণ সংস্কৰণৰ উদাহৰণ হিচাপে ধৰা হ’ল: (1) চলাও:

bash python combine_public_with_gt.py /path/to/bird-interact-full/bird_interact_data.jsonl /path/to/bird_interact_full_gt_kg_testcases_08022.jsonl /path/to/bird_interact_data.jsonl # bird_interact_full_gt_kg_testcases_08022.jsonl is the data of ground-truth fields, which is obtained by emailing us.
এইটো /path/to/bird_interact_data.jsonl-ত সংযুক্ত তথ্যৰ সৈতে এটা নতুন ফাইল সৃষ্টি কৰিব। 

(2) তাৰপিছত মূল পাব্লিক তথ্যটো সংযুক্ত তথ্যৰ সৈতে প্ৰতিস্থাপন কৰক:

bash cp /path/to/bird_interact_data.jsonl /path/to/bird-interact-full/bird_interact_data.jsonl

অন্যান্য সংস্কৰণসমূহৰ ক্ষেত্ৰতো একেই: bird-interact-lite, mini version, আদি। কেৱল public data আৰু ground truth আৰু test cases-ৰ বাবে সঠিক path নিৰ্ধাৰণ কৰক, আৰু তাৰ পিছত public data-টো combined data-ৰে পৰিৱৰ্তন কৰক।