Web Analytics

BIRD-Interact

⭐ 453 stars Turkish by bird-bench

🌐 Dil

BIRD-INTERACT 1.0 HKU Logo Google Cloud Logo

Lisans Lider Tablosu HuggingFace Python OpenAI

⚠️ Duyuru

Lütfen değerlendirme sürecinizden önce, Docker veritabanlarını yüklerken ortam tutarsızlığı nedeniyle zaman zaman hatalar oluşabileceğini unutmayın (bu hatalar işlemi durdurmaz, ancak Docker günlüklerinde görünecektir). Sonuç olarak, bazı veritabanları düzgün yüklenemeyebilir ve boş veritabanları oluşabilir. Bu da değerlendirme sonuçlarının anormal derecede düşük olmasına sebep olur. 👉 Bu nedenle, değerlendirme çalıştırılmadan önce Docker günlüklerinde herhangi bir hata olup olmadığını kontrol etmenizi ve tüm veritabanlarının başarıyla yüklendiğini doğrulamanızı şiddetle tavsiye ederiz.

👉 Özelleştirilmiş ajan iskeletlerinin desteklendiği Başvuru Yönergeleri güncellendi. Detaylı başvuru yönergelerimize buradan göz atabilirsiniz.

📰 Haberler

Etkileşimli metinden-SQL'e kıyaslama çalışmamızın tüm detaylarını, metodolojisini ve değerlendirmesini sunuyor. 👉 BIRD-Interact fikrinin arkasındaki detayları öğrenmek için inceleyebilirsiniz.

Bu zorlu bir set — en iyi LLM'ler yalnızca %16,33 başarı oranına ulaşabiliyor; c-interact ve a-interact bölümlerinde ise sadece %10,0. 👉 Daha fazla bilgi için proje web sitemizi ziyaret edebilirsiniz.

Erken erişim isterseniz, sitede belirtilen şekilde e-posta göndererek otomatik indirme talep edebilirsiniz.

Tam LiveSQLBench-Base ve -Large sürümleri yakında geliyor!

🧸 Genel Bakış

BIRD-INTERACT, etkileşimli bir text-to-SQL benchmark’ı olarak, Text-to-SQL değerlendirmesini dinamik etkileşimler bakış açısıyla yeniden kurgular. Ortam, hiyerarşik bilgi tabanı, veritabanı dokümantasyonu ve fonksiyon odaklı kullanıcı simülatörünü harmanlayarak, tam CRUD işlemlerini kapsayan gerçekçi kurumsal ortamlar sunar. İki zorlu test modu sunar: (1) pasif Konuşma Etkileşimi ve (2) aktif Ajanik Etkileşim, her biri çalıştırılabilir test vakaları ile korunan, İş Zekası (BI), CRUD işlemleri ve benzeri 600 açıklamalı görevi kapsar. Tipik değerlendirmeler, model ile kullanıcı simülatörü arasında 1.968-5.496 etkileşim turu tetiklerken, son teknoloji akıl yürütme modelleri şu anda yalnızca ≈%24 ve ≈%18 oranında görev çözebiliyor; bu da benchmark’ın zorluğunu gösteriyor.

✅ İki Değerlendirme Modu

BIRD-INTERACT, yukarıda belirtilen iki değerlendirme modunu destekler:

🐣 Lite Sürüm

BIRD-INTERACT'ın lite sürümü olan bird-interact-lite-expi yayımlıyoruz; bu sürüm özellikle PostgreSQL için 270 yüksek kaliteli gerçek dünya görevi içerir. Hızlı denemeler için iyi bir başlangıç noktasıdır.

🦜 Tam Sürüm

BIRD-INTERACT'ın tam sürümü olan bird-interact-full, PostgreSQL için 600 görevi içeren kapsamlı bir benchmarktır. Geniş bir SQL işlemleri ve kullanıcı sorguları yelpazesini kapsar. Tam sürüm yakında çıkacak.

BIRD-INTERACT-FULL Üzerinde Model Performans Sonuçları

#### 1. c-Interact Text-to-SQL Performansı | Sıra | Model Adı | Normalize Ödül | Ort. Maliyet (USD)/Görev | Seviye | |:----:|:-------------------|:------------------:|:------------------------:|:-------------------:| | 1 | Gemini-2.5-Pro | 20.92 | $0.04 | 🏆 Mükemmel Sohbet | | 2 | O3-Mini | 20.27 | $0.07 | 🏆 Mükemmel Sohbet | | 3 | Claude-Sonnet-4 | 18.35 | $0.29 | 💎 İyi Sohbet | | 4 | Qwen-3-Coder-480B | 17.75 | $0.11 | 💎 İyi Sohbet | | 5 | Deepseek-Chat-V3.1 | 15.15 | $0.12 | ✨ Standart | | 6 | Claude-Sonnet-3.7 | 13.87 | $0.29 | ✨ Standart | | 7 | GPT-5 | 12.58 | $0.08 | ⚪ Temel |

#### 2. a-Interact Metinden-SQL'e Performansı | Sıra | Model Adı | Normalize Ödül | Ort. Maliyet (USD)/Görev | Seviye | |:----:|:-------------------:|:-----------------:|:-----------------------:|:-----------------------:| | 1 | GPT-5 | 25.52 | $0.24 | 🏆 Mükemmel Etkileşim | | 2 | Claude-Sonnet-4 | 23.28 | $0.51 | 🏆 Mükemmel Etkileşim | | 3 | Claude-Sonnet-3.7 | 17.45 | $0.60 | 💎 İyi Etkileşim | | 4 | Gemini-2.5-Pro | 17.33 | $0.22 | 💎 İyi Etkileşim | | 5 | O3-Mini | 16.43 | $0.06 | ✨ Standart | | 6 | Deepseek-Chat-V3.1 | 13.47 | $0.06 | ✨ Standart | | 7 | Qwen-3-Coder-480B | 10.58 | $0.07 | ⚪ Temel |

\ Bütçe Parametreleri: Başlangıç Bütçesi/Kullanıcı Sabır Bütçesi, sanal para birimimiz bird-coin* ile ölçülmüştür . Daha fazla bilgi için bird_interact_agent/README.md dosyasına bakabilirsiniz.

Etkileşim-Zamanı Ölçeklendirme (ITS)

Etkileşim-Zamanı Ölçeklendirme (ITS), bir modelin çoklu dönüşlü etkileşimlerle nihai performansını sürekli olarak artırma yeteneğini ifade eder. Bu etkileşimli performans, modelin tam olarak belirtilmiş, belirsizliği olmayan tek dönüşlü ideal performansını aştığında, modelin ITS yasasını sağladığını söyleriz. Kullanıcı sabrı arttıkça ve etkileşim sayısı biriktikçe, performans sürekli iyileşir ve modelin uzun diyaloglarda etkili iletişimi sürdürebildiğini gösterir. Şu anda sadece claude-3-7-sonnet ITS yasasını sağlamaktadır.

Ortam Kurulumu

> Sadece bird-interact-lite üzerinde değerlendirme yapmak istiyorsanız, ortam kurulumunu hızlandırmak için postgresql_full servisini docker-compose.yml dosyasında yorum satırı yapabilirsiniz. Ortamı başlatmak için şunu çalıştırın:
   cd env
   docker compose pull 
   docker compose up -d
   ``
   Veritabanı başlatılması için birkaç dakika bekleyin.
   
  Oluşturma ilerlemesini aşağıdaki şekilde takip edebilirsiniz:
  `bash
  docker compose logs -f --tail=100 bird_interact_postgresql_full # or bird_interact_postgresql for bird-interact-lite
  `
  Eğer tamamlandıysa, hatasız olarak günlükleri görmelisiniz:

`bash bird_interact_postgresql_full | 2025-10-28 17:58:30.413 HKT [1] LOG: database system is ready to accept connection `

Eğer daha önce konteynerler oluşturduysanız ve yeniden oluşturmak istiyorsanız, aşağıdaki komutu çalıştırabilirsiniz: `bash docker compose down -v # this cmd removes the containers and the volumes docker compose pull # pull the latest images from Docker Hub docker compose up -d --force-recreate # build and start the containers again. --force-recreate means force the recreation of the containers. # Or docker compose up -d --force-recreate bird_interact_eval to only recreate the bird_interact_eval container about evalution code environment. ` Bu, Docker Hub'dan önceden oluşturulmuş imajları kullanarak 3 konteyner çalıştırır:

  • bird_interact_postgresql: bird-interact-lite için PostgreSQL veritabanı
  • bird_interact_postgresql_full: bird-interact-full için PostgreSQL veritabanı
  • bird_interact_eval: Hem a-Interact hem de c-Interact için değerlendirme ortamı.
Şimdi, değerlendirme ortamını aşağıdaki komutu çalıştırarak başlatabilirsiniz: `bash docker compose exec bird_interact_eval bash `

  • (İsteğe bağlı) Ortamı manuel olarak oluşturun (görüntüleri sıfırdan oluşturmak isterseniz):
  • Veritabanı dökümlerini indirin
  • bird-interact-lite. Sıkıştırmayı açın ve env/postgre_table_dumps olarak yeniden adlandırın.
  • bird-interact-full. Sıkıştırmayı açın ve env/postgre_table_dumps_full olarak yeniden adlandırın.
  • docker-compose.build.yml dosyasını çalıştırarak ortamı manuel olarak oluşturun.
`bash cd env/ docker compose -f docker-compose.build.yml build docker compose -f docker-compose.build.yml up -d `

  • (Önerilen) Veritabanı konteynerlerinin başarılı bir şekilde oluşturulup çalıştığını kontrol edin.
  • Veritabanlarının hatasız bir şekilde başarıyla oluşturulduğundan emin olmak için konteyner oluşturma günlüklerini yazdırın:
`bash docker logs bird_interact_postgresql > build_bird_interact_postgresql.log 2>&1 docker logs bird_interact_postgresql_full > build_bird_interact_postgresql_full.log 2>&1 ` Hatalar oluşursa, "İçe aktarma sırasında hatalar oluştu:" günlük dosyalarında yazdırılacaktır.

  • Veritabanı konteynerlerinin düzgün durumda olup olmadığını kontrol edin.
Veritabanı metadatasını doğrulamak için sağladığımız Python betiğini kullanın:
`bash docker compose exec bird_interact_eval bash cd /app/env python check_db_metadata.py --host bird_interact_postgresql python check_db_metadata.py --host bird_interact_postgresql_full ` Beklenen sonuçlar:
  • bird-interact-lite:
  • 📈 Toplam Veritabanı: 18
  • 📋 Toplam Tablo: 175
  • 🔢 Toplam Sütun: 2286
  • 📈 Tablo Başına Ortalama Satır: 1.038,48
  • 💾 Toplam Boyut: 207,15 MB (yaklaşık)
  • bird-interact-full:
  • 📈 Toplam Veritabanı: 22
  • 📋 Toplam Tablo: 244
  • 🔢 Toplam Sütun: 2011
  • 📈 Tablo Başına Ortalama Satır: 1.121,19
  • 💾 Toplam Boyut: 272,00 MB (yaklaşık)

📦 Veri Kümesi Detayları

Veri Kümesi Açıklaması

  • Veritabanı: Tam PostgreSQL veritabanı bird-interact-lite ve bird-interact-full adreslerinden indirilebilir.
  • data: Her veri örneği aşağıdaki ana bölümleri içerir:
  • selected_database: Veritabanının adı.
  • query: Açık ve kesin kullanıcı sorgusu.
  • amb_user_query: Belirsizlikler eklenmiş kullanıcı sorgusu.
  • user_query_ambiguity: Kullanıcı sorgusuna enjekte edilen belirsizlikler.
  • non_critical_ambiguity: Sıralama, limit vb. kritik olmayan belirsizlikler.
  • knowledge_ambiguity: Maskelenmiş dış bilgilerle oluşturulan belirsizlikler.
  • sol_sql: Gerçek SQL çözümü.
  • preprocess_sql: Çözüm veya tahmin çalıştırılmadan önce çalıştırılacak SQL sorguları.
  • clean_up_sql: Test vakalarından sonra veritabanında yapılan değişiklikleri geri almak için çalıştırılacak SQL sorguları.
  • test_cases: Tahmin edilen düzeltilmiş SQL'i doğrulamak için bir test vakası seti.
  • follow_up: Etiketlenmiş takip soruları.
  • external_knowledge: Belirli görevle ilgili dış bilgi.
  • evaluation: Değerlendirme kodu ./evaluation dizininde mevcuttur.
  • Hazırlayan: BIRD Ekibi & Google Cloud
  • Lisans: cc-by-sa-4.0
  • HuggingFace Veri Kümesi Kartı: bird-interact-lite
ve bird-interact-full

Veri Kümesi Kullanımları

Otomatik taramayla veri sızıntısını önlemek için GT çözüm sql'leri ve test vakalarını veriyle birlikte dahil etmiyoruz. Lütfen bird-interact-lite veya bird-interact-full veri kümesi için gerçek veri ve test vakalarını almak üzere başlıkta [bird-interact-lite GT&Test Cases] veya [bird-interact-full GT&Test Cases] etiketiyle bird.bench25@gmail.com adresine e-posta gönderin, bilgiler otomatik olarak iletilecektir.

Genel verileri gerçek veri ve test vakaları ile birleştirme

Ardından genel verileri gerçek veri ve test vakaları ile birleştirmek için aşağıdaki betiği kullanın:

Tam sürümü örnek olarak alırsak: (1) Çalıştırın:

bash python combine_public_with_gt.py /path/to/bird-interact-full/bird_interact_data.jsonl /path/to/bird_interact_full_gt_kg_testcases_08022.jsonl /path/to/bird_interact_data.jsonl # bird_interact_full_gt_kg_testcases_08022.jsonl is the data of ground-truth fields, which is obtained by emailing us.
Bu, birleşik veriyle birlikte /path/to/bird_interact_data.jsonl konumunda yeni bir dosya oluşturacaktır.

(2) Ardından, orijinal halka açık veriyi birleşik veriyle değiştirin:

bash cp /path/to/bird_interact_data.jsonl /path/to/bird-interact-full/bird_interact_data.jsonl

Diğer sürümler için de aynı: bird-interact-lite, mini versiyonu, vb. Sadece ortak veri, gerçek veri ve test vakaları için doğru yolları ayarlayın ve ardından ortak veriyi birleştirilmiş veri ile değiştirin.