BIRD-INTERACT 1.0

⚠️ Duyuru
Lütfen değerlendirme sürecinizden önce, Docker veritabanlarını yüklerken, ortam tutarsızlığı nedeniyle zaman zaman hatalar oluşabileceğini unutmayın (bunlar süreci sonlandırmaz ancak Docker günlüklerinde görünecektir). Sonuç olarak, bazı veritabanları düzgün şekilde yüklenemeyebilir ve boş veritabanlarına yol açabilir. Bu da değerlendirme sonuçlarının anormal derecede düşük olmasına neden olur. 👉 Bu nedenle, değerlendirmeyi çalıştırmadan önce Docker günlüklerinde herhangi bir hata olup olmadığını kontrol etmenizi ve tüm veritabanlarının başarıyla yüklendiğinden emin olmanızı şiddetle tavsiye ederiz.👉 Gönderim Yönergeleri güncellendi ve artık özelleştirilmiş ajan iskeletleri desteklenmektedir. Lütfen ayrıntılı gönderim yönergelerimize buradan göz atabilirsiniz.
📰 Haberler
- [2026-03-29] 🔥🔥🔥 BIRD-Interact-ADK: BIRD-Interact-ADK sürümünü yayınladık. Google ADK tabanlı, modüler 3-mikroservis (ajan, kullanıcı simülatörü ve DB ortamı) mimarisiyle gelir. Kendi ajanınızı, kullanıcı simülatörünüzü veya veritabanı ortamınızı kolayca entegre edin. Paralel çalıştırma ve herhangi bir LiteLlm-uyumlu LLM sağlayıcı desteği sunar. Araştırmalarınızda bu uygulamayı kullanmanızı öneririz.
- [2026-02-08] 🔥🔥🔥 Bird-Interact makalemiz ICLR 2026 (Sözlü)'de kabul edildi! Rio'da görüşmek üzere 🇧🇷!
- [2025-11-06] 🐛 Hata Düzeltmesi & 🐳 Docker güncellemesi: Kullanıcı simülatörü için SQL'i doğru şekilde ayrıştıramayan sqlglot hatasını gidermek üzere sqlglot sürümü 26.16.4'e güncellendi. Bunu
bird_interact_evalortamındapip install sqlglot==26.16.4ile yeniden kurarak çözebilirsiniz.bird_interact_evalimajı da güncellendi; yeni imajı çekipbird_interact_evalkonteynerini yeniden oluşturabilirsiniz. - [2025-10-21] 🐳 Docker güncellemesi: Full DB Env için docker eklendi. 3 docker imajı (Base/Full DB Env ve hem
a-Interacthem dec-Interactiçin değerlendirme ortamı) Docker Hub'a yüklendi, böylece ortam kurulumunuz kolaylaşıyor. DB dump'larını indirip imajları manuel olarak oluşturmanıza gerek yok! - [2025-10-08] 📝 Bird-Interact makalemiz artık herkese açık!
- [2025-08-26] 🚀 BIRD-Interact-Full (600) setinin yayınlandığını duyurmaktan heyecan duyuyoruz!
c-interact ve a-interact bölümlerinde ise yalnızca %10,0 başarı mevcut.
👉 Daha fazla detay için lütfen proje web sitemizi ziyaret edin.- [2025-08-26] 📬 Bu hafta Gerçek Doğrular & Test vakalarını posta listemize göndereceğiz.
- [2025-08-26] 💾 Ayrıca, yerel araştırmalar için daha kolay olması adına LiveSQLBench-Lite’ın SQLite versiyonunu yayınladık.
- [2025-08-22] Hata Düzeltmesi: Bird-Interact-Agent kodunda, faz-2 SQL değerlendirilirken, depolanan faz-1 SQL'in başarıyla çalıştırılamamasına ve Faz-2'nin başarı oranının düşmesine neden olan bir hata düzeltildi. Bu hata yalnızca faz1 sql'in veritabanında bazı işlemler yaptığı (örn. CREATE table) görevleri etkiler.
🧸 Genel Bakış
BIRD-INTERACT, interaktif bir metinden-SQL'e kıyaslama seti olup, Metinden-SQL değerlendirmesini dinamik etkileşimler merceğinden yeniden tasarlar. Ortam, hiyerarşik bir bilgi tabanı, veritabanı dokümantasyonu ve işlev odaklı bir kullanıcı simülatörü harmanlayarak, eksiksiz CRUD işlemlerini kapsayan otantik kurumsal ortamları yeniden oluşturur. İki titiz test modu sunar: (1) pasif Konuşma Etkileşimi ve (2) aktif Ajan Etkileşimi; 600 etiketli görevi kapsar (İş Zekası (BI), CRUD işlemleri ve benzeri), her biri çalıştırılabilir test vakalarıyla korunur. Tipik değerlendirmeler model ve kullanıcı simülatörü arasında 1.968-5.496 etkileşim dönüşünü tetiklerken, son teknoloji akıl yürütme modelleri şu anda yalnızca ≈%24 ve ≈%18 görevi çözebiliyor, bu da kıyaslama setinin zorluğunu vurguluyor.
✅ İki Değerlendirme Modu
BIRD-INTERACT yukarıda bahsedilen iki değerlendirme modunu destekler:
- c-Interact: Konuşma Etkileşimi, pasif bir moddur ve iş akışı sabittir. Kod ve detaylı bilgi
bird_interact_conviçindedir. - a-Interact: Ajan Etkileşimi, iş akışının dinamik ve modeller tarafından yönlendirildiği somut aktif bir moddur. Kod ve detaylı bilgi
bird_interact_agentiçindedir.
🐣 Lite Versiyon
BIRD-INTERACT'ın hafif sürümü olan bird-interact-lite-exp, özellikle PostgreSQL için 270 yüksek kaliteli gerçek dünya görevini içerir. Hızlı denemeler için iyi bir başlangıç noktasıdır.
🦜 Tam Versiyon
BIRD-INTERACT'ın tam sürümü olan bird-interact-full, PostgreSQL için 600 görevi içeren kapsamlı bir kıyaslama setidir. Geniş bir SQL işlemi ve kullanıcı sorgusu yelpazesini kapsar. Tam sürüm çok yakında geliyor.
BIRD-INTERACT-FULL Üzerinde Model Performans Sonuçları
#### 1. c-Interact Metinden-SQL'e Performansı | Sıra | Model Adı | Normalize Ödül | Ortalama Maliyet (USD)/Görev | Seviye | |:----:|:-------------------|:-----------------:|:----------------------------:|:--------------------:| | 1 | Gemini-2.5-Pro | 20.92 | $0.04 | 🏆 Mükemmel Sohbet | | 2 | O3-Mini | 20.27 | $0.07 | 🏆 Mükemmel Sohbet | | 3 | Claude-Sonnet-4 | 18.35 | $0.29 | 💎 İyi Sohbet | | 4 | Qwen-3-Coder-480B | 17.75 | $0.11 | 💎 İyi Sohbet | | 5 | Deepseek-Chat-V3.1 | 15.15 | $0.12 | ✨ Standart | | 6 | Claude-Sonnet-3.7 | 13.87 | $0.29 | ✨ Standart | | 7 | GPT-5 | 12.58 | $0.08 | ⚪ Temel |
#### 2. a-Interact Metinden-SQL'e Performansı | Sıra | Model Adı | Normalize Ödül | Ortalama Maliyet (USD)/Görev | Seviye | |:----:|:-------------------|:-----------------:|:----------------------------:|:--------------------------:| | 1 | GPT-5 | 25.52 | $0.24 | 🏆 Mükemmel Etkileşim | | 2 | Claude-Sonnet-4 | 23.28 | $0.51 | 🏆 Mükemmel Etkileşim | | 3 | Claude-Sonnet-3.7 | 17.45 | $0.60 | 💎 İyi Etkileşim | | 4 | Gemini-2.5-Pro | 17.33 | $0.22 | 💎 İyi Etkileşim | | 5 | O3-Mini | 16.43 | $0.06 | ✨ Standart | | 6 | Deepseek-Chat-V3.1 | 13.47 | $0.06 | ✨ Standart | | 7 | Qwen-3-Coder-480B | 10.58 | $0.07 | ⚪ Temel |
\ Bütçe Parametreleri: Başlangıç Bütçesi/Kullanıcı Sabır Bütçesi, sanal para birimimiz bird-coin*sile ölçülür. Daha fazla bilgi için bird_interact_agent/README.md dosyasına bakınız.
Etkileşim-Zaman Ölçekleme (ITS)
Etkileşim-Zaman Ölçekleme (ITS), bir modelin çoklu tur etkileşimler yoluyla nihai performansını sürekli artırma yeteneğini ifade eder. Bu etkileşimli performans, modelin tam olarak belirtilmiş, belirsizliği olmayan bir görevdeki ideal tek tur performansını aştığında, modelin ITS yasasını sağladığını söyleriz. Kullanıcı sabrı arttıkça ve etkileşim turları biriktikçe, performans gelişmeye devam eder; bu da modelin uzun süreli diyaloglarda etkili iletişimi sürdürebildiğini gösterir. Şu anda yalnızca claude-3-7-sonnet modelinin ITS yasasını sağladığını gözlemliyoruz.
Ortam Kurulumu
- bird-interact-lite veritabanı, bird-interact-full veritabanı ve değerlendirme ortamı için Docker konteynerlerini çalıştırın:
bird-interact-lite üzerinde değerlendirme yapmak istiyorsanız, ortamı daha hızlı kurmak için docker-compose.yml dosyasındaki postgresql_full servisini yorum satırı haline getirebilirsiniz.
Ortamı başlatmak için şu komutu çalıştırın:
cd env
docker compose pull
docker compose up -d
``
Veritabanı başlatılması için birkaç dakika bekleyin.
Oluşturma ilerlemesini aşağıdaki şekilde takip edebilirsiniz:
`bash
docker compose logs -f --tail=100 bird_interact_postgresql_full # or bird_interact_postgresql for bird-interact-lite
`
Eğer tamamlandıysa, hatasız olarak günlükleri görmelisiniz:
`bash
bird_interact_postgresql_full | 2025-10-28 17:58:30.413 HKT [1] LOG: database system is ready to accept connection
` Eğer daha önce konteynerler oluşturduysanız ve yeniden oluşturmak istiyorsanız, aşağıdaki komutu çalıştırabilirsiniz:
`bash
docker compose down -v # this cmd removes the containers and the volumes
docker compose pull # pull the latest images from Docker Hub
docker compose up -d --force-recreate # build and start the containers again. --force-recreate means force the recreation of the containers.
# Or docker compose up -d --force-recreate bird_interact_eval to only recreate the bird_interact_eval container about evalution code environment.
`
Bu, Docker Hub'dan önceden oluşturulmuş imajları kullanarak 3 konteyner çalıştırır:
bird_interact_postgresql: bird-interact-lite için PostgreSQL veritabanı
bird_interact_postgresql_full: bird-interact-full için PostgreSQL veritabanı
bird_interact_eval: Hem a-Interact hem de c-Interact için değerlendirme ortamı. Şimdi, değerlendirme ortamını aşağıdaki komutu çalıştırarak başlatabilirsiniz:
`bash
docker compose exec bird_interact_eval bash
`- (İsteğe bağlı) Ortamı manuel olarak oluşturun (görüntüleri sıfırdan oluşturmak isterseniz):
- Veritabanı dökümlerini indirin
- bird-interact-lite. Sıkıştırmayı açın ve
env/postgre_table_dumps olarak yeniden adlandırın.
bird-interact-full. Sıkıştırmayı açın ve env/postgre_table_dumps_full olarak yeniden adlandırın.
docker-compose.build.yml dosyasını çalıştırarak ortamı manuel olarak oluşturun.
`bash
cd env/
docker compose -f docker-compose.build.yml build
docker compose -f docker-compose.build.yml up -d
`- (Önerilen) Veritabanı konteynerlerinin başarılı bir şekilde oluşturulup çalıştığını kontrol edin.
- Veritabanlarının hatasız bir şekilde başarıyla oluşturulduğundan emin olmak için konteyner oluşturma günlüklerini yazdırın:
`bash
docker logs bird_interact_postgresql > build_bird_interact_postgresql.log 2>&1
docker logs bird_interact_postgresql_full > build_bird_interact_postgresql_full.log 2>&1
`
Hatalar oluşursa, "İçe aktarma sırasında hatalar oluştu:" günlük dosyalarında yazdırılacaktır.- Veritabanı konteynerlerinin düzgün durumda olup olmadığını kontrol edin.
Veritabanı metadatasını doğrulamak için sağladığımız Python betiğini kullanın:
`bash
docker compose exec bird_interact_eval bash
cd /app/env
python check_db_metadata.py --host bird_interact_postgresql
python check_db_metadata.py --host bird_interact_postgresql_full
`
Beklenen sonuçlar:
- bird-interact-lite:
- 📈 Toplam Veritabanı: 18
- 📋 Toplam Tablo: 175
- 🔢 Toplam Sütun: 2286
- 📈 Tablo Başına Ortalama Satır: 1.038,48
- 💾 Toplam Boyut: 207,15 MB (yaklaşık)
- bird-interact-full:
- 📈 Toplam Veritabanı: 22
- 📋 Toplam Tablo: 244
- 🔢 Toplam Sütun: 2011
- 📈 Tablo Başına Ortalama Satır: 1.121,19
- 💾 Toplam Boyut: 272,00 MB (yaklaşık)
📦 Veri Kümesi Detayları
Veri Kümesi Açıklaması
- Veritabanı: Tam PostgreSQL veritabanı bird-interact-lite ve bird-interact-full adreslerinden indirilebilir.
- veri: Her veri örneği aşağıdaki ana bölümleri içerir:
selected_database: Veritabanının adı.
query: Belirgin kullanıcı sorgusu.
amb_user_query: Belirsizlik eklenmiş kullanıcı sorgusu.
user_query_ambiguity: Kullanıcı sorgusuna eklenen belirsizlikler.
non_critical_ambiguity: Sıra, limit gibi kritik olmayan belirsizlikler.
knowledge_ambiguity: Maskelenmiş harici bilgilerden kaynaklanan belirsizlikler.
sol_sql: Doğru SQL çözümü.
preprocess_sql: Çözüm veya tahminden önce çalıştırılacak SQL sorguları.
clean_up_sql: Testlerden sonra veritabanında yapılan değişiklikleri geri almak için çalıştırılacak SQL sorguları.
test_cases: Tahmin edilen düzeltilmiş SQL'i doğrulamak için test vakaları kümesi.
follow_up: Etiketli takip soruları.
external_knowledge: Özel görevle ilgili harici bilgiler.değerlendirme: Değerlendirme kodu ./evaluation dizininde mevcuttur.
Hazırlayanlar: BIRD Takımı & Google Cloud
Lisans: cc-by-sa-4.0
HuggingFace Veri Kümesi Kartı: PostgreSQL için bird-interact-lite
ve bird-interact-full; SQLite için mini-interact.
Veri Kümesi Kullanımları
Otomatik taramayla veri sızıntısını önlemek için GT çözüm sql'leri ve test vakalarını veriyle birlikte dahil etmiyoruz.
Lütfen bird-interact-lite veya bird-interact-full veri kümesi için gerçek veri ve test vakalarını almak üzere başlıkta
[bird-interact-lite GT&Test Cases] veya [bird-interact-full GT&Test Cases] etiketiyle bird.bench25@gmail.com adresine e-posta gönderin, bilgiler otomatik olarak iletilecektir.Genel verileri gerçek veri ve test vakaları ile birleştirme
Ardından genel verileri gerçek veri ve test vakaları ile birleştirmek için aşağıdaki betiği kullanın:
Tam sürümü örnek olarak alırsak:
(1) Çalıştırın:
bash
python combine_public_with_gt.py /path/to/bird-interact-full/bird_interact_data.jsonl /path/to/bird_interact_full_gt_kg_testcases_08022.jsonl /path/to/bird_interact_data.jsonl # bird_interact_full_gt_kg_testcases_08022.jsonl is the data of ground-truth fields, which is obtained by emailing us.
bash cp /path/to/bird_interact_data.jsonl /path/to/bird-interact-full/bird_interact_data.jsonlBu, birleşik veriyle birlikte/path/to/bird_interact_data.jsonlkonumunda yeni bir dosya oluşturacaktır.(2) Ardından, orijinal halka açık veriyi birleşik veriyle değiştirin:
Diğer sürümler için de aynı: bird-interact-lite, mini versiyonu, vb. Sadece ortak veri, gerçek veri ve test vakaları için doğru yolları ayarlayın ve ardından ortak veriyi birleştirilmiş veri ile değiştirin.
ile ölçülür. Daha fazla bilgi için