🌐 Dil

简体中文

繁體中文

BIRD-INTERACT 1.0

⚠️ Duyuru

Lütfen değerlendirme sürecinizden önce, Docker veritabanlarını yüklerken ortam tutarsızlığından dolayı bazen hatalar oluşabileceğini unutmayın (bu hatalar süreci sonlandırmaz ancak Docker loglarında görünebilir). Sonuç olarak, bazı veritabanları düzgün yüklenmeyebilir ve bu da boş veritabanlarına yol açabilir. Bu durum değerlendirme sonuçlarının anormal derecede düşük olmasına neden olur. 👉 Bu nedenle, değerlendirmeyi çalıştırmadan önce Docker loglarında herhangi bir hata olup olmadığını kontrol etmenizi ve tüm veritabanlarının başarıyla yüklendiğini doğrulamanızı önemle tavsiye ederiz.

👉 Başvuru Kılavuzları güncellendi, artık özelleştirilmiş ajan iskeletleri destekleniyor. Detaylı başvuru kılavuzumuzu buradan inceleyebilirsiniz.

📰 Haberler

[2026-02-08] 🔥🔥🔥 Bird-Interact makalemiz ICLR 2026 (Sözlü Sunum)'da kabul edildi! Rio'da görüşmek üzere 🇧🇷!

[2025-11-06] 🐛 Hata Düzeltmesi & 🐳 Docker güncellemesi: Kullanıcı simülatörü için SQL'i doğru şekilde ayrıştıramayan sql ayrıştırıcı hatasını düzeltmek için sqlglot sürümü 26.16.4'e güncellendi. bird_interact_eval ortamında pip install sqlglot==26.16.4 ile tekrar kurarak sorunu çözebilirsiniz. Ayrıca bird_interact_eval imajı da güncellendi; imajı çekip bird_interact_eval konteynerini yeniden oluşturabilirsiniz.

[2025-10-21] 🐳 Docker güncellemesi: Tam Veritabanı Ortamı için docker eklendi. Base/Tam DB Ortamı ve a-Interact ile c-Interact için değerlendirme ortamına ait 3 docker imajı Docker Hub'a yüklendi. Artık DB dökümlerini indirip imajları manuel oluşturmanıza gerek yok!

[2025-10-08] 📝 Bird-Interact makalemiz artık herkese açık!

Tüm detayları, yöntemi ve etkileşimli text-to-SQL benchmark değerlendirmesini sunmaktadır. 👉 BIRD-Interact arkasındaki fikirleri öğrenmek için inceleyin.

[2025-08-26] 🚀 BIRD-Interact-Full (600) setinin yayınlandığını duyurmaktan heyecan duyuyoruz!

Bu set oldukça zorlu — en iyi LLM'ler sadece %16,33 başarı oranına ulaşıyor ve c-interact ile a-interact bölümlerinde ise sadece %10,0 oranında başarılı oluyor. 👉 Daha fazla bilgi için proje web sitemizi ziyaret edin.

[2025-08-26] 📬 Gerçek Değer & Test vakalarını bu hafta posta listemize göndereceğiz.

Erken erişim istiyorsanız, sitede belirtildiği şekilde e-posta göndererek otomatik indirme yapabilirsiniz.

[2025-08-26] 💾 Ayrıca, yerel araştırmalar için daha kolay bir SQLite sürümü olan LiveSQLBench-Lite'ı yayınladık.

Tam LiveSQLBench-Base ve -Large sürümleri yakında geliyor!

[2025-08-22] Hata Düzeltmesi: Bird-Interact-Agent kodunda, faz-2 SQL değerlendirilirken, saklanan faz-1 SQL’in başarıyla çalıştırılamamasına neden olan ve Faz-2’nin başarı oranını düşüren bir hata düzeltildi. Bu hata sadece faz1 sql'in veritabanında CREATE table gibi bazı işlemler yaptığı görevleri etkiler.

🧸 Genel Bakış

BIRD-INTERACT, etkileşimli bir text-to-SQL kıyaslaması olarak, Text-to-SQL değerlendirmesini dinamik etkileşimler perspektifinden yeniden tasarlar. Ortam, hiyerarşik bir bilgi tabanı, veritabanı dokümantasyonu ve fonksiyon odaklı bir kullanıcı simülatörü ile, tam CRUD işlemlerini kapsayan gerçekçi kurumsal ortamlar oluşturur. İki titiz test modu sunar: (1) pasif Konuşmalı Etkileşim ve (2) aktif Ajan Etkileşimi, her biri çalıştırılabilir test vakaları ile korunan 600 açıklamalı görevi kapsar (İş Zekâsı (BI), CRUD işlemleri, vb.). Tipik değerlendirmeler, model ve kullanıcı simülatörü arasında 1.968-5.496 etkileşim turunu tetikler; son teknoloji çıkarım modelleri ise şu anda sadece ≈%24 ve ≈%18 görev çözebiliyor, bu da kıyaslamanın zorluğunu gösteriyor.

✅ İki Değerlendirme Modu

BIRD-INTERACT yukarıda bahsedilen iki değerlendirme modunu destekler:

c-Interact: Konuşmalı Etkileşim, pasif bir mod olup iş akışı sabittir. Kod ve detaylı bilgi bird_interact_conv içinde bulunabilir.
a-Interact: Ajan Etkileşimi, gömülü ve aktif bir mod olup iş akışı dinamik ve modellere bağlıdır. Kod ve detaylı bilgi bird_interact_agent içinde bulunabilir.

🐣 Hafif Sürüm

BIRD-INTERACT’in hafif sürümü olan bird-interact-lite-expi yayımlıyoruz; bu sürüm, özellikle PostgreSQL için hazırlanmış 270 yüksek kaliteli gerçek dünya görevini içeriyor. Hızlı denemeler için iyi bir başlangıç noktasıdır.

🦜 Tam Sürüm

BIRD-INTERACT’in tam sürümü olan bird-interact-full, PostgreSQL için 600 görevi kapsayan kapsamlı bir kıyaslamadır. Çok çeşitli SQL işlemleri ve kullanıcı sorgularını içerir. Tam sürüm yakında yayımlanacak.

BIRD-INTERACT-FULL’de Model Performans Sonuçları

#### 1. c-Interact Text-to-SQL Performansı | Sıra | Model Adı | Normalize Ödül | Ortalama Maliyet (USD)/Görev | Seviye | |:----:|:-------------------|:-----------------:|:-------------------:|:------------------:| | 1 | Gemini-2.5-Pro | 20.92 | $0.04 | 🏆 Mükemmel Sohbet | | 2 | O3-Mini | 20.27 | $0.07 | 🏆 Mükemmel Sohbet | | 3 | Claude-Sonnet-4 | 18.35 | $0.29 | 💎 İyi Sohbet | | 4 | Qwen-3-Coder-480B | 17.75 | $0.11 | 💎 İyi Sohbet | | 5 | Deepseek-Chat-V3.1 | 15.15 | $0.12 | ✨ Standart | | 6 | Claude-Sonnet-3.7 | 13.87 | $0.29 | ✨ Standart | | 7 | GPT-5 | 12.58 | $0.08 | ⚪ Temel |

#### 2. a-Interact Metinden-SQL'e Performansı | Rank | Model Adı | Normalize Ödül | Ortalama Maliyet (USD)/Görev | Seviye | |:----:|:-------------------|:-----------------:|:-------------------:|:------------------------:| | 1 | GPT-5 | 25.52 | $0.24 | 🏆 Mükemmel Etkileşim | | 2 | Claude-Sonnet-4 | 23.28 | $0.51 | 🏆 Mükemmel Etkileşim | | 3 | Claude-Sonnet-3.7 | 17.45 | $0.60 | 💎 İyi Etkileşim | | 4 | Gemini-2.5-Pro | 17.33 | $0.22 | 💎 İyi Etkileşim | | 5 | O3-Mini | 16.43 | $0.06 | ✨ Standart | | 6 | Deepseek-Chat-V3.1 | 13.47 | $0.06 | ✨ Standart | | 7 | Qwen-3-Coder-480B | 10.58 | $0.07 | ⚪ Temel |

\ Bütçe Parametreleri: Başlangıç Bütçesi/Kullanıcı Sabır Bütçesi, sanal para birimimiz bird-coin* ile ölçülür . Daha fazla bilgi için bird_interact_agent/README.md adresine başvurun.

Etkileşim-Zamanı Ölçeklendirmesi (ITS)

Etkileşim-Zamanı Ölçeklendirmesi (ITS), bir modelin çoklu dönüşlü etkileşimler yoluyla nihai performansını sürekli artırabilme yeteneğini ifade eder. Bu etkileşimli performans, modelin tamamen belirlenmiş, açık bir görevdeki ideal tek dönüşlü performansını aştığında, modelin ITS yasasını sağladığı söylenir. Kullanıcı sabrı arttıkça ve etkileşim sayısı biriktikçe performans yükselmeye devam eder; bu, modelin uzun süreli diyaloglarda etkin iletişimi sürdürebildiğini gösterir. Şu anda yalnızca claude-3-7-sonnet modelinin ITS yasasını sağladığını bulduk.

Ortam Kurulumu

bird-interact-lite veritabanı, bird-interact-full veritabanı ve değerlendirme ortamı için Docker konteynerlerini çalıştırın:

> Sadece bird-interact-lite üzerinde değerlendirme yapmak istiyorsanız, ortam kurulumunu hızlandırmak için docker-compose.yml dosyasındaki postgresql_full servisini yorum satırı haline getirebilirsiniz. Ortamı başlatmak için şunu çalıştırın:

   cd env
   docker compose pull 
   docker compose up -d
   ``
   Veritabanı başlatılması için birkaç dakika bekleyin.
   
  Oluşturma ilerlemesini aşağıdaki şekilde takip edebilirsiniz:
  `bash
  docker compose logs -f --tail=100 bird_interact_postgresql_full # or bird_interact_postgresql for bird-interact-lite
  `
  Eğer tamamlandıysa, hatasız olarak günlükleri görmelisiniz:  `bash
  bird_interact_postgresql_full  | 2025-10-28 17:58:30.413 HKT [1] LOG:  database system is ready to accept connection
  `
  Eğer daha önce konteynerler oluşturduysanız ve yeniden oluşturmak istiyorsanız, aşağıdaki komutu çalıştırabilirsiniz:
  `bash
  docker compose down -v # this cmd removes the containers and the volumes
  docker compose pull   # pull the latest images from Docker Hub
  docker compose up -d --force-recreate # build and start the containers again. --force-recreate means force the recreation of the containers. 
  # Or docker compose up -d --force-recreate bird_interact_eval to only recreate the bird_interact_eval container about evalution code environment.
  `
   
   Bu, Docker Hub'dan önceden oluşturulmuş imajları kullanarak 3 konteyner çalıştırır:
   
bird_interact_postgresql: bird-interact-lite için PostgreSQL veritabanı

   bird_interact_postgresql_full: bird-interact-full için PostgreSQL veritabanı

   bird_interact_eval: Hem a-Interact hem de c-Interact için değerlendirme ortamı.
   
Şimdi, değerlendirme ortamını aşağıdaki komutu çalıştırarak başlatabilirsiniz:
   `bash
   docker compose exec bird_interact_eval bash
   `(İsteğe bağlı) Ortamı manuel olarak oluşturun (görüntüleri sıfırdan oluşturmak isterseniz): 
   Veritabanı dökümlerini indirin 
      bird-interact-lite. Sıkıştırmayı açın ve env/postgre_table_dumps olarak yeniden adlandırın.

      bird-interact-full. Sıkıştırmayı açın ve env/postgre_table_dumps_full olarak yeniden adlandırın.

   docker-compose.build.yml dosyasını çalıştırarak ortamı manuel olarak oluşturun.

      
`bash
      cd env/
      docker compose -f docker-compose.build.yml build
      docker compose -f docker-compose.build.yml up -d
      `
(Önerilen) Veritabanı konteynerlerinin başarılı bir şekilde oluşturulup çalıştığını kontrol edin.
 Veritabanlarının hatasız bir şekilde başarıyla oluşturulduğundan emin olmak için konteyner oluşturma günlüklerini yazdırın:
   `bash 
   docker logs bird_interact_postgresql > build_bird_interact_postgresql.log 2>&1
   docker logs bird_interact_postgresql_full > build_bird_interact_postgresql_full.log 2>&1
   `
   Hatalar oluşursa, "İçe aktarma sırasında hatalar oluştu:" günlük dosyalarında yazdırılacaktır.
 Veritabanı konteynerlerinin düzgün durumda olup olmadığını kontrol edin.
   
   Veritabanı metadatasını doğrulamak için sağladığımız Python betiğini kullanın:
   `bash
   docker compose exec bird_interact_eval bash
   cd /app/env
   python check_db_metadata.py --host bird_interact_postgresql
   python check_db_metadata.py --host bird_interact_postgresql_full
   `
   
   Beklenen sonuçlar:
   bird-interact-lite: 
     📈 Toplam Veritabanı: 18
     📋 Toplam Tablo: 175
     🔢 Toplam Sütun: 2286
     📈 Tablo Başına Ortalama Satır: 1.038,48
     💾 Toplam Boyut: 207,15 MB (yaklaşık)
   bird-interact-full: 
     📈 Toplam Veritabanı: 22
     📋 Toplam Tablo: 244
     🔢 Toplam Sütun: 2011
     📈 Tablo Başına Ortalama Satır: 1.121,19
     💾 Toplam Boyut: 272,00 MB (yaklaşık)

📦 Veri Kümesi Detayları
Veri Kümesi Açıklaması
Veritabanı: Tam PostgreSQL veritabanı bird-interact-lite ve bird-interact-full adreslerinden indirilebilir.
data: Her veri örneği aşağıdaki ana bölümleri içerir:
   selected_database: Veritabanının adı.  

   query: Açık ve kesin kullanıcı sorgusu.  

   amb_user_query: Belirsizlikler eklenmiş kullanıcı sorgusu.

   user_query_ambiguity: Kullanıcı sorgusuna enjekte edilen belirsizlikler.

   non_critical_ambiguity: Sıralama, limit vb. kritik olmayan belirsizlikler.

   knowledge_ambiguity: Maskelenmiş dış bilgilerle oluşturulan belirsizlikler. 

   sol_sql: Gerçek SQL çözümü.  

   preprocess_sql: Çözüm veya tahmin çalıştırılmadan önce çalıştırılacak SQL sorguları.  

   clean_up_sql: Test vakalarından sonra veritabanında yapılan değişiklikleri geri almak için çalıştırılacak SQL sorguları.  

   test_cases: Tahmin edilen düzeltilmiş SQL'i doğrulamak için bir test vakası seti.

   follow_up: Etiketlenmiş takip soruları.

   external_knowledge: Belirli görevle ilgili dış bilgi.
evaluation: Değerlendirme kodu ./evaluation dizininde mevcuttur.

Hazırlayan: BIRD Ekibi & Google Cloud
Lisans: cc-by-sa-4.0
HuggingFace Veri Kümesi Kartı: bird-interact-lite
  
ve bird-interact-full
Veri Kümesi Kullanımları
Otomatik taramayla veri sızıntısını önlemek için GT çözüm sql'leri ve test vakalarını veriyle birlikte dahil etmiyoruz.
Lütfen bird-interact-lite veya bird-interact-full veri kümesi için gerçek veri ve test vakalarını almak üzere başlıkta [bird-interact-lite GT&Test Cases] veya [bird-interact-full GT&Test Cases] etiketiyle bird.bench25@gmail.com adresine e-posta gönderin, bilgiler otomatik olarak iletilecektir.
Genel verileri gerçek veri ve test vakaları ile birleştirme
Ardından genel verileri gerçek veri ve test vakaları ile birleştirmek için aşağıdaki betiği kullanın:
Tam sürümü örnek olarak alırsak:
(1) Çalıştırın:

bash
python combine_public_with_gt.py /path/to/bird-interact-full/bird_interact_data.jsonl /path/to/bird_interact_full_gt_kg_testcases_08022.jsonl /path/to/bird_interact_data.jsonl  # bird_interact_full_gt_kg_testcases_08022.jsonl is the data of ground-truth fields, which is obtained by emailing us.
Bu, birleşik veriyle birlikte /path/to/bird_interact_data.jsonl konumunda yeni bir dosya oluşturacaktır.(2) Ardından, orijinal halka açık veriyi birleşik veriyle değiştirin:
bash
cp /path/to/bird_interact_data.jsonl /path/to/bird-interact-full/bird_interact_data.jsonl

Diğer sürümler için de aynı: bird-interact-lite, mini versiyonu, vb. Sadece ortak veri, gerçek veri ve test vakaları için doğru yolları ayarlayın ve ardından ortak veriyi birleştirilmiş veri ile değiştirin.