You need to agree to share your contact information to access this model

This repository is publicly accessible, but you have to accept the conditions to access its files and content.

Log in or Sign Up to review the conditions and access this model content.

Magibu AI Logo

🧿 Magibu-11b-v0.8

Türkçe İçin Sıfırdan Geliştirilmiş, Çok Modlu (Multimodal) Model

Cetvel Türkçe Benchmark'ta 34 model arasında 3. sıra 🥉 · QA'da 1. sıra 🥇 · 27B+ modellerle rekabet eder · Multimodal (Görsel + Metin)

Transformers Ollama MLX Demo


📋 Model Hakkında

Magibu-11b-v0.8, Magibu AI Research tarafından geliştirilen, Türkçe odaklı, çok dilli, Çok Modlu (Multimodal) bir modeldir.

Önemli Not: Bu model, mevcut bir modelin üzerine yapılan basit bir "fine-tune" işlemi değildir. Magibu-11b, kendi geliştirdiğimiz özgün eğitim yöntemleri ve veri setleri ile üretilmiştir. Google Gemma-3 modeli güncel kütüphanelerle (Transformers, VLLM, Ollama vb.) tam uyumlu çalışabilmesi için hem bilgi hem de altyapı standardı olarak kullanılmıştır.

Türkçe'ye özel optimize edilmiş tokenizer'ı sayesinde, dünyadaki en token-verimli Türkçe modellerden biridir.

Neden Magibu?

Standart tokenizer'lar Türkçe kelimeleri anlamsız, çok sayıda küçük parçaya böler. Bu durum şunlara yol açar:

  • Yüksek Maliyet: Aynı cümle için daha fazla token üretilir.
  • Yavaş Çalışma: Daha fazla token = daha yavaş yanıt üretimi.
  • Ziyan Olan Kapasite: Context penceresi (hafıza) gereksiz yere dolar.

Magibu, Türkçe'ye özel eğitim süreci sayesinde bu sorunu çözer ve diğer tüm modellerden %30 - %127 daha verimli çalışır.

Özellik Değer
Mimari google/gemma-3-12b-it uyumlu
Parametre Sayısı ~11.3 Milyar
Context Penceresi 32,768 token
Yetenekler Çok Modlu / Multimodal (Görsel + Metin) → Metin, Çok Dilli Chat
Ana Dil Türkçe 🇹🇷 (Native seviyesinde optimizasyon)
Diğer Diller 40+ (EN, DE, FR, ES, RU, AR, JP, ZH...)
Geliştirici Magibu AI Research
Versiyon v0.8 (Deneysel sürüm)

⚠️ Deneysel Sürüm — Bilmeniz Gerekenler

Bu model aktif geliştirme aşamasında olan deneysel bir sürümdür. Kullanmadan önce lütfen aşağıdaki maddeleri okuyunuz.

🚀 Erken Geliştirme Aşaması: Magibu, kendi boyutundan çok daha büyük modellerle yarışabilecek kapasitede olmasına rağmen, henüz olgunlaşmış tam versiyonuna ulaşmamıştır. Özellikle yazım hataları yapma oranı yüksek olabilir. Bu sorunları hızla düzeltmek için kullanıcı geri bildirimlerine ihtiyacımız var.

🔧 Araç Kullanım Desteği Henüz Aktif Değil: Tarih, hava durumu, güncel olaylar, kelimelerdeki harf sayısı, karmaşık ya da bazen basit matematik soruları gibi işlemler, aslında ancak harici araçlar (API, hesap makinesi vb.) kullanılarak doğru yanıtlanabilir. Diğer büyük modelleri kullandığınız sistemlerde bu araçlar entegre çalıştığı için doğru sonuç alırsınız. Magibu'da araç kullanma yeteneği henüz sisteme eklenmediğinden bu tür sorularda hatalı cevaplar verebilir. Bu özellik üzerinde çalışmaya devam ediyoruz.

🪞 Kimlik Tutarsızlığı: Magibu, özel eğitim yöntemleri ve sentetik verilerle oluşturulduğundan, zaman zaman kimlik bunalımı yaşayabilir. "Sen kimsin?" gibi sorulara farklı ve tutarsız cevaplar verebilir. Model kimliğinin tutarlılığı üzerinde çalışmalarımız devam etmektedir.

⚠️ Halüsinasyon Riski: Tüm büyük dil modellerinde olduğu gibi, Magibu da zaman zaman gerçek olmayan bilgiler üretebilir (halüsinasyon). Özellikle olgusal bilgi gerektiren konularda modelin verdiği yanıtları mutlaka doğrulamanızı öneririz.

📏 Sınırlı Sunucu Kaynakları (Canlı Demo): Canlı demo üzerinde sunucu kaynaklarımız sınırlı olduğundan model yanıtları kısa tutulmaktadır. Sınırsız kullanım için modeli Ollama, MLX veya Transformers ile indirip kendi ortamınızda çalıştırabilirsiniz.

💡 Geri bildirimleriniz modeli iyileştirmemize yardımcı olur. Demo üzerindeki ↑ ↓ butonlarını kullanarak geri bildirim iletebilirsiniz. Teşekkür ederiz!

🏆 Türkçe MMLU Benchmark Sonuçları

Magibu-11b-v0.8, Türkçe MMLU benchmark testinde %74.40 başarı oranı ile 44 açık kaynak model arasında 6. sırada yer almaktadır. Kendisinden 2 ila 6 kat daha büyük modelleri geride bırakmayı başarmıştır.

🔑 Öne Çıkan Karşılaştırmalar

🔥 Magibu-11b (11B) vs. Llama-3.1 (70B): Magibu, 70 Milyar parametreli Llama-3.1 modelini +4 puan farkla geçmiştir (%74.40 vs %70.42). Bunu yaparken 6 kat daha az işlem gücü ve %54 daha az token kullanır.

🏛️ Magibu-11b vs. Turkish-Gemma-9b-T1 (YTU COSMOS): Yıldız Teknik Üniversitesi COSMOS Lab tarafından geliştirilen Turkish-Gemma-9b-T1 modeli %70.34 skor almıştır. Magibu, benzer parametre sayısında +4.06 puan fark atarak ve çok daha verimli çalışarak öne çıkmaktadır.

📊 Sıralama Tablosu (İlk 25)

# Model Param MMLU Token MMLU Farkı Token Farkı
1 Llama-3.3 70B 79.42% 221,411 +6.75% +53.85%
2 DeepSeek-V3.2 685B MoE 77.69% 326,246 +4.42% +126.69%
3 Kimi-K2 1T MoE 77.44% 312,609 +4.09% +117.22%
4 Qwen3-32B 32B 75.98% 260,407 +2.12% +80.95%
5 Gemma-3 27B 27B 75.06% 211,024 +0.89% +46.63%
6 🧿 Magibu-11b 11B 74.40% 143,915
7 Qwen3-30B (A3B MoE) 30B 74.26% 260,407 -0.19% +80.95%
8 MedGemma-27B 27B 74.18% 211,024 -0.30% +46.63%
9 Emre-Gemma3-27B 27B 73.21% 211,024 -1.60% +46.63%
10 Gemma-2 27B 27B 72.10% 223,174 -3.09% +55.07%
11 Qwen3-14B 14B 71.65% 260,407 -3.70% +80.95%
12 Doktor-Gemma3 12B 12B 71.08% 211,024 -4.46% +46.63%
13 Gemma-3 12B 12B 70.74% 211,024 -4.92% +46.63%
14 Aya-Expanse 32B 32B 70.66% 187,742 -5.03% +30.45%
15 Ministral-3 14B 14B 70.55% 244,878 -5.17% +70.15%
⚔️16 Llama-3.1 70B 70B 70.42% 221,411 -5.35% +53.85%
🏛️17 Turkish-Gemma-9b-T1 9B 70.34% 223,174 -5.46% +55.07%
18 Gemma-2 9B 9B 69.26% 223,174 -6.91% +55.07%
19 Metin-Gemma2 DPO 9B 69.16% 223,174 -7.04% +55.07%
20 GPT-OSS-20B (OpenAI) 20B 68.47% 224,052 -7.97% +55.68%
21 Mistral-Small 24B 24B 68.37% 244,937 -8.10% +70.20%
22 Qwen3-7B 7B 67.56% 260,407 -9.19% +80.95%
23 Ministral-3B (latest) 3B 67.44% 244,878 -9.35% +70.15%
24 Mistral-Small (old) 24B 66.97% 244,937 -9.99% +70.20%
25 Phi-4 14B 14B 65.52% 316,029 -11.94% +119.59%

Token Farkı: Magibu-11b'ye kıyasla diğer modellerin aynı metni ifade etmek için yüzde kaç daha fazla token kullandığını gösterir. Pozitif değerler, modelin Türkçe için daha az verimli olduğunu (daha çok token harcadığını) belirtir.


🎯 Cetvel Türkçe Benchmark Sonuçları

Magibu-11b-v0.8, Cetvel — Türkçe için en kapsamlı birleşik LLM benchmark'ında — 34 model arasında 3. sırada yer almaktadır (ortalama: 32.5).

7 farklı NLP kategorisinde (GEC, MCQA, MT, NLI, QA, SUM, TC) toplam 26 görevde değerlendirilen model, 14B altındaki en yüksek puanlı model olarak öne çıkmaktadır. Kendisinden 3-6 kat büyük modelleri (aya-23-35B, aya-expanse-32b vs.) geride bırakmayı başarmıştır.

🥇 Soru Cevaplama (QA) kategorisinde tüm modeller arasında 1. sıra — 45.0 puanla en yakın rakibini (Qwen2.5-14B, 26.7) büyük farkla geçmiştir.

🥈 Özetleme (SUM) kategorisinde 2. sıra — 24.9 puanla aya-expanse-32b'yi (22.4) geride bırakmıştır.

📊 Cetvel Sıralama Tablosu

# Model Boyut Ort. GEC MCQA MT NLI QA SUM TC
1 Llama-3.3-70B-Instruct 70B 35.9 44.1 60.1 24.0 32.4 16.1 16.2 58.1
2 aya-expanse-32b 32B 33.6 4.5 55.6 27.6 43.3 26.2 22.4 55.3
3 🧿 Magibu-11b-v0.8 11B 32.5 19.6 49.3 11.4 32.1 45.0 24.9 44.9
4 aya-23-35B 35B 31.7 30.8 48.8 25.1 37.6 23.7 17.6 38.0
5 cere-llama-3-8b-tr 8B 30.4 46.0 44.8 8.2 34.0 24.2 12.2 43.7
6 Meta-Llama-3.1-8B 8B 30.3 35.3 45.8 21.2 32.2 19.3 13.5 44.8
7 Meta-Llama-3.1-8B-Instruct 8B 29.3 31.5 50.1 15.9 36.0 18.0 13.5 40.1
8 Meta-Llama-3-8B 8B 29.1 34.1 43.0 19.1 33.9 20.9 12.3 40.6
9 Qwen2.5-7B 7B 29.1 22.3 50.6 11.9 34.0 20.5 12.8 51.6
10 Ministral-8B-Instruct 8B 28.1 39.1 42.8 15.8 34.0 14.2 12.8 38.0
(24 model daha)
34 TURNA 16.3 0.0 35.9 0.2 34.1 0.0 7.1 36.6

Kategori Kısaltmaları: GEC = Gramer Düzeltme, MCQA = Çoktan Seçmeli, MT = Makine Çevirisi, NLI = Doğal Dil Çıkarımı, QA = Soru Cevaplama, SUM = Özetleme, TC = Metin Sınıflandırma

🔍 Kategori Detayları

🥇 Soru Cevaplama (QA) — 45.0 puan — Tüm Modeller Arasında 1. Sıra

Görev F1 EM Açıklama
tquad 66.5 44.6 Türkçe SQuAD
xquad_tr 57.7 41.0 Çapraz Dil QA (Türkçe)
mkqa_tr 10.8 5.8 Çok Dilli Açık Alan QA

🥈 Özetleme (SUM) — 24.9 puan — Tüm Modeller Arasında 2. Sıra

Görev ROUGE-1 ROUGE-2 ROUGE-L Açıklama
mlsum_tr 33.8 18.3 27.0 Haber özetleme
xlsum_tr 26.1 11.5 19.6 Çapraz dil özetleme
wiki_lingua_tr 20.6 6.4 15.6 WikiHow makale özetleme
tr-wikihow-summ 19.2 5.8 14.1 WikiHow özetleme

📝 Çoktan Seçmeli (MCQA) — 49.3 puan

Görev Skor Açıklama
belebele_tr 81.2 Okuduğunu anlama
xcopa_tr 63.6 Nedensel muhakeme
turkish_plu_step_ordering 59.2 Prosedürel adım sıralama
turkish_plu_next_event 43.0 Sonraki olay tahmini
exams_tr 37.2 Türkçe sınav soruları
turkish_plu_goal_inference 31.0 Hedef çıkarımı
turkish_plu_step_inference 30.0 Adım çıkarımı

🏷️ Metin Sınıflandırma (TC) — 44.9 puan

Görev Skor Açıklama
ironytr 68.2 İroni algılama
offenseval_tr 52.8 Saldırgan dil tespiti
news_cat 49.2 Haber kategorilendirme
relevance_judgment 45.0 İddia ilişkisi
check_worthiness 43.0 Doğrulanabilirlik tespiti
xfact_tr 33.1 Doğruluk kontrolü
sts_tr 23.0 Anlamsal metin benzerliği

🔗 Doğal Dil Çıkarımı (NLI) — 32.1 puan

Görev Skor Açıklama
xnli_tr 34.2 Çapraz dil NLI
snli_tr 32.2 Stanford NLI (Türkçe)
mnli_tr 29.8 Multi-genre NLI (Türkçe)

✏️ Gramer Düzeltme (GEC) — 19.6 puan

Görev Skor Açıklama
gecturk_generation 19.6 Birebir gramer düzeltme

🌐 Makine Çevirisi (MT) — 11.4 puan

Görev BLEU WER Açıklama
wmt-tr-en-prompt 11.4 93.4 İngilizce → Türkçe çeviri

🧠 Ek: TurkishMMLU Sonuçları (Cetvel ile) — 56.6 ortalama

Cetvel değerlendirmesi kapsamında ayrıca çalıştırılan TurkishMMLU alt görevleri (standart sıralamaya dahil değildir):

Konu Skor
Felsefe 83.0
Din Kültürü ve Ahlak 79.0
Coğrafya 71.0
Tarih 66.0
Türk Dili ve Edebiyatı 48.0
Biyoloji 45.0
Fizik 43.0
Kimya 42.0
Matematik 32.0

🏗️ Ek: Türk Kültürü ve Dil Görevleri — 58.2 ortalama

Görev Skor Açıklama
circumflex_tr 64.3 Türkçe şapka işareti ayrımı
turkce_atasozleri 60.6 Türkçe atasözü tamamlama
bilmecebench 49.8 Türkçe bilmece benchmark'ı

💡 Güçlü ve Zayıf Yönler (Cetvel)

Güçlü Yönler:

  • QA'da Sınıfının Lideri: 45.0 puanla tüm sıralamada 1. sıra. En yakın rakip (Qwen2.5-14B) 26.7 puan almıştır.
  • Özetleme Gücü: 24.9 puanla 32B'lik aya-expanse modelini geride bırakmıştır.
  • Boyut Verimliliği: 11B parametre ile 35B'ye kadar tüm modelleri geçmiştir (aya-23-35B: 31.7).
  • Türk Kültürü Bilgisi: TurkishMMLU'da Felsefe %83, Din Kültürü %79, Coğrafya %71 ile güçlü Türk kültürel bilgi birikimi.

Geliştirmeye Açık Alanlar:

  • Makine Çevirisi (11.4): Model paralel çeviri için özel olarak eğitilmemiştir.
  • NLI (32.1): Sıralama ortalamasının biraz altında.
  • GEC (19.6): Birebir eşleşme metriği, parafraz yapabilen chat modeli için sert bir ölçüttür.

📋 Değerlendirme Detayları

Parametre Değer
Benchmark Cetvel v1.0
Framework lm-evaluation-harness v0.4.11
Precision bfloat16 (~22 GB VRAM)
Max Length 4096 token
Few-shot 0-shot
Sample Limit 500 / görev
Chat Template Gemma-2 formatı
System Instruction "Sadece istenen çıktıyı üret."
Toplam Görev 38 (26 standart + 9 TurkishMMLU + 3 ekstra)
GPU NVIDIA A100-SXM4-80GB
Çalışma Süresi ~90 dakika

Not: Değerlendirme görev başına 500 örnek limiti ile yapılmıştır. Tam veri seti ile yapılan değerlendirmelerde ±%2-3 sapma beklenebilir. Detaylı rapor ve replikasyon rehberi için: cetvel_results_magibu_11b_v0.8.md


📊 Görsel Analizler

📈 MMLU Sıralaması

44 modelin Türkçe performans sıralaması. Magibu-11b (turuncu ◆), kendisinden çok daha büyük modelleri (Llama-3.1 70B, Gemma-2 27B vb.) geride bırakmıştır.

MMLU Rankings — Magibu-11b vs 44 Open Models

🎯 Token Verimliliği vs. Performans

Bu grafik, modellerin doğruluğu (Y ekseni) ile token harcamasını (X ekseni) karşılaştırır. İdeal konum sol üst köşedir (az token, çok başarı). Magibu-11b bu bölgede tek başınadır.

Token Efficiency vs MMLU Performance — Magibu dominates the top-left quadrant

📊 Tokenizer Verimlilik Karşılaştırması

Modellerin aynı Türkçe veri setini (MMLU) kaç token ile ifade ettiğinin karşılaştırması. Magibu en düşük token sayısına sahiptir.

Tokenization Efficiency — Magibu uses the fewest tokens for Turkish text

🏷️ Model Aileleri Karşılaştırması

Farklı model ailelerinin (Gemma, Llama, Qwen, vb.) verimlilik gruplandırması. Magibu (turuncu ●) diğer tüm ailelerden ayrı bir verimlilik sınıfındadır.

Model Families — Score vs Tokenization Efficiency


🧪 Token Verimliliği Nedir? Neden Önemli?

Türkçe'nin Yapısal Sorunu

Türkçe gibi sondan eklemeli dillerde kelimeler ek alarak uzar. Standart Batı dilleri için eğitilmiş tokenizer'lar bu kelimeleri verimsiz böler.

Örnek:

Türkçe İfade Standart Tokenizer Magibu Tokenizer
evlerimizden ev, ler, im, iz, den (5 token) evlerimizden (1-2 token)
güzelleştiremediklerimizden 8-12 token 3-4 token
Türkiye'nin Tür, kiye, ', nin (4 token) Türkiye'nin (1-2 token)

Sonuç: alibayram/turkish_mmlu veri setinin tamamı tokenize edildiğinde ortaya çıkan farklar:

Sıra Tokenizer Toplam Token Fark (vs Magibu) Not
🥇 Magibu-11b 143,915 🇹🇷 En İyi Türkçe Model
🥈 Aya-Expanse 187,742 +30.5% daha fazla Çok dilli model
🥉 Gemma-3 211,024 +46.6% daha fazla Google Official
4 Llama-3 221,411 +53.9% daha fazla Meta Official
5 Turkish-Gemma-9b (COSMOS) 223,174 +55.1% daha fazla YTU (Fine-tune)
6 Qwen2/3 260,407 +80.9% daha fazla Alibaba
7 DeepSeek-V3.2 326,246 +126.7% daha fazla DeepSeek

Pratik Etkisi: Magibu ile 1000 token tutan bir işlem, diğer modellerde 1300-2200 token tutar. Magibu kullanmak daha hızlıdır, daha ucuzdur ve daha uzun metinleri hafızada tutabilir.


🚀 Hızlı Başlangıç (Quick Start)

🤗 Transformers

from transformers import pipeline

soru = "Zaman makineniz olsaydı ve sadece bir kez geçmişe ya da geleceğe gidebilseydiniz, hangisini seçerdiniz ve neden?"

generator = pipeline("text-generation", model="magibu/magibu-11b-v0.8", device="cuda")
cevap = generator(
    [{"role": "user", "content": soru}],
    max_new_tokens=512,
    return_full_text=False
)[0]
print(cevap["generated_text"])

🖼️ Görsel Kullanımı (Multimodal)

Magibu-11b, görselleri anlayabilir ve soruları yanıtlayabilir (VLM):

from transformers import AutoProcessor, AutoModelForImageTextToText
from PIL import Image

model = AutoModelForImageTextToText.from_pretrained("magibu/magibu-11b-v0.8", device_map="auto")
processor = AutoProcessor.from_pretrained("magibu/magibu-11b-v0.8")

image = Image.open("foto.jpg")
messages = [
    {"role": "user", "content": [
        {"type": "image", "image": image},
        {"type": "text", "text": "Bu fotoğrafta ne görüyorsun? Detaylı açıkla."}
    ]}
]

inputs = processor.apply_chat_template(messages, return_tensors="pt").to(model.device)
output = model.generate(**inputs, max_new_tokens=512)
print(processor.decode(output[0], skip_special_tokens=True))

🦙 Ollama (Kolay Kurulum)

# Tek komutla kur ve çalıştır
ollama run alibayram/magibu-11b-v8

🍎 MLX (Apple Silicon - M1/M2/M3/M4)

pip install mlx-vlm

# OpenAI uyumlu sunucu başlat
mlx_vlm.server --model alibayram/magibu-11b-v8-mlx --port 8080

# Veya Python içinde kullan
mlx_vlm.generate --model alibayram/magibu-11b-v8-mlx --prompt "Merhaba, nasılsın?"

📦 İndirme Seçenekleri (Model Formats)

Format Link Boyut Kullanım Alanı
🤗 Transformers (bfloat16) magibu/magibu-11b-v0.8 ~22 GB Fine-tuning, Araştırma, GPU
🦙 Ollama (GGUF) ollama.com/alibayram/magibu-11b-v8 ~6 GB PC, Mac, CPU+GPU
🍎 MLX (4-bit) alibayram/magibu-11b-v8-mlx ~6 GB Apple Silicon Mac (M Serisi)

⚠️ Sınırlamalar ve Uyarılar

Detaylı açıklamalar için yukarıdaki Deneysel Sürüm — Bilmeniz Gerekenler bölümüne bakınız.

  • Deneysel Sürüm (v0.8): Aktif geliştirme aşamasındadır, yazım hataları oranı yüksek olabilir.
  • Araç Kullanımı Yok: Tarih, hava durumu, matematik gibi araç gerektiren görevlerde hata yapabilir.
  • Kimlik Tutarsızlığı: "Sen kimsin?" gibi sorulara farklı cevaplar verebilir.
  • Halüsinasyon: Tüm dil modelleri gibi yanlış bilgi üretebilir. Kritik konularda (sağlık, hukuk) doğruluğu teyit edilmelidir.
  • Bilgi Kesimi: Eğitim verisinin kapsadığı tarih aralığı sınırlıdır, en güncel olayları bilmeyebilir.
  • Yanlılık: Eğitim verisinden kaynaklı toplumsal önyargılar barındırabilir.

🔗 Kaynaklar

Kaynak Link
🤗 Model Sayfası magibu/magibu-11b-v0.8
🌐 Resmi Site magibu-chat.web.app
💬 Canlı Demo magibu-chat.web.app
📚 MMLU Benchmark Verisi alibayram/turkish_mmlu
📏 Cetvel Benchmark KUIS-AI/cetvel
📄 Cetvel Detaylı Rapor cetvel_results_magibu_11b_v0.8.md

📜 Atıf (Citation)

Modeli çalışmalarınızda kullanırsanız lütfen aşağıdaki şekilde atıf yapınız:

@misc{bayram2025magibu,
    title        = {{Magibu-11b: A Turkish-Native Multilingual Vision-Language Model with Optimized Tokenization}},
    author       = {Ali Bayram},
    year         = 2025,
    howpublished = {\url{https://huggingface.co/magibu/magibu-11b-v0.8}},
    note         = {Developed by Magibu AI Research}
}

Magibu AI Research tarafından ❤️ ile geliştirildi 🧿

Geri bildirimleriniz bizim için değerlidir — demo üzerindeki butonu kullanarak iletebilirsiniz.

Downloads last month
518
Safetensors
Model size
12B params
Tensor type
BF16
·
MLX
Hardware compatibility
Log In to add your hardware

Quantized

Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 1 Ask for provider support

Datasets used to train magibu/magibu-11b-v0.8