You need to agree to share your contact information to access this model

This repository is publicly accessible, but you have to accept the conditions to access its files and content.

🧿 Magibu-11b-v0.8

Türkçe İçin Sıfırdan Geliştirilmiş, Çok Modlu (Multimodal) Model

Cetvel Türkçe Benchmark'ta 34 model arasında 3. sıra 🥉 · QA'da 1. sıra 🥇 · 27B+ modellerle rekabet eder · Multimodal (Görsel + Metin)

📋 Model Hakkında

Magibu-11b-v0.8, Magibu AI Research tarafından geliştirilen, Türkçe odaklı, çok dilli, Çok Modlu (Multimodal) bir modeldir.

Önemli Not: Bu model, mevcut bir modelin üzerine yapılan basit bir "fine-tune" işlemi değildir. Magibu-11b, kendi geliştirdiğimiz özgün eğitim yöntemleri ve veri setleri ile üretilmiştir. Google Gemma-3 modeli güncel kütüphanelerle (Transformers, VLLM, Ollama vb.) tam uyumlu çalışabilmesi için hem bilgi hem de altyapı standardı olarak kullanılmıştır.

Türkçe'ye özel optimize edilmiş tokenizer'ı sayesinde, dünyadaki en token-verimli Türkçe modellerden biridir.

Neden Magibu?

Standart tokenizer'lar Türkçe kelimeleri anlamsız, çok sayıda küçük parçaya böler. Bu durum şunlara yol açar:

Yüksek Maliyet: Aynı cümle için daha fazla token üretilir.
Yavaş Çalışma: Daha fazla token = daha yavaş yanıt üretimi.
Ziyan Olan Kapasite: Context penceresi (hafıza) gereksiz yere dolar.

Magibu, Türkçe'ye özel eğitim süreci sayesinde bu sorunu çözer ve diğer tüm modellerden %30 - %127 daha verimli çalışır.

Özellik	Değer
Mimari	google/gemma-3-12b-it uyumlu
Parametre Sayısı	~11.3 Milyar
Context Penceresi	32,768 token
Yetenekler	Çok Modlu / Multimodal (Görsel + Metin) → Metin, Çok Dilli Chat
Ana Dil	Türkçe 🇹🇷 (Native seviyesinde optimizasyon)
Diğer Diller	40+ (EN, DE, FR, ES, RU, AR, JP, ZH...)
Geliştirici	Magibu AI Research
Versiyon	v0.8 (Deneysel sürüm)

⚠️ Deneysel Sürüm — Bilmeniz Gerekenler

Bu model aktif geliştirme aşamasında olan deneysel bir sürümdür. Kullanmadan önce lütfen aşağıdaki maddeleri okuyunuz.

🚀 Erken Geliştirme Aşaması: Magibu, kendi boyutundan çok daha büyük modellerle yarışabilecek kapasitede olmasına rağmen, henüz olgunlaşmış tam versiyonuna ulaşmamıştır. Özellikle yazım hataları yapma oranı yüksek olabilir. Bu sorunları hızla düzeltmek için kullanıcı geri bildirimlerine ihtiyacımız var.

🔧 Araç Kullanım Desteği Henüz Aktif Değil: Tarih, hava durumu, güncel olaylar, kelimelerdeki harf sayısı, karmaşık ya da bazen basit matematik soruları gibi işlemler, aslında ancak harici araçlar (API, hesap makinesi vb.) kullanılarak doğru yanıtlanabilir. Diğer büyük modelleri kullandığınız sistemlerde bu araçlar entegre çalıştığı için doğru sonuç alırsınız. Magibu'da araç kullanma yeteneği henüz sisteme eklenmediğinden bu tür sorularda hatalı cevaplar verebilir. Bu özellik üzerinde çalışmaya devam ediyoruz.

🪞 Kimlik Tutarsızlığı: Magibu, özel eğitim yöntemleri ve sentetik verilerle oluşturulduğundan, zaman zaman kimlik bunalımı yaşayabilir. "Sen kimsin?" gibi sorulara farklı ve tutarsız cevaplar verebilir. Model kimliğinin tutarlılığı üzerinde çalışmalarımız devam etmektedir.

⚠️ Halüsinasyon Riski: Tüm büyük dil modellerinde olduğu gibi, Magibu da zaman zaman gerçek olmayan bilgiler üretebilir (halüsinasyon). Özellikle olgusal bilgi gerektiren konularda modelin verdiği yanıtları mutlaka doğrulamanızı öneririz.

📏 Sınırlı Sunucu Kaynakları (Canlı Demo): Canlı demo üzerinde sunucu kaynaklarımız sınırlı olduğundan model yanıtları kısa tutulmaktadır. Sınırsız kullanım için modeli Ollama, MLX veya Transformers ile indirip kendi ortamınızda çalıştırabilirsiniz.

💡 Geri bildirimleriniz modeli iyileştirmemize yardımcı olur. Demo üzerindeki ↑ ↓ butonlarını kullanarak geri bildirim iletebilirsiniz. Teşekkür ederiz!

🏆 Türkçe MMLU Benchmark Sonuçları

Magibu-11b-v0.8, Türkçe MMLU benchmark testinde %74.40 başarı oranı ile 44 açık kaynak model arasında 6. sırada yer almaktadır. Kendisinden 2 ila 6 kat daha büyük modelleri geride bırakmayı başarmıştır.

🔑 Öne Çıkan Karşılaştırmalar

🔥 Magibu-11b (11B) vs. Llama-3.1 (70B): Magibu, 70 Milyar parametreli Llama-3.1 modelini +4 puan farkla geçmiştir (%74.40 vs %70.42). Bunu yaparken 6 kat daha az işlem gücü ve %54 daha az token kullanır.

🏛️ Magibu-11b vs. Turkish-Gemma-9b-T1 (YTU COSMOS): Yıldız Teknik Üniversitesi COSMOS Lab tarafından geliştirilen Turkish-Gemma-9b-T1 modeli %70.34 skor almıştır. Magibu, benzer parametre sayısında +4.06 puan fark atarak ve çok daha verimli çalışarak öne çıkmaktadır.

📊 Sıralama Tablosu (İlk 25)

#	Model	Param	MMLU	Token	MMLU Farkı	Token Farkı
1	Llama-3.3	70B	79.42%	221,411	+6.75%	+53.85%
2	DeepSeek-V3.2	685B MoE	77.69%	326,246	+4.42%	+126.69%
3	Kimi-K2	1T MoE	77.44%	312,609	+4.09%	+117.22%
4	Qwen3-32B	32B	75.98%	260,407	+2.12%	+80.95%
5	Gemma-3 27B	27B	75.06%	211,024	+0.89%	+46.63%
6	🧿 Magibu-11b	11B	74.40%	143,915	—	—
7	Qwen3-30B (A3B MoE)	30B	74.26%	260,407	-0.19%	+80.95%
8	MedGemma-27B	27B	74.18%	211,024	-0.30%	+46.63%
9	Emre-Gemma3-27B	27B	73.21%	211,024	-1.60%	+46.63%
10	Gemma-2 27B	27B	72.10%	223,174	-3.09%	+55.07%
11	Qwen3-14B	14B	71.65%	260,407	-3.70%	+80.95%
12	Doktor-Gemma3 12B	12B	71.08%	211,024	-4.46%	+46.63%
13	Gemma-3 12B	12B	70.74%	211,024	-4.92%	+46.63%
14	Aya-Expanse 32B	32B	70.66%	187,742	-5.03%	+30.45%
15	Ministral-3 14B	14B	70.55%	244,878	-5.17%	+70.15%
⚔️16	Llama-3.1 70B	70B	70.42%	221,411	-5.35%	+53.85%
🏛️17	Turkish-Gemma-9b-T1	9B	70.34%	223,174	-5.46%	+55.07%
18	Gemma-2 9B	9B	69.26%	223,174	-6.91%	+55.07%
19	Metin-Gemma2 DPO	9B	69.16%	223,174	-7.04%	+55.07%
20	GPT-OSS-20B (OpenAI)	20B	68.47%	224,052	-7.97%	+55.68%
21	Mistral-Small 24B	24B	68.37%	244,937	-8.10%	+70.20%
22	Qwen3-7B	7B	67.56%	260,407	-9.19%	+80.95%
23	Ministral-3B (latest)	3B	67.44%	244,878	-9.35%	+70.15%
24	Mistral-Small (old)	24B	66.97%	244,937	-9.99%	+70.20%
25	Phi-4 14B	14B	65.52%	316,029	-11.94%	+119.59%

Token Farkı: Magibu-11b'ye kıyasla diğer modellerin aynı metni ifade etmek için yüzde kaç daha fazla token kullandığını gösterir. Pozitif değerler, modelin Türkçe için daha az verimli olduğunu (daha çok token harcadığını) belirtir.

🎯 Cetvel Türkçe Benchmark Sonuçları

Magibu-11b-v0.8, Cetvel — Türkçe için en kapsamlı birleşik LLM benchmark'ında — 34 model arasında 3. sırada yer almaktadır (ortalama: 32.5).

7 farklı NLP kategorisinde (GEC, MCQA, MT, NLI, QA, SUM, TC) toplam 26 görevde değerlendirilen model, 14B altındaki en yüksek puanlı model olarak öne çıkmaktadır. Kendisinden 3-6 kat büyük modelleri (aya-23-35B, aya-expanse-32b vs.) geride bırakmayı başarmıştır.

🥇 Soru Cevaplama (QA) kategorisinde tüm modeller arasında 1. sıra — 45.0 puanla en yakın rakibini (Qwen2.5-14B, 26.7) büyük farkla geçmiştir.

🥈 Özetleme (SUM) kategorisinde 2. sıra — 24.9 puanla aya-expanse-32b'yi (22.4) geride bırakmıştır.

📊 Cetvel Sıralama Tablosu

#	Model	Boyut	Ort.	GEC	MCQA	MT	NLI	QA	SUM	TC
1	Llama-3.3-70B-Instruct	70B	35.9	44.1	60.1	24.0	32.4	16.1	16.2	58.1
2	aya-expanse-32b	32B	33.6	4.5	55.6	27.6	43.3	26.2	22.4	55.3
3	🧿 Magibu-11b-v0.8	11B	32.5	19.6	49.3	11.4	32.1	45.0	24.9	44.9
4	aya-23-35B	35B	31.7	30.8	48.8	25.1	37.6	23.7	17.6	38.0
5	cere-llama-3-8b-tr	8B	30.4	46.0	44.8	8.2	34.0	24.2	12.2	43.7
6	Meta-Llama-3.1-8B	8B	30.3	35.3	45.8	21.2	32.2	19.3	13.5	44.8
7	Meta-Llama-3.1-8B-Instruct	8B	29.3	31.5	50.1	15.9	36.0	18.0	13.5	40.1
8	Meta-Llama-3-8B	8B	29.1	34.1	43.0	19.1	33.9	20.9	12.3	40.6
9	Qwen2.5-7B	7B	29.1	22.3	50.6	11.9	34.0	20.5	12.8	51.6
10	Ministral-8B-Instruct	8B	28.1	39.1	42.8	15.8	34.0	14.2	12.8	38.0
…	(24 model daha)
34	TURNA	—	16.3	0.0	35.9	0.2	34.1	0.0	7.1	36.6

Kategori Kısaltmaları: GEC = Gramer Düzeltme, MCQA = Çoktan Seçmeli, MT = Makine Çevirisi, NLI = Doğal Dil Çıkarımı, QA = Soru Cevaplama, SUM = Özetleme, TC = Metin Sınıflandırma

🔍 Kategori Detayları

🥇 Soru Cevaplama (QA) — 45.0 puan — Tüm Modeller Arasında 1. Sıra

Görev	F1	EM	Açıklama
tquad	66.5	44.6	Türkçe SQuAD
xquad_tr	57.7	41.0	Çapraz Dil QA (Türkçe)
mkqa_tr	10.8	5.8	Çok Dilli Açık Alan QA

🥈 Özetleme (SUM) — 24.9 puan — Tüm Modeller Arasında 2. Sıra

Görev	ROUGE-1	ROUGE-2	ROUGE-L	Açıklama
mlsum_tr	33.8	18.3	27.0	Haber özetleme
xlsum_tr	26.1	11.5	19.6	Çapraz dil özetleme
wiki_lingua_tr	20.6	6.4	15.6	WikiHow makale özetleme
tr-wikihow-summ	19.2	5.8	14.1	WikiHow özetleme

📝 Çoktan Seçmeli (MCQA) — 49.3 puan

Görev	Skor	Açıklama
belebele_tr	81.2	Okuduğunu anlama
xcopa_tr	63.6	Nedensel muhakeme
turkish_plu_step_ordering	59.2	Prosedürel adım sıralama
turkish_plu_next_event	43.0	Sonraki olay tahmini
exams_tr	37.2	Türkçe sınav soruları
turkish_plu_goal_inference	31.0	Hedef çıkarımı
turkish_plu_step_inference	30.0	Adım çıkarımı

🏷️ Metin Sınıflandırma (TC) — 44.9 puan

Görev	Skor	Açıklama
ironytr	68.2	İroni algılama
offenseval_tr	52.8	Saldırgan dil tespiti
news_cat	49.2	Haber kategorilendirme
relevance_judgment	45.0	İddia ilişkisi
check_worthiness	43.0	Doğrulanabilirlik tespiti
xfact_tr	33.1	Doğruluk kontrolü
sts_tr	23.0	Anlamsal metin benzerliği

🔗 Doğal Dil Çıkarımı (NLI) — 32.1 puan

Görev	Skor	Açıklama
xnli_tr	34.2	Çapraz dil NLI
snli_tr	32.2	Stanford NLI (Türkçe)
mnli_tr	29.8	Multi-genre NLI (Türkçe)

✏️ Gramer Düzeltme (GEC) — 19.6 puan

Görev	Skor	Açıklama
gecturk_generation	19.6	Birebir gramer düzeltme

🌐 Makine Çevirisi (MT) — 11.4 puan

Görev	BLEU	WER	Açıklama
wmt-tr-en-prompt	11.4	93.4	İngilizce → Türkçe çeviri

🧠 Ek: TurkishMMLU Sonuçları (Cetvel ile) — 56.6 ortalama

Cetvel değerlendirmesi kapsamında ayrıca çalıştırılan TurkishMMLU alt görevleri (standart sıralamaya dahil değildir):

Konu	Skor
Felsefe	83.0
Din Kültürü ve Ahlak	79.0
Coğrafya	71.0
Tarih	66.0
Türk Dili ve Edebiyatı	48.0
Biyoloji	45.0
Fizik	43.0
Kimya	42.0
Matematik	32.0

🏗️ Ek: Türk Kültürü ve Dil Görevleri — 58.2 ortalama

Görev	Skor	Açıklama
circumflex_tr	64.3	Türkçe şapka işareti ayrımı
turkce_atasozleri	60.6	Türkçe atasözü tamamlama
bilmecebench	49.8	Türkçe bilmece benchmark'ı

💡 Güçlü ve Zayıf Yönler (Cetvel)

Güçlü Yönler:

QA'da Sınıfının Lideri: 45.0 puanla tüm sıralamada 1. sıra. En yakın rakip (Qwen2.5-14B) 26.7 puan almıştır.
Özetleme Gücü: 24.9 puanla 32B'lik aya-expanse modelini geride bırakmıştır.
Boyut Verimliliği: 11B parametre ile 35B'ye kadar tüm modelleri geçmiştir (aya-23-35B: 31.7).
Türk Kültürü Bilgisi: TurkishMMLU'da Felsefe %83, Din Kültürü %79, Coğrafya %71 ile güçlü Türk kültürel bilgi birikimi.

Geliştirmeye Açık Alanlar:

Makine Çevirisi (11.4): Model paralel çeviri için özel olarak eğitilmemiştir.
NLI (32.1): Sıralama ortalamasının biraz altında.
GEC (19.6): Birebir eşleşme metriği, parafraz yapabilen chat modeli için sert bir ölçüttür.

📋 Değerlendirme Detayları

Parametre	Değer
Benchmark	Cetvel v1.0
Framework	lm-evaluation-harness v0.4.11
Precision	bfloat16 (~22 GB VRAM)
Max Length	4096 token
Few-shot	0-shot
Sample Limit	500 / görev
Chat Template	Gemma-2 formatı
System Instruction	`"Sadece istenen çıktıyı üret."`
Toplam Görev	38 (26 standart + 9 TurkishMMLU + 3 ekstra)
GPU	NVIDIA A100-SXM4-80GB
Çalışma Süresi	~90 dakika

Not: Değerlendirme görev başına 500 örnek limiti ile yapılmıştır. Tam veri seti ile yapılan değerlendirmelerde ±%2-3 sapma beklenebilir. Detaylı rapor ve replikasyon rehberi için: cetvel_results_magibu_11b_v0.8.md

📊 Görsel Analizler

📈 MMLU Sıralaması

44 modelin Türkçe performans sıralaması. Magibu-11b (turuncu ◆), kendisinden çok daha büyük modelleri (Llama-3.1 70B, Gemma-2 27B vb.) geride bırakmıştır.

🎯 Token Verimliliği vs. Performans

Bu grafik, modellerin doğruluğu (Y ekseni) ile token harcamasını (X ekseni) karşılaştırır. İdeal konum sol üst köşedir (az token, çok başarı). Magibu-11b bu bölgede tek başınadır.

📊 Tokenizer Verimlilik Karşılaştırması

Modellerin aynı Türkçe veri setini (MMLU) kaç token ile ifade ettiğinin karşılaştırması. Magibu en düşük token sayısına sahiptir.

🏷️ Model Aileleri Karşılaştırması

Farklı model ailelerinin (Gemma, Llama, Qwen, vb.) verimlilik gruplandırması. Magibu (turuncu ●) diğer tüm ailelerden ayrı bir verimlilik sınıfındadır.

🧪 Token Verimliliği Nedir? Neden Önemli?

Türkçe'nin Yapısal Sorunu

Türkçe gibi sondan eklemeli dillerde kelimeler ek alarak uzar. Standart Batı dilleri için eğitilmiş tokenizer'lar bu kelimeleri verimsiz böler.

Örnek:

Türkçe İfade	Standart Tokenizer	Magibu Tokenizer
`evlerimizden`	`ev`, `ler`, `im`, `iz`, `den` (5 token)	`evlerimizden` (1-2 token)
`güzelleştiremediklerimizden`	8-12 token	3-4 token
`Türkiye'nin`	`Tür`, `kiye`, `'`, `nin` (4 token)	`Türkiye'nin` (1-2 token)

Sonuç: alibayram/turkish_mmlu veri setinin tamamı tokenize edildiğinde ortaya çıkan farklar:

Sıra	Tokenizer	Toplam Token	Fark (vs Magibu)	Not
🥇	Magibu-11b	143,915	—	🇹🇷 En İyi Türkçe Model
🥈	Aya-Expanse	187,742	+30.5% daha fazla	Çok dilli model
🥉	Gemma-3	211,024	+46.6% daha fazla	Google Official
4	Llama-3	221,411	+53.9% daha fazla	Meta Official
5	Turkish-Gemma-9b (COSMOS)	223,174	+55.1% daha fazla	YTU (Fine-tune)
6	Qwen2/3	260,407	+80.9% daha fazla	Alibaba
7	DeepSeek-V3.2	326,246	+126.7% daha fazla	DeepSeek

Pratik Etkisi: Magibu ile 1000 token tutan bir işlem, diğer modellerde 1300-2200 token tutar. Magibu kullanmak daha hızlıdır, daha ucuzdur ve daha uzun metinleri hafızada tutabilir.

🚀 Hızlı Başlangıç (Quick Start)

🤗 Transformers

from transformers import pipeline

soru = "Zaman makineniz olsaydı ve sadece bir kez geçmişe ya da geleceğe gidebilseydiniz, hangisini seçerdiniz ve neden?"

generator = pipeline("text-generation", model="magibu/magibu-11b-v0.8", device="cuda")
cevap = generator(
    [{"role": "user", "content": soru}],
    max_new_tokens=512,
    return_full_text=False
)[0]
print(cevap["generated_text"])

🖼️ Görsel Kullanımı (Multimodal)

Magibu-11b, görselleri anlayabilir ve soruları yanıtlayabilir (VLM):

from transformers import AutoProcessor, AutoModelForImageTextToText
from PIL import Image

model = AutoModelForImageTextToText.from_pretrained("magibu/magibu-11b-v0.8", device_map="auto")
processor = AutoProcessor.from_pretrained("magibu/magibu-11b-v0.8")

image = Image.open("foto.jpg")
messages = [
    {"role": "user", "content": [
        {"type": "image", "image": image},
        {"type": "text", "text": "Bu fotoğrafta ne görüyorsun? Detaylı açıkla."}
    ]}
]

inputs = processor.apply_chat_template(messages, return_tensors="pt").to(model.device)
output = model.generate(**inputs, max_new_tokens=512)
print(processor.decode(output[0], skip_special_tokens=True))

🦙 Ollama (Kolay Kurulum)

# Tek komutla kur ve çalıştır
ollama run alibayram/magibu-11b-v8

🍎 MLX (Apple Silicon - M1/M2/M3/M4)

pip install mlx-vlm

# OpenAI uyumlu sunucu başlat
mlx_vlm.server --model alibayram/magibu-11b-v8-mlx --port 8080

# Veya Python içinde kullan
mlx_vlm.generate --model alibayram/magibu-11b-v8-mlx --prompt "Merhaba, nasılsın?"

📦 İndirme Seçenekleri (Model Formats)

Format	Link	Boyut	Kullanım Alanı
🤗 Transformers (bfloat16)	magibu/magibu-11b-v0.8	~22 GB	Fine-tuning, Araştırma, GPU
🦙 Ollama (GGUF)	ollama.com/alibayram/magibu-11b-v8	~6 GB	PC, Mac, CPU+GPU
🍎 MLX (4-bit)	alibayram/magibu-11b-v8-mlx	~6 GB	Apple Silicon Mac (M Serisi)

⚠️ Sınırlamalar ve Uyarılar

Detaylı açıklamalar için yukarıdaki Deneysel Sürüm — Bilmeniz Gerekenler bölümüne bakınız.

Deneysel Sürüm (v0.8): Aktif geliştirme aşamasındadır, yazım hataları oranı yüksek olabilir.
Araç Kullanımı Yok: Tarih, hava durumu, matematik gibi araç gerektiren görevlerde hata yapabilir.
Kimlik Tutarsızlığı: "Sen kimsin?" gibi sorulara farklı cevaplar verebilir.
Halüsinasyon: Tüm dil modelleri gibi yanlış bilgi üretebilir. Kritik konularda (sağlık, hukuk) doğruluğu teyit edilmelidir.
Bilgi Kesimi: Eğitim verisinin kapsadığı tarih aralığı sınırlıdır, en güncel olayları bilmeyebilir.
Yanlılık: Eğitim verisinden kaynaklı toplumsal önyargılar barındırabilir.

🔗 Kaynaklar

Kaynak	Link
🤗 Model Sayfası	magibu/magibu-11b-v0.8
🌐 Resmi Site	magibu-chat.web.app
💬 Canlı Demo	magibu-chat.web.app
📚 MMLU Benchmark Verisi	alibayram/turkish_mmlu
📏 Cetvel Benchmark	KUIS-AI/cetvel
📄 Cetvel Detaylı Rapor	cetvel_results_magibu_11b_v0.8.md

📜 Atıf (Citation)

Modeli çalışmalarınızda kullanırsanız lütfen aşağıdaki şekilde atıf yapınız:

@misc{bayram2025magibu,
    title        = {{Magibu-11b: A Turkish-Native Multilingual Vision-Language Model with Optimized Tokenization}},
    author       = {Ali Bayram},
    year         = 2025,
    howpublished = {\url{https://huggingface.co/magibu/magibu-11b-v0.8}},
    note         = {Developed by Magibu AI Research}
}

Magibu AI Research tarafından ❤️ ile geliştirildi 🧿

Geri bildirimleriniz bizim için değerlidir — demo üzerindeki butonu kullanarak iletebilirsiniz.

Downloads last month: 518

Safetensors

Model size

12B params

Tensor type

BF16

MLX

Hardware compatibility

Quantized