Kızagan-E4B Model Karşılaştırması

🏹 Kızagan-E4B — Türkçe Muhakeme Modeli

Türk dilinin inceliklerini anlayan, matematiksel muhakemede güçlenmiş, küçük boyutuyla büyük iş çıkaran bir açık ağırlıklı model.

📌 Model Özeti

Kızagan-E4B, Google DeepMind tarafından geliştirilen Gemma 4 E4B-it temel modelinin, Türkçe dil yeteneklerini ve muhakeme kapasitesini derinleştirmek üzere 540 bin satırlık (~2 milyar token) özenle hazırlanmış Türkçe SFT veri kümesiyle fine-tune edilmiş halidir.

Model, Türkçe'nin sondan eklemeli yapısı, ünlü uyumu, yazım-noktalama incelikleri ve günlük kullanım kayıtları dikkate alınarak tasarlanmış bir çok boyutlu taksonomi üzerine kuruludur. Hem günlük diyalog hem de kurumsal, teknik, akademik kullanım senaryolarında tutarlı çıktı üretmesi hedeflenmiştir.

Adını, Türk mitolojisinde ok ve savaşın tanrısı Kızagan Tengri'den alır.

⚡ Öne Çıkan Özellikler

🇹🇷 Türkçe Odaklı SFT: 540K satır, ~2B token Türkçe talimat verisi
🧠 Güçlenmiş Muhakeme: Turkish GSM8K'da base modele göre +21.88 puan artış
📚 Geniş Taksonomi: 8 alan, 7 beceri ailesi, 25+ alt beceri, 9 persona
🔢 Temel Model: Gemma 4 E4B-it (8B ham / 4B efektif parametre, PLE mimarisi)
🧩 Çoklu Biçim Desteği: Transformers, GGUF (llama.cpp, LM Studio, Ollama), MLX (Apple Silicon)
⚖️ Lisans: Apache 2.0

📊 Benchmark Sonuçları

Model, iki bağımsız Türkçe benchmark üzerinde değerlendirildi. Tüm sonuçlar, aynı donanım ve aynı değerlendirme protokolü altında, temel model google/gemma-4-E4B-it ile yan yana karşılaştırılmıştır.

🇹🇷 Türkçe MMLU — Genel Bilgi ve Kavrama

Benchmark: malhajar/mmlu_tr-v0.2

Metrik	`google/gemma-4-E4B-it`	`AlicanKiraz0/Kızagan-E4B`	Δ (Fark)
Accuracy (%)	30.42	33.18	🟢 +2.76
Doğru Cevap Sayısı	4,114	4,486	🟢 +372

🧮 Turkish GSM8K — Matematiksel Muhakeme

Recipe: strict (harici araç çağrısı yok, yalnızca model çıktısı)

Recipe	`google/gemma-4-E4B-it`	`AlicanKiraz0/Kızagan-E4B`	Δ (Fark)
`strict`	14.06	35.94	🟢 +21.88

🏆 Genel Kazanım Özeti

Kategori	Kazanım
Türkçe MMLU Accuracy	↗ +2.76 %
Türkçe MMLU Doğru	↗ +372
Turkish GSM8K (strict)	↗ +21.88

💡 Not: Matematiksel muhakemedeki 2.5 katına yakın artış, SFT veri kümesinde reasoning ailesi (math_word_problem, everyday_reasoning, error_analysis, decision_support) için verilen özenli taksonomi ağırlıklandırmasının doğrudan sonucudur.

📦 Model Ailesi ve Dağıtım Biçimleri

Kızagan-E4B, farklı donanım ve çalışma zamanlarında çalıştırılabilmesi için beş farklı varyantta yayınlanmıştır.

🔹 Base Model (Ana Ağırlıklar)

Sürüm	Repo	Biçim	Kullanım
Full Precision	`AlicanKiraz0/Kizagan-E4B-Turkish-Reasoning-Model`	Safetensors (BF16)	Transformers / TRL / vLLM

🔹 Quantizasyonlu Sürümler

Sürüm	Repo	Biçim	Önerilen Kullanım
Q8_0 GGUF	`Kizagan-E4B-Turkish-Reasoning-Model-Q8_0-GGUF`	GGUF	llama.cpp, LM Studio, Ollama, koboldcpp
MLX 8-bit	`Kizagan-E4B-Turkish-Reasoning-Model-mlx-8Bit`	MLX 8-bit	Apple Silicon (M1/M2/M3/M4) — dengeli kalite
MLX 4-bit	`Kizagan-E4B-Turkish-Reasoning-Model-mlx-4Bit`	MLX 4-bit	Apple Silicon — düşük RAM / yüksek hız
MLX FP16	`Kizagan-E4B-Turkish-Reasoning-Model-mlx-fp16`	MLX FP16	Apple Silicon — en yüksek kalite

💾 Hangi sürümü seçmeliyim?

Sunucu / NVIDIA GPU ile eğitim veya vLLM servisi: Base (BF16)

Yerel makinede llama.cpp / Ollama: Q8_0 GGUF

Mac Studio / MacBook: MLX FP16 (kalite) veya MLX 8-bit (denge) veya MLX 4-bit (hız)

🧪 Eğitim Veri Kümesi

📐 Genel İstatistikler

Alan	Değer
Toplam Satır	~540,000
Toplam Token	~2,000,000,000 (≈ 2B)
Dil	Türkçe (`tr`)
Format	Chat / Instruction (system-user-assistant)
Taksonomi Sürümü	`taxonomy_tr_sft_v1`

🗂️ Taksonomi Yapısı

Veri kümesi, tek boyutlu bir konu listesi yerine çok eksenli bir taksonomi ile üretildi. Her örnek; alan × zorluk × stil × persona × çıktı formatı × beceri × alt beceri ekseninde etiketlendi.

🎯 Alanlar (Domains)

Alan	Ağırlık
`general`	30%
`business`	15%
`software`	12%
`education`	10%
`customer_support`	10%
`security`	8%
`finance`	8%
`health`	7%

🎚️ Zorluk Dağılımı

Zorluk	Ağırlık
`easy`	30%
`medium`	50%
`hard`	20%

🎨 Üsluplar (Styles)

neutral · formal · friendly · technical · executive

👥 Personalar

öğrenci · mühendis · yönetici · müşteri temsilcisi · araştırmacı · geliştirici · güvenlik analisti · ürün yöneticisi · akademisyen

📝 Çıktı Formatları

Format	Ağırlık
`plain_paragraph`	30%
`bullets_3`	18%
`json_object`	15%
`single_sentence`	8%
`markdown_table`	8%
`steps_5`	8%
`qa_short`	7%
`email`	6%

🧠 Beceri Aileleri (Skills)

Beceri Ailesi	Ağırlık	Alt Beceriler
`instruction_following`	20%	`format_control`, `constraint_satisfaction`, `multi_step_instructions`
`rewrite_summarization`	15%	`summarization`, `rewrite_formal`, `simplify`, `expand`
`extraction_structuring`	15%	`entity_extraction`, `table_to_json`, `info_normalization`
`grounded_qa`	15%	`passage_qa`, `compare_sources`, `evidence_based_answer`
`reasoning`	15%	`everyday_reasoning`, `math_word_problem`, `error_analysis`, `decision_support`
`turkish_language`	15%	`orthography`, `punctuation`, `morphology`, `style_register`, `noisy_text_normalization`
`safety_ambiguity`	5%	`safe_refusal`, `ambiguous_request_clarification`, `uncertainty_honesty`

Her alt beceri; kendi senaryo havuzu, zorunlu içerik listesi (must_include) ve kaçınılması gereken ifade listesi (must_avoid) ile şekillendirildi. Bu sayede modelden yalnızca "doğru cevap" değil; doğru format, doğru ton ve doğru kısıt yönetimi öğrenmesi hedeflendi.

🎯 Kullanım Senaryoları

Model aşağıdaki görevlerde güçlü performans sergilemek üzere eğitildi:

✅ Çok adımlı talimat takibi — Belirli bir biçimde, belirli kısıtlarla çıktı üretme
✅ Türkçe yeniden yazım — Özetleme, resmîleştirme, sadeleştirme, genişletme
✅ Yapılandırılmış çıkarım — Serbest metinden JSON / tablo üretimi
✅ Kaynağa dayalı soru-cevap — Belge içi kanıta dayanan, halüsinasyon kaçınımlı yanıtlar
✅ Muhakeme — Günlük mantık, matematik problemleri, hata analizi, karar desteği
✅ Türkçe dil hassasiyeti — Yazım, noktalama, morfoloji, kayıt (register) ve gürültülü metin normalleştirme
✅ Güvenlik & belirsizlik — Kibar reddetme, belirsiz istekte açıklama talebi, emin olmama itirafı

⚠️ Sınırlamalar ve Sorumlu Kullanım

Model, temel olarak Türkçe için optimize edilmiştir. Başka dillerdeki performans garanti edilmez.
Küçük bir model (E4B) olması nedeniyle son derece uzun bağlamlarda ve çok uzman alanlarda (ör. ileri tıbbi teşhis, hukuki bağlayıcı yorum) büyük modellerin yerini tutmaz.
Çıktılar doğruluk açısından insan gözden geçirmesine tabi tutulmalıdır; özellikle finans, sağlık ve güvenlik alanlarında model bilgi kaynağı değil, yardımcı asistan olarak konumlandırılmalıdır.
Model, ticari ya da araştırma amaçlı kullanıma Apache 2.0 lisansı altında açıktır; ancak türev çalışmalarda temel Gemma 4 lisans koşullarına da riayet edilmelidir.

📜 Lisans

Bu model Apache License 2.0 altında yayınlanmıştır. Temel model olarak kullanılan google/gemma-4-E4B-it Google'ın Gemma Terms of Use koşullarına tabidir; türev kullanım bu koşullarla uyumlu olmalıdır.

🚀 Hızlı Başlangıç

🤗 Transformers ile

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model_id = "AlicanKiraz0/Kizagan-E4B-Turkish-Reasoning-Model"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto",
)

messages = [
    {"role": "system", "content": "Sen Türkçe konuşan, dikkatli ve muhakeme yeteneği güçlü bir asistansın."},
    {"role": "user", "content": "Bir tren saatte 80 km hızla 2,5 saat gidiyor. Toplam kaç km yol alır? Adım adım hesapla."},
]

inputs = tokenizer.apply_chat_template(
    messages,
    add_generation_prompt=True,
    return_tensors="pt",
).to(model.device)

outputs = model.generate(
    inputs,
    max_new_tokens=512,
    temperature=0.7,
    top_p=0.9,
    do_sample=True,
)

print(tokenizer.decode(outputs[0][inputs.shape[-1]:], skip_special_tokens=True))

🦙 llama.cpp / Ollama (GGUF)

# llama.cpp
./llama-cli -hf AlicanKiraz0/Kizagan-E4B-Turkish-Reasoning-Model-Q8_0-GGUF \
  -p "Türkiye'nin en kalabalık üçüncü şehri hangisidir? Kısa cevap ver."

# Ollama
ollama run hf.co/AlicanKiraz0/Kizagan-E4B-Turkish-Reasoning-Model-Q8_0-GGUF

🍎 MLX (Apple Silicon)

pip install mlx-lm

mlx_lm.generate \
  --model AlicanKiraz0/Kizagan-E4B-Turkish-Reasoning-Model-mlx-8Bit \
  --prompt "Istanbul'da bir startup kurmak isteyen bir mühendise 5 adımlık yol haritası çıkar." \
  --max-tokens 512

🙏 Teşekkür

Google DeepMind — Gemma 4 E4B temel modelini açık kaynak olarak yayınladığı için.
Hugging Face — Açık ağırlıklar ekosistemi ve değerlendirme altyapısı için.
malhajar/mmlu_tr-v0.2 — Türkçe MMLU değerlendirme veri kümesi için.
Türkçe açık kaynak NLP topluluğu — Her hafta yeni bir modelin açık kaynak olarak yayınlanmasına ilham verdiği için.

📖 Atıf

Bu modeli araştırma ya da ürünlerinizde kullanıyorsanız lütfen şu şekilde atıfta bulunun:

@misc{kiraz2026kizagan,
  author       = {Alican Kiraz},
  title        = {Kızagan-E4B: A Turkish Reasoning Model Fine-Tuned from Gemma 4 E4B},
  year         = {2026},
  publisher    = {Hugging Face},
  howpublished = {\url{https://huggingface.co/AlicanKiraz0/Kizagan-E4B-Turkish-Reasoning-Model}},
}