HuggingFaceFW/fineweb-2
Viewer • Updated • 4.48B • 61.5k • 816
Poziomka-malutka to model językowy trenowany jedynie na języku polskim. Model widział 5 miliardów tokenów i był trenowany od zera z użyciem Megatron-LM. Model używa architektury BailingV2MoE. Ma 128 ekspertów, 2 z nich jest aktywnych przy każdym tokenie.
Jest to model typu baza, więc nie wspiera szablonu konwersacyjnego.
Koszt reprodukcji tego modelu to około 200 PLN