LLM-RL - a Nagi-ovo Collection

Models
Datasets
Spaces
Buckets new
Docs
Enterprise
Pricing
Log In
Sign Up

Nagi-ovo 's Collections

Llama-3-8B-RLHF-Pipeline

LLM-RL

updated Jan 31

RLHF to RLVR

Nagi-ovo/DeepSeek-V3.1-Math-RL-G16-LoRA

Updated Jan 31
Nagi-ovo/Qwen3-235B-A22B-Instruct-MATH-RL-LoRA

Updated Jan 31
Nagi-ovo/Qwen2.5-7B-Reasoning-Adapter

Text Generation • Updated Feb 8, 2025 • 2
Nagi-ovo/Llama-3-8B-PPO

Text Generation • 8B • Updated Jan 21, 2025 • 4
Nagi-ovo/Llama-3-8B-RM

Text Classification • 8B • Updated Jan 6, 2025 • 1 • 2

Collection guide
Browse collections

Company

TOS Privacy About Careers

Website

Models Datasets Spaces Pricing Docs