Model save

Browse files

Files changed (5) hide show

README.md +67 -0
all_results.json +8 -0
generation_config.json +14 -0
train_results.json +8 -0
trainer_state.json +1809 -0

README.md ADDED Viewed

	@@ -0,0 +1,67 @@

+---
+library_name: transformers
+model_name: Qwen2.5-1.5B-Open-R1-GRPO
+tags:
+- generated_from_trainer
+- trl
+- grpo
+licence: license
+---
+# Model Card for Qwen2.5-1.5B-Open-R1-GRPO
+This model is a fine-tuned version of [None](https://huggingface.co/None).
+It has been trained using [TRL](https://github.com/huggingface/trl).
+## Quick start
+```python
+from transformers import pipeline
+question = "If you had a time machine, but could only go to the past or the future once and never return, which would you choose and why?"
+generator = pipeline("text-generation", model="yolay/Qwen2.5-1.5B-Open-R1-GRPO", device="cuda")
+output = generator([{"role": "user", "content": question}], max_new_tokens=128, return_full_text=False)[0]
+print(output["generated_text"])
+```
+## Training procedure
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/yuleiqin-tencent/huggingface/runs/5ngah7mu)
+This model was trained with GRPO, a method introduced in [DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models](https://huggingface.co/papers/2402.03300).
+### Framework versions
+- TRL: 0.15.0.dev0
+- Transformers: 4.49.0.dev0
+- Pytorch: 2.5.1
+- Datasets: 3.2.0
+- Tokenizers: 0.21.0
+## Citations
+Cite GRPO as:
+```bibtex
+@article{zhihong2024deepseekmath,
+    title        = {{DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models}},
+    author       = {Zhihong Shao and Peiyi Wang and Qihao Zhu and Runxin Xu and Junxiao Song and Mingchuan Zhang and Y. K. Li and Y. Wu and Daya Guo},
+    year         = 2024,
+    eprint       = {arXiv:2402.03300},
+}
+```
+Cite TRL as:
+```bibtex
+@misc{vonwerra2022trl,
+	title        = {{TRL: Transformer Reinforcement Learning}},
+	author       = {Leandro von Werra and Younes Belkada and Lewis Tunstall and Edward Beeching and Tristan Thrush and Nathan Lambert and Shengyi Huang and Kashif Rasul and Quentin Gallouédec},
+	year         = 2020,
+	journal      = {GitHub repository},
+	publisher    = {GitHub},
+	howpublished = {\url{https://github.com/huggingface/trl}}
+}
+```

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "total_flos": 0.0,
+    "train_loss": 0.13680233840041295,
+    "train_runtime": 51841.8905,
+    "train_samples": 72441,
+    "train_samples_per_second": 1.397,
+    "train_steps_per_second": 0.012
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "bos_token_id": 151643,
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "repetition_penalty": 1.1,
+  "temperature": 0.7,
+  "top_k": 20,
+  "top_p": 0.8,
+  "transformers_version": "4.49.0.dev0"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "total_flos": 0.0,
+    "train_loss": 0.13680233840041295,
+    "train_runtime": 51841.8905,
+    "train_samples": 72441,
+    "train_samples_per_second": 1.397,
+    "train_steps_per_second": 0.012
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1809 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.9987438399845395,
+  "eval_steps": 100,
+  "global_step": 646,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "completion_length": 398.2607320785522,
+      "epoch": 0.007730215479756498,
+      "grad_norm": 0.6042563694653488,
+      "kl": 0.00012127757072448731,
+      "learning_rate": 1.5384615384615387e-06,
+      "loss": 0.0,
+      "reward": 0.6366071738302708,
+      "reward_std": 0.32451150137931106,
+      "rewards/accuracy_reward": 0.1723214378580451,
+      "rewards/format_reward": 0.46428573289886116,
+      "step": 5
+    },
+    {
+      "completion_length": 357.93305110931396,
+      "epoch": 0.015460430959512996,
+      "grad_norm": 0.7802913073139134,
+      "kl": 0.007133913040161133,
+      "learning_rate": 3.0769230769230774e-06,
+      "loss": 0.0003,
+      "reward": 0.7535714633762837,
+      "reward_std": 0.26516504064202306,
+      "rewards/accuracy_reward": 0.11964286342263222,
+      "rewards/format_reward": 0.6339285995811224,
+      "step": 10
+    },
+    {
+      "completion_length": 291.9857277870178,
+      "epoch": 0.023190646439269495,
+      "grad_norm": 0.4454731956977912,
+      "kl": 0.0273590087890625,
+      "learning_rate": 4.615384615384616e-06,
+      "loss": 0.0011,
+      "reward": 0.8758928969502449,
+      "reward_std": 0.22602162957191468,
+      "rewards/accuracy_reward": 0.08214286118745803,
+      "rewards/format_reward": 0.7937500394880772,
+      "step": 15
+    },
+    {
+      "completion_length": 291.47322788238523,
+      "epoch": 0.03092086191902599,
+      "grad_norm": 0.4324622452746649,
+      "kl": 0.01610870361328125,
+      "learning_rate": 6.153846153846155e-06,
+      "loss": 0.0006,
+      "reward": 0.8642857551574707,
+      "reward_std": 0.25253813322633506,
+      "rewards/accuracy_reward": 0.09285714775323868,
+      "rewards/format_reward": 0.7714286111295223,
+      "step": 20
+    },
+    {
+      "completion_length": 226.4142951965332,
+      "epoch": 0.03865107739878249,
+      "grad_norm": 0.3675938596678119,
+      "kl": 0.026679229736328126,
+      "learning_rate": 7.692307692307694e-06,
+      "loss": 0.0011,
+      "reward": 0.9687500387430191,
+      "reward_std": 0.21592010390013455,
+      "rewards/accuracy_reward": 0.10178571976721287,
+      "rewards/format_reward": 0.8669643253087997,
+      "step": 25
+    },
+    {
+      "completion_length": 197.68036499023438,
+      "epoch": 0.04638129287853899,
+      "grad_norm": 0.3061792577373215,
+      "kl": 0.033779144287109375,
+      "learning_rate": 9.230769230769232e-06,
+      "loss": 0.0014,
+      "reward": 1.04107146859169,
+      "reward_std": 0.16920054908841847,
+      "rewards/accuracy_reward": 0.10803572004660963,
+      "rewards/format_reward": 0.9330357395112514,
+      "step": 30
+    },
+    {
+      "completion_length": 196.36340112686156,
+      "epoch": 0.054111508358295486,
+      "grad_norm": 0.2761290868371635,
+      "kl": 0.0447174072265625,
+      "learning_rate": 1.076923076923077e-05,
+      "loss": 0.0018,
+      "reward": 1.1089286178350448,
+      "reward_std": 0.14647211749106645,
+      "rewards/accuracy_reward": 0.13750000707805157,
+      "rewards/format_reward": 0.9714285843074322,
+      "step": 35
+    },
+    {
+      "completion_length": 233.76518907546998,
+      "epoch": 0.06184172383805198,
+      "grad_norm": 0.6542348704176013,
+      "kl": 0.06229248046875,
+      "learning_rate": 1.230769230769231e-05,
+      "loss": 0.0025,
+      "reward": 1.1125000432133674,
+      "reward_std": 0.1313198298215866,
+      "rewards/accuracy_reward": 0.1401785789988935,
+      "rewards/format_reward": 0.9723214417695999,
+      "step": 40
+    },
+    {
+      "completion_length": 189.32232856750488,
+      "epoch": 0.06957193931780849,
+      "grad_norm": 0.3188732151645114,
+      "kl": 0.0878082275390625,
+      "learning_rate": 1.3846153846153847e-05,
+      "loss": 0.0035,
+      "reward": 1.0857143267989158,
+      "reward_std": 0.14142135493457317,
+      "rewards/accuracy_reward": 0.11339286295697093,
+      "rewards/format_reward": 0.9723214417695999,
+      "step": 45
+    },
+    {
+      "completion_length": 300.7259063720703,
+      "epoch": 0.07730215479756498,
+      "grad_norm": 0.31691534877890665,
+      "kl": 0.0990020751953125,
+      "learning_rate": 1.5384615384615387e-05,
+      "loss": 0.004,
+      "reward": 1.05267860814929,
+      "reward_std": 0.2133947243914008,
+      "rewards/accuracy_reward": 0.15000000735744834,
+      "rewards/format_reward": 0.9026786051690578,
+      "step": 50
+    },
+    {
+      "completion_length": 277.56429901123045,
+      "epoch": 0.08503237027732148,
+      "grad_norm": 0.3063068659110802,
+      "kl": 0.06175537109375,
+      "learning_rate": 1.6923076923076924e-05,
+      "loss": 0.0025,
+      "reward": 1.0723214723169803,
+      "reward_std": 0.21844548601657152,
+      "rewards/accuracy_reward": 0.15982143683359026,
+      "rewards/format_reward": 0.9125000342726708,
+      "step": 55
+    },
+    {
+      "completion_length": 322.78662223815917,
+      "epoch": 0.09276258575707798,
+      "grad_norm": 0.2797133381390773,
+      "kl": 0.0583984375,
+      "learning_rate": 1.8461538461538465e-05,
+      "loss": 0.0023,
+      "reward": 1.1383929125964642,
+      "reward_std": 0.15783633291721344,
+      "rewards/accuracy_reward": 0.1839285811409354,
+      "rewards/format_reward": 0.9544643051922321,
+      "step": 60
+    },
+    {
+      "completion_length": 290.8223346710205,
+      "epoch": 0.10049280123683448,
+      "grad_norm": 0.22020075522546995,
+      "kl": 0.072247314453125,
+      "learning_rate": 2e-05,
+      "loss": 0.0029,
+      "reward": 1.1482143357396126,
+      "reward_std": 0.133845211006701,
+      "rewards/accuracy_reward": 0.16071429401636123,
+      "rewards/format_reward": 0.9875000059604645,
+      "step": 65
+    },
+    {
+      "completion_length": 296.99554920196533,
+      "epoch": 0.10822301671659097,
+      "grad_norm": 0.25171935257044675,
+      "kl": 0.077728271484375,
+      "learning_rate": 1.999634547413886e-05,
+      "loss": 0.0031,
+      "reward": 1.157142909616232,
+      "reward_std": 0.16414978671818972,
+      "rewards/accuracy_reward": 0.19285715268924833,
+      "rewards/format_reward": 0.9642857298254967,
+      "step": 70
+    },
+    {
+      "completion_length": 321.1794790267944,
+      "epoch": 0.11595323219634747,
+      "grad_norm": 0.35630454010296175,
+      "kl": 0.083953857421875,
+      "learning_rate": 1.9985384567667278e-05,
+      "loss": 0.0034,
+      "reward": 1.0901786163449287,
+      "reward_std": 0.22602162901312112,
+      "rewards/accuracy_reward": 0.1794642936438322,
+      "rewards/format_reward": 0.9107143178582191,
+      "step": 75
+    },
+    {
+      "completion_length": 253.01072540283204,
+      "epoch": 0.12368344767610397,
+      "grad_norm": 0.22028353611198634,
+      "kl": 0.090179443359375,
+      "learning_rate": 1.9967125291968495e-05,
+      "loss": 0.0036,
+      "reward": 1.0892857559025289,
+      "reward_std": 0.19950512517243624,
+      "rewards/accuracy_reward": 0.15892858076840638,
+      "rewards/format_reward": 0.9303571678698063,
+      "step": 80
+    },
+    {
+      "completion_length": 221.2348321914673,
+      "epoch": 0.13141366315586048,
+      "grad_norm": 0.23846717001551665,
+      "kl": 0.103912353515625,
+      "learning_rate": 1.9941580992841562e-05,
+      "loss": 0.0042,
+      "reward": 1.1187500461935997,
+      "reward_std": 0.13258252013474703,
+      "rewards/accuracy_reward": 0.14464286463335158,
+      "rewards/format_reward": 0.9741071552038193,
+      "step": 85
+    },
+    {
+      "completion_length": 238.93393840789795,
+      "epoch": 0.13914387863561697,
+      "grad_norm": 0.28253877862072746,
+      "kl": 0.10802001953125,
+      "learning_rate": 1.990877034074683e-05,
+      "loss": 0.0043,
+      "reward": 1.1500000476837158,
+      "reward_std": 0.15909902472048998,
+      "rewards/accuracy_reward": 0.16964286640286447,
+      "rewards/format_reward": 0.980357151478529,
+      "step": 90
+    },
+    {
+      "completion_length": 384.65805397033694,
+      "epoch": 0.14687409411537347,
+      "grad_norm": 0.246515365890744,
+      "kl": 320.1103820800781,
+      "learning_rate": 1.9868717317159617e-05,
+      "loss": 12.8246,
+      "reward": 1.1482143349945546,
+      "reward_std": 0.2323350828140974,
+      "rewards/accuracy_reward": 0.2267857251688838,
+      "rewards/format_reward": 0.9214286006987095,
+      "step": 95
+    },
+    {
+      "completion_length": 430.77234039306643,
+      "epoch": 0.15460430959512997,
+      "grad_norm": 0.21987794238704425,
+      "kl": 0.212005615234375,
+      "learning_rate": 1.9821451197042028e-05,
+      "loss": 0.0085,
+      "reward": 1.0955357640981673,
+      "reward_std": 0.28410540148615837,
+      "rewards/accuracy_reward": 0.21785715371370315,
+      "rewards/format_reward": 0.877678605914116,
+      "step": 100
+    },
+    {
+      "epoch": 0.15460430959512997,
+      "eval_completion_length": 306.96846771240234,
+      "eval_kl": 0.09576416015625,
+      "eval_loss": 0.00375110050663352,
+      "eval_reward": 1.1964286267757416,
+      "eval_reward_std": 0.21465741284191608,
+      "eval_rewards/accuracy_reward": 0.2366071566939354,
+      "eval_rewards/format_reward": 0.9598214477300644,
+      "eval_runtime": 39.1469,
+      "eval_samples_per_second": 2.529,
+      "eval_steps_per_second": 0.102,
+      "step": 100
+    },
+    {
+      "completion_length": 296.79733486175536,
+      "epoch": 0.16233452507488647,
+      "grad_norm": 0.22613704416746724,
+      "kl": 0.101495361328125,
+      "learning_rate": 1.9767006527445728e-05,
+      "loss": 0.0041,
+      "reward": 1.1491071999073028,
+      "reward_std": 0.17551400382071733,
+      "rewards/accuracy_reward": 0.1830357233993709,
+      "rewards/format_reward": 0.9660714447498322,
+      "step": 105
+    },
+    {
+      "completion_length": 231.32143831253052,
+      "epoch": 0.17006474055464296,
+      "grad_norm": 0.2736697715915322,
+      "kl": 0.115789794921875,
+      "learning_rate": 1.9705423102261324e-05,
+      "loss": 0.0046,
+      "reward": 1.128571480512619,
+      "reward_std": 0.1818274561315775,
+      "rewards/accuracy_reward": 0.15892858002334834,
+      "rewards/format_reward": 0.9696428716182709,
+      "step": 110
+    },
+    {
+      "completion_length": 217.31161766052247,
+      "epoch": 0.17779495603439946,
+      "grad_norm": 0.2715660388125083,
+      "kl": 0.134747314453125,
+      "learning_rate": 1.9636745933132807e-05,
+      "loss": 0.0054,
+      "reward": 1.1080357626080513,
+      "reward_std": 0.16793785914778708,
+      "rewards/accuracy_reward": 0.1410714359022677,
+      "rewards/format_reward": 0.9669643007218838,
+      "step": 115
+    },
+    {
+      "completion_length": 264.1339414596558,
+      "epoch": 0.18552517151415596,
+      "grad_norm": 0.28581146278588754,
+      "kl": 0.150201416015625,
+      "learning_rate": 1.956102521655831e-05,
+      "loss": 0.006,
+      "reward": 1.1258929021656514,
+      "reward_std": 0.21339472178369762,
+      "rewards/accuracy_reward": 0.1919642947614193,
+      "rewards/format_reward": 0.9339285977184772,
+      "step": 120
+    },
+    {
+      "completion_length": 292.79108371734617,
+      "epoch": 0.19325538699391245,
+      "grad_norm": 0.7258310743765034,
+      "kl": 0.18944091796875,
+      "learning_rate": 1.9478316297201218e-05,
+      "loss": 0.0076,
+      "reward": 1.1303571976721287,
+      "reward_std": 0.2424366096034646,
+      "rewards/accuracy_reward": 0.2214285818859935,
+      "rewards/format_reward": 0.9089286021888257,
+      "step": 125
+    },
+    {
+      "completion_length": 224.37768850326538,
+      "epoch": 0.20098560247366895,
+      "grad_norm": 0.5660752703191607,
+      "kl": 0.51148681640625,
+      "learning_rate": 1.9388679627438486e-05,
+      "loss": 0.0205,
+      "reward": 1.0053571909666061,
+      "reward_std": 0.33082495592534544,
+      "rewards/accuracy_reward": 0.20267858086153864,
+      "rewards/format_reward": 0.8026786111295223,
+      "step": 130
+    },
+    {
+      "completion_length": 136.95804138183593,
+      "epoch": 0.20871581795342545,
+      "grad_norm": 1.7299812104574703,
+      "kl": 0.520361328125,
+      "learning_rate": 1.9292180723175656e-05,
+      "loss": 0.0208,
+      "reward": 0.9401786185801029,
+      "reward_std": 0.39269680101424453,
+      "rewards/accuracy_reward": 0.17589286603033544,
+      "rewards/format_reward": 0.7642857521772385,
+      "step": 135
+    },
+    {
+      "completion_length": 292.2187627792358,
+      "epoch": 0.21644603343318194,
+      "grad_norm": 0.360874201843721,
+      "kl": 0.4266845703125,
+      "learning_rate": 1.9188890115960967e-05,
+      "loss": 0.0171,
+      "reward": 1.0937500461935996,
+      "reward_std": 0.2032931974157691,
+      "rewards/accuracy_reward": 0.1535714365541935,
+      "rewards/format_reward": 0.9401785939931869,
+      "step": 140
+    },
+    {
+      "completion_length": 203.01786556243897,
+      "epoch": 0.22417624891293844,
+      "grad_norm": 0.3748600306818795,
+      "kl": 0.28094482421875,
+      "learning_rate": 1.9078883301433488e-05,
+      "loss": 0.0112,
+      "reward": 1.090178620815277,
+      "reward_std": 0.20581857804208994,
+      "rewards/accuracy_reward": 0.16607143692672252,
+      "rewards/format_reward": 0.9241071708500386,
+      "step": 145
+    },
+    {
+      "completion_length": 325.5580488204956,
+      "epoch": 0.23190646439269494,
+      "grad_norm": 74.76840594405346,
+      "kl": 0.74801025390625,
+      "learning_rate": 1.8962240684142923e-05,
+      "loss": 0.0299,
+      "reward": 0.8758928962051868,
+      "reward_std": 0.3219861214980483,
+      "rewards/accuracy_reward": 0.12589286426082252,
+      "rewards/format_reward": 0.750000037997961,
+      "step": 150
+    },
+    {
+      "completion_length": 371.35894470214845,
+      "epoch": 0.23963667987245144,
+      "grad_norm": 72.4191179163845,
+      "kl": 0.8891845703125,
+      "learning_rate": 1.883904751878156e-05,
+      "loss": 0.0356,
+      "reward": 0.8571428939700126,
+      "reward_std": 0.36618029810488223,
+      "rewards/accuracy_reward": 0.1589285798370838,
+      "rewards/format_reward": 0.6982143167406321,
+      "step": 155
+    },
+    {
+      "completion_length": 315.3026921272278,
+      "epoch": 0.24736689535220793,
+      "grad_norm": 1.580738805644984,
+      "kl": 0.48006591796875,
+      "learning_rate": 1.8709393847871146e-05,
+      "loss": 0.0192,
+      "reward": 0.8991071823984385,
+      "reward_std": 0.32451150212436913,
+      "rewards/accuracy_reward": 0.16428572265431285,
+      "rewards/format_reward": 0.7348214674741029,
+      "step": 160
+    },
+    {
+      "completion_length": 380.33751621246336,
+      "epoch": 0.25509711083196446,
+      "grad_norm": 155.90661885034666,
+      "kl": 2.71826171875,
+      "learning_rate": 1.857337443595034e-05,
+      "loss": 0.1089,
+      "reward": 0.9276786163449288,
+      "reward_std": 0.3750191332772374,
+      "rewards/accuracy_reward": 0.16696429420262576,
+      "rewards/format_reward": 0.7607143238186836,
+      "step": 165
+    },
+    {
+      "completion_length": 391.8839458465576,
+      "epoch": 0.26282732631172095,
+      "grad_norm": 2.7868948262319475,
+      "kl": 0.80675048828125,
+      "learning_rate": 1.8431088700310846e-05,
+      "loss": 0.0323,
+      "reward": 1.1080357603728772,
+      "reward_std": 0.18814090844243764,
+      "rewards/accuracy_reward": 0.16428572246804835,
+      "rewards/format_reward": 0.9437500201165676,
+      "step": 170
+    },
+    {
+      "completion_length": 242.89018936157225,
+      "epoch": 0.27055754179147745,
+      "grad_norm": 0.42925991415337916,
+      "kl": 0.2980712890625,
+      "learning_rate": 1.8282640638332773e-05,
+      "loss": 0.0119,
+      "reward": 0.9973214760422706,
+      "reward_std": 0.2790546391159296,
+      "rewards/accuracy_reward": 0.16696429438889027,
+      "rewards/format_reward": 0.8303571760654449,
+      "step": 175
+    },
+    {
+      "completion_length": 420.8875186920166,
+      "epoch": 0.27828775727123395,
+      "grad_norm": 5.77238039316987,
+      "kl": 2.53583984375,
+      "learning_rate": 1.8128138751472432e-05,
+      "loss": 0.1013,
+      "reward": 0.6794643143191934,
+      "reward_std": 0.38764603715389967,
+      "rewards/accuracy_reward": 0.13125000707805157,
+      "rewards/format_reward": 0.5482143117114902,
+      "step": 180
+    },
+    {
+      "completion_length": 377.3401969909668,
+      "epoch": 0.28601797275099045,
+      "grad_norm": 46.08902975257459,
+      "kl": 1.4901123046875,
+      "learning_rate": 1.7967695965958044e-05,
+      "loss": 0.0597,
+      "reward": 0.9267857566475868,
+      "reward_std": 0.351028005965054,
+      "rewards/accuracy_reward": 0.1696428656578064,
+      "rewards/format_reward": 0.7571428924798965,
+      "step": 185
+    },
+    {
+      "completion_length": 269.395546913147,
+      "epoch": 0.29374818823074694,
+      "grad_norm": 0.3753752369724839,
+      "kl": 1.59666748046875,
+      "learning_rate": 1.780142955025139e-05,
+      "loss": 0.064,
+      "reward": 1.1169643260538578,
+      "reward_std": 0.22349624745547772,
+      "rewards/accuracy_reward": 0.2044642954133451,
+      "rewards/format_reward": 0.9125000283122062,
+      "step": 190
+    },
+    {
+      "completion_length": 285.7642984390259,
+      "epoch": 0.30147840371050344,
+      "grad_norm": 1.6098957935540266,
+      "kl": 1.1361083984375,
+      "learning_rate": 1.7629461029335683e-05,
+      "loss": 0.0454,
+      "reward": 1.0705357670783997,
+      "reward_std": 0.3017830714583397,
+      "rewards/accuracy_reward": 0.21339286854490638,
+      "rewards/format_reward": 0.8571428984403611,
+      "step": 195
+    },
+    {
+      "completion_length": 360.73573036193847,
+      "epoch": 0.30920861919025994,
+      "grad_norm": 24.77991428569718,
+      "kl": 1.9080322265625,
+      "learning_rate": 1.745191609589231e-05,
+      "loss": 0.0764,
+      "reward": 0.9089286141097546,
+      "reward_std": 0.3737564399838448,
+      "rewards/accuracy_reward": 0.15892858104780316,
+      "rewards/format_reward": 0.7500000361353159,
+      "step": 200
+    },
+    {
+      "epoch": 0.30920861919025994,
+      "eval_completion_length": 388.8497200012207,
+      "eval_kl": 4.3896484375,
+      "eval_loss": 0.16958686709403992,
+      "eval_reward": 1.0178571790456772,
+      "eval_reward_std": 0.404061034321785,
+      "eval_rewards/accuracy_reward": 0.2455357238650322,
+      "eval_rewards/format_reward": 0.7723214700818062,
+      "eval_runtime": 48.8596,
+      "eval_samples_per_second": 2.026,
+      "eval_steps_per_second": 0.082,
+      "step": 200
+    },
+    {
+      "completion_length": 370.7384090423584,
+      "epoch": 0.31693883467001643,
+      "grad_norm": 9.980763942338113,
+      "kl": 2.82935791015625,
+      "learning_rate": 1.7268924518431437e-05,
+      "loss": 0.1132,
+      "reward": 0.9776786178350448,
+      "reward_std": 0.34218916948884726,
+      "rewards/accuracy_reward": 0.19910715324804187,
+      "rewards/format_reward": 0.7785714693367481,
+      "step": 205
+    },
+    {
+      "completion_length": 290.9964431762695,
+      "epoch": 0.32466905014977293,
+      "grad_norm": 1.9760739124872957,
+      "kl": 1.00716552734375,
+      "learning_rate": 1.7080620046443503e-05,
+      "loss": 0.0403,
+      "reward": 1.025000049173832,
+      "reward_std": 0.2752665659412742,
+      "rewards/accuracy_reward": 0.1750000081025064,
+      "rewards/format_reward": 0.8500000417232514,
+      "step": 210
+    },
+    {
+      "completion_length": 204.87858114242553,
+      "epoch": 0.33239926562952943,
+      "grad_norm": 0.6268244531901943,
+      "kl": 0.43160400390625,
+      "learning_rate": 1.6887140312641036e-05,
+      "loss": 0.0173,
+      "reward": 1.0633929058909417,
+      "reward_std": 0.25127544458955525,
+      "rewards/accuracy_reward": 0.16517857881262898,
+      "rewards/format_reward": 0.8982143223285675,
+      "step": 215
+    },
+    {
+      "completion_length": 247.21429824829102,
+      "epoch": 0.3401294811092859,
+      "grad_norm": 0.5949423088731468,
+      "kl": 0.675537109375,
+      "learning_rate": 1.6688626732362192e-05,
+      "loss": 0.027,
+      "reward": 0.9500000357627869,
+      "reward_std": 0.3005203790962696,
+      "rewards/accuracy_reward": 0.12946429271250964,
+      "rewards/format_reward": 0.820535758137703,
+      "step": 220
+    },
+    {
+      "completion_length": 190.4634015083313,
+      "epoch": 0.3478596965890424,
+      "grad_norm": 0.42764857782637755,
+      "kl": 0.33341064453125,
+      "learning_rate": 1.6485224400209557e-05,
+      "loss": 0.0133,
+      "reward": 1.0767857618629932,
+      "reward_std": 0.21213203240185977,
+      "rewards/accuracy_reward": 0.16250000838190318,
+      "rewards/format_reward": 0.9142857469618321,
+      "step": 225
+    },
+    {
+      "completion_length": 210.5357223510742,
+      "epoch": 0.3555899120687989,
+      "grad_norm": 24.683355476887744,
+      "kl": 3.64019775390625,
+      "learning_rate": 1.6277081983999742e-05,
+      "loss": 0.1459,
+      "reward": 1.141071478277445,
+      "reward_std": 0.20708126928657294,
+      "rewards/accuracy_reward": 0.19375001089647412,
+      "rewards/format_reward": 0.9473214522004128,
+      "step": 230
+    },
+    {
+      "completion_length": 314.76697731018066,
+      "epoch": 0.3633201275485554,
+      "grad_norm": 2.2235055363102907,
+      "kl": 0.845751953125,
+      "learning_rate": 1.6064351616101318e-05,
+      "loss": 0.0338,
+      "reward": 1.0339286170899868,
+      "reward_std": 0.27274118475615977,
+      "rewards/accuracy_reward": 0.15892857927829027,
+      "rewards/format_reward": 0.875000037252903,
+      "step": 235
+    },
+    {
+      "completion_length": 349.63215923309326,
+      "epoch": 0.3710503430283119,
+      "grad_norm": 2.116200281477274,
+      "kl": 1.61800537109375,
+      "learning_rate": 1.5847188782240473e-05,
+      "loss": 0.0647,
+      "reward": 1.0000000484287739,
+      "reward_std": 0.31062190532684325,
+      "rewards/accuracy_reward": 0.16339286621659993,
+      "rewards/format_reward": 0.8366071827709675,
+      "step": 240
+    },
+    {
+      "completion_length": 300.8339429855347,
+      "epoch": 0.3787805585080684,
+      "grad_norm": 1.1477379512060555,
+      "kl": 1.49195556640625,
+      "learning_rate": 1.562575220785569e-05,
+      "loss": 0.0597,
+      "reward": 1.0580357618629932,
+      "reward_std": 0.291681545227766,
+      "rewards/accuracy_reward": 0.17767858114093543,
+      "rewards/format_reward": 0.8803571790456772,
+      "step": 245
+    },
+    {
+      "completion_length": 299.05715465545654,
+      "epoch": 0.3865107739878249,
+      "grad_norm": 0.8348365648461077,
+      "kl": 1.25382080078125,
+      "learning_rate": 1.5400203742084508e-05,
+      "loss": 0.0502,
+      "reward": 1.0508929029107095,
+      "reward_std": 0.2841053992509842,
+      "rewards/accuracy_reward": 0.17946429466828703,
+      "rewards/format_reward": 0.8714286103844643,
+      "step": 250
+    },
+    {
+      "completion_length": 263.1178680419922,
+      "epoch": 0.3942409894675814,
+      "grad_norm": 4.699113934464697,
+      "kl": 1.31427001953125,
+      "learning_rate": 1.5170708239467143e-05,
+      "loss": 0.0526,
+      "reward": 1.0598214752972126,
+      "reward_std": 0.2613769697025418,
+      "rewards/accuracy_reward": 0.17321429392322898,
+      "rewards/format_reward": 0.8866071790456772,
+      "step": 255
+    },
+    {
+      "completion_length": 301.30447845458986,
+      "epoch": 0.4019712049473379,
+      "grad_norm": 25.580783149116392,
+      "kl": 4.94813232421875,
+      "learning_rate": 1.4937433439453465e-05,
+      "loss": 0.1981,
+      "reward": 1.0321429051458835,
+      "reward_std": 0.3080965233966708,
+      "rewards/accuracy_reward": 0.18750001015141607,
+      "rewards/format_reward": 0.8446428962051868,
+      "step": 260
+    },
+    {
+      "completion_length": 353.21697826385497,
+      "epoch": 0.4097014204270944,
+      "grad_norm": 21.725814777895923,
+      "kl": 3.99072265625,
+      "learning_rate": 1.4700549843801359e-05,
+      "loss": 0.1599,
+      "reward": 0.9294643267989159,
+      "reward_std": 0.3447145516052842,
+      "rewards/accuracy_reward": 0.1553571513853967,
+      "rewards/format_reward": 0.7741071842610836,
+      "step": 265
+    },
+    {
+      "completion_length": 289.2535852432251,
+      "epoch": 0.4174316359068509,
+      "grad_norm": 1.0129293730640343,
+      "kl": 1.88997802734375,
+      "learning_rate": 1.4460230591956097e-05,
+      "loss": 0.0756,
+      "reward": 1.027678620070219,
+      "reward_std": 0.2714784935116768,
+      "rewards/accuracy_reward": 0.1714285804890096,
+      "rewards/format_reward": 0.8562500402331352,
+      "step": 270
+    },
+    {
+      "completion_length": 251.7080472946167,
+      "epoch": 0.4251618513866074,
+      "grad_norm": 13.1390097339807,
+      "kl": 1.76666259765625,
+      "learning_rate": 1.421665133450184e-05,
+      "loss": 0.0707,
+      "reward": 1.1142857648432254,
+      "reward_std": 0.22223355881869794,
+      "rewards/accuracy_reward": 0.19017858151346445,
+      "rewards/format_reward": 0.9241071723401546,
+      "step": 275
+    },
+    {
+      "completion_length": 222.12590236663817,
+      "epoch": 0.4328920668663639,
+      "grad_norm": 0.28425211793760446,
+      "kl": 0.20849609375,
+      "learning_rate": 1.3969990104777712e-05,
+      "loss": 0.0083,
+      "reward": 1.1330357640981674,
+      "reward_std": 0.18561552856117486,
+      "rewards/accuracy_reward": 0.17589286677539348,
+      "rewards/format_reward": 0.9571428775787354,
+      "step": 280
+    },
+    {
+      "completion_length": 292.66430015563964,
+      "epoch": 0.4406222823461204,
+      "grad_norm": 0.2655799067132994,
+      "kl": 0.1830810546875,
+      "learning_rate": 1.3720427188752306e-05,
+      "loss": 0.0073,
+      "reward": 1.052678619325161,
+      "reward_std": 0.24875006265938282,
+      "rewards/accuracy_reward": 0.17232143683359027,
+      "rewards/format_reward": 0.8803571783006191,
+      "step": 285
+    },
+    {
+      "completion_length": 347.53840770721433,
+      "epoch": 0.4483524978258769,
+      "grad_norm": 0.2414520404968147,
+      "kl": 0.1782958984375,
+      "learning_rate": 1.3468144993251735e-05,
+      "loss": 0.0071,
+      "reward": 1.0098214797675609,
+      "reward_std": 0.28158001936972143,
+      "rewards/accuracy_reward": 0.1848214385099709,
+      "rewards/format_reward": 0.8250000409781932,
+      "step": 290
+    },
+    {
+      "completion_length": 290.5705478668213,
+      "epoch": 0.4560827133056334,
+      "grad_norm": 0.21789909324241594,
+      "kl": 0.162786865234375,
+      "learning_rate": 1.3213327912637563e-05,
+      "loss": 0.0065,
+      "reward": 1.0812500432133674,
+      "reward_std": 0.28410540260374545,
+      "rewards/accuracy_reward": 0.19107143776491284,
+      "rewards/format_reward": 0.8901786096394062,
+      "step": 295
+    },
+    {
+      "completion_length": 231.57590255737304,
+      "epoch": 0.4638129287853899,
+      "grad_norm": 0.24661177068993628,
+      "kl": 0.158062744140625,
+      "learning_rate": 1.295616219403197e-05,
+      "loss": 0.0063,
+      "reward": 1.0991071954369545,
+      "reward_std": 0.19319167286157607,
+      "rewards/accuracy_reward": 0.1589285796508193,
+      "rewards/format_reward": 0.9401785969734192,
+      "step": 300
+    },
+    {
+      "epoch": 0.4638129287853899,
+      "eval_completion_length": 219.2982234954834,
+      "eval_kl": 0.13836669921875,
+      "eval_loss": 0.005582114681601524,
+      "eval_reward": 1.1339286118745804,
+      "eval_reward_std": 0.2020305097103119,
+      "eval_rewards/accuracy_reward": 0.17410715483129025,
+      "eval_rewards/format_reward": 0.9598214477300644,
+      "eval_runtime": 36.5449,
+      "eval_samples_per_second": 2.709,
+      "eval_steps_per_second": 0.109,
+      "step": 300
+    },
+    {
+      "completion_length": 260.4241186141968,
+      "epoch": 0.4715431442651464,
+      "grad_norm": 0.24760948713769942,
+      "kl": 0.17685546875,
+      "learning_rate": 1.2696835801188816e-05,
+      "loss": 0.0071,
+      "reward": 1.0669643342494965,
+      "reward_std": 0.2209708673879504,
+      "rewards/accuracy_reward": 0.15625000838190317,
+      "rewards/format_reward": 0.9107143193483352,
+      "step": 305
+    },
+    {
+      "completion_length": 277.2196553230286,
+      "epoch": 0.47927335974490287,
+      "grad_norm": 0.3195688766813074,
+      "kl": 0.1870849609375,
+      "learning_rate": 1.2435538277109919e-05,
+      "loss": 0.0075,
+      "reward": 1.0392857626080514,
+      "reward_std": 0.26011427883058785,
+      "rewards/accuracy_reward": 0.15089286481961608,
+      "rewards/format_reward": 0.8883928909897805,
+      "step": 310
+    },
+    {
+      "completion_length": 238.69644145965577,
+      "epoch": 0.48700357522465937,
+      "grad_norm": 0.23930482317882099,
+      "kl": 0.22203369140625,
+      "learning_rate": 1.2172460605507126e-05,
+      "loss": 0.0089,
+      "reward": 1.0633928991854191,
+      "reward_std": 0.20834395978599787,
+      "rewards/accuracy_reward": 0.14732143683359028,
+      "rewards/format_reward": 0.9160714574158192,
+      "step": 315
+    },
+    {
+      "completion_length": 206.31072359085084,
+      "epoch": 0.49473379070441587,
+      "grad_norm": 0.6156205700649886,
+      "kl": 0.269940185546875,
+      "learning_rate": 1.19077950712113e-05,
+      "loss": 0.0108,
+      "reward": 1.1491071924567222,
+      "reward_std": 0.19824243448674678,
+      "rewards/accuracy_reward": 0.19285715268924833,
+      "rewards/format_reward": 0.9562500186264515,
+      "step": 320
+    },
+    {
+      "completion_length": 208.71608085632323,
+      "epoch": 0.5024640061841724,
+      "grad_norm": 1.145359964951925,
+      "kl": 0.511163330078125,
+      "learning_rate": 1.1641735119630373e-05,
+      "loss": 0.0204,
+      "reward": 1.1169643372297287,
+      "reward_std": 0.1603617152199149,
+      "rewards/accuracy_reward": 0.1553571513853967,
+      "rewards/format_reward": 0.9616071604192257,
+      "step": 325
+    },
+    {
+      "completion_length": 228.73393907546998,
+      "epoch": 0.5101942216639289,
+      "grad_norm": 1.1998052405572637,
+      "kl": 0.50406494140625,
+      "learning_rate": 1.137447521535908e-05,
+      "loss": 0.0202,
+      "reward": 1.116964338719845,
+      "reward_std": 0.18309014700353146,
+      "rewards/accuracy_reward": 0.17767858058214187,
+      "rewards/format_reward": 0.9392857380211354,
+      "step": 330
+    },
+    {
+      "completion_length": 269.97054691314696,
+      "epoch": 0.5179244371436854,
+      "grad_norm": 0.8172230478043011,
+      "kl": 0.8053955078125,
+      "learning_rate": 1.110621070004378e-05,
+      "loss": 0.0322,
+      "reward": 1.0839286208152772,
+      "reward_std": 0.21213203221559523,
+      "rewards/accuracy_reward": 0.16071429383009672,
+      "rewards/format_reward": 0.923214315623045,
+      "step": 335
+    },
+    {
+      "completion_length": 279.7910852432251,
+      "epoch": 0.5256546526234419,
+      "grad_norm": 1.6253556390659387,
+      "kl": 0.6918701171875,
+      "learning_rate": 1.0837137649606241e-05,
+      "loss": 0.0277,
+      "reward": 1.1000000432133674,
+      "reward_std": 0.21465741395950316,
+      "rewards/accuracy_reward": 0.16875000894069672,
+      "rewards/format_reward": 0.9312500268220901,
+      "step": 340
+    },
+    {
+      "completion_length": 276.95269145965574,
+      "epoch": 0.5333848681031984,
+      "grad_norm": 0.2933386914876608,
+      "kl": 0.452520751953125,
+      "learning_rate": 1.0567452730930743e-05,
+      "loss": 0.0181,
+      "reward": 1.098214329779148,
+      "reward_std": 0.18940359950065613,
+      "rewards/accuracy_reward": 0.15625000828877092,
+      "rewards/format_reward": 0.9419643089175225,
+      "step": 345
+    },
+    {
+      "completion_length": 299.1473344802856,
+      "epoch": 0.5411150835829549,
+      "grad_norm": 0.5289323764160652,
+      "kl": 0.47991943359375,
+      "learning_rate": 1.0297353058119209e-05,
+      "loss": 0.0192,
+      "reward": 1.0937500461935996,
+      "reward_std": 0.16793785840272904,
+      "rewards/accuracy_reward": 0.14464286472648383,
+      "rewards/format_reward": 0.949107164144516,
+      "step": 350
+    },
+    {
+      "completion_length": 311.8223342895508,
+      "epoch": 0.5488452990627114,
+      "grad_norm": 1.3602546085242322,
+      "kl": 0.692169189453125,
+      "learning_rate": 1.0027036048419514e-05,
+      "loss": 0.0277,
+      "reward": 1.0892857573926449,
+      "reward_std": 0.21465741619467735,
+      "rewards/accuracy_reward": 0.16607143813744188,
+      "rewards/format_reward": 0.9232143141329289,
+      "step": 355
+    },
+    {
+      "completion_length": 313.5830512046814,
+      "epoch": 0.5565755145424679,
+      "grad_norm": 0.7626171074709401,
+      "kl": 0.92459716796875,
+      "learning_rate": 9.756699277932196e-06,
+      "loss": 0.037,
+      "reward": 1.0500000417232513,
+      "reward_std": 0.2197081744670868,
+      "rewards/accuracy_reward": 0.151785721629858,
+      "rewards/format_reward": 0.8982143223285675,
+      "step": 360
+    },
+    {
+      "completion_length": 303.96786937713625,
+      "epoch": 0.5643057300222244,
+      "grad_norm": 0.5235484185987127,
+      "kl": 1.150616455078125,
+      "learning_rate": 9.486540337201046e-06,
+      "loss": 0.046,
+      "reward": 1.0473214767873287,
+      "reward_std": 0.2841054029762745,
+      "rewards/accuracy_reward": 0.1696428654715419,
+      "rewards/format_reward": 0.8776786111295223,
+      "step": 365
+    },
+    {
+      "completion_length": 300.03840684890747,
+      "epoch": 0.5720359455019809,
+      "grad_norm": 3.258547728286983,
+      "kl": 1.26881103515625,
+      "learning_rate": 9.216756686793163e-06,
+      "loss": 0.0508,
+      "reward": 1.0267857626080512,
+      "reward_std": 0.29294423535466196,
+      "rewards/accuracy_reward": 0.16964286603033543,
+      "rewards/format_reward": 0.8571428984403611,
+      "step": 370
+    },
+    {
+      "completion_length": 273.17501125335696,
+      "epoch": 0.5797661609817374,
+      "grad_norm": 0.5185689721492496,
+      "kl": 1.03182373046875,
+      "learning_rate": 8.94754551297402e-06,
+      "loss": 0.0413,
+      "reward": 1.1008929088711739,
+      "reward_std": 0.281580020673573,
+      "rewards/accuracy_reward": 0.20982144065201283,
+      "rewards/format_reward": 0.8910714685916901,
+      "step": 375
+    },
+    {
+      "completion_length": 277.25179929733275,
+      "epoch": 0.5874963764614939,
+      "grad_norm": 1.6200792591726878,
+      "kl": 1.022216796875,
+      "learning_rate": 8.67910358358298e-06,
+      "loss": 0.0409,
+      "reward": 1.07053577080369,
+      "reward_std": 0.2462246786803007,
+      "rewards/accuracy_reward": 0.17767858020961286,
+      "rewards/format_reward": 0.8928571790456772,
+      "step": 380
+    },
+    {
+      "completion_length": 242.19554595947267,
+      "epoch": 0.5952265919412504,
+      "grad_norm": 0.40227896921926315,
+      "kl": 0.4446044921875,
+      "learning_rate": 8.411627104214675e-06,
+      "loss": 0.0178,
+      "reward": 1.1410714834928513,
+      "reward_std": 0.20455588828772306,
+      "rewards/accuracy_reward": 0.19107143832370638,
+      "rewards/format_reward": 0.9500000223517417,
+      "step": 385
+    },
+    {
+      "completion_length": 235.43483171463012,
+      "epoch": 0.6029568074210069,
+      "grad_norm": 0.8419867144446279,
+      "kl": 0.502435302734375,
+      "learning_rate": 8.145311574811325e-06,
+      "loss": 0.0201,
+      "reward": 1.1321429118514061,
+      "reward_std": 0.19950512573122978,
+      "rewards/accuracy_reward": 0.1866071516647935,
+      "rewards/format_reward": 0.9455357372760773,
+      "step": 390
+    },
+    {
+      "completion_length": 221.21072397232055,
+      "epoch": 0.6106870229007634,
+      "grad_norm": 0.31467383074598076,
+      "kl": 0.426025390625,
+      "learning_rate": 7.880351646770824e-06,
+      "loss": 0.017,
+      "reward": 1.1294643431901932,
+      "reward_std": 0.195717054232955,
+      "rewards/accuracy_reward": 0.17321429420262574,
+      "rewards/format_reward": 0.9562500178813934,
+      "step": 395
+    },
+    {
+      "completion_length": 241.07501096725463,
+      "epoch": 0.6184172383805199,
+      "grad_norm": 0.41760270752871836,
+      "kl": 0.618927001953125,
+      "learning_rate": 7.616940980675004e-06,
+      "loss": 0.0248,
+      "reward": 1.0866071924567222,
+      "reward_std": 0.2058185778558254,
+      "rewards/accuracy_reward": 0.15267857955768704,
+      "rewards/format_reward": 0.9339286006987095,
+      "step": 400
+    },
+    {
+      "epoch": 0.6184172383805199,
+      "eval_completion_length": 254.63423538208008,
+      "eval_kl": 0.627685546875,
+      "eval_loss": 0.026014825329184532,
+      "eval_reward": 1.1428571939468384,
+      "eval_reward_std": 0.21465741470456123,
+      "eval_rewards/accuracy_reward": 0.20535715389996767,
+      "eval_rewards/format_reward": 0.9375000298023224,
+      "eval_runtime": 44.4534,
+      "eval_samples_per_second": 2.227,
+      "eval_steps_per_second": 0.09,
+      "step": 400
+    },
+    {
+      "completion_length": 248.6437618255615,
+      "epoch": 0.6261474538602764,
+      "grad_norm": 1.2063002170462727,
+      "kl": 0.670556640625,
+      "learning_rate": 7.355272104742132e-06,
+      "loss": 0.0268,
+      "reward": 1.1375000402331352,
+      "reward_std": 0.21718279421329498,
+      "rewards/accuracy_reward": 0.19732143972069024,
+      "rewards/format_reward": 0.9401785954833031,
+      "step": 405
+    },
+    {
+      "completion_length": 265.54465503692626,
+      "epoch": 0.6338776693400329,
+      "grad_norm": 0.8372970894830984,
+      "kl": 0.582720947265625,
+      "learning_rate": 7.095536274107046e-06,
+      "loss": 0.0233,
+      "reward": 1.1276786223053932,
+      "reward_std": 0.22349624708294868,
+      "rewards/accuracy_reward": 0.2008928671479225,
+      "rewards/format_reward": 0.9267857432365417,
+      "step": 410
+    },
+    {
+      "completion_length": 330.5723365783691,
+      "epoch": 0.6416078848197894,
+      "grad_norm": 1.0585292028421611,
+      "kl": 12.741766357421875,
+      "learning_rate": 6.837923331031761e-06,
+      "loss": 0.5087,
+      "reward": 1.0241071917116642,
+      "reward_std": 0.2512754438444972,
+      "rewards/accuracy_reward": 0.16250000838190318,
+      "rewards/format_reward": 0.8616071842610836,
+      "step": 415
+    },
+    {
+      "completion_length": 328.27858657836913,
+      "epoch": 0.6493381002995459,
+      "grad_norm": 0.49066051087453305,
+      "kl": 1.210614013671875,
+      "learning_rate": 6.58262156614881e-06,
+      "loss": 0.0485,
+      "reward": 1.0526786148548126,
+      "reward_std": 0.2916815456002951,
+      "rewards/accuracy_reward": 0.19642858104780317,
+      "rewards/format_reward": 0.8562500372529029,
+      "step": 420
+    },
+    {
+      "completion_length": 308.60983619689944,
+      "epoch": 0.6570683157793024,
+      "grad_norm": 0.9219993337746698,
+      "kl": 1.082733154296875,
+      "learning_rate": 6.3298175808386284e-06,
+      "loss": 0.0433,
+      "reward": 1.0651786200702191,
+      "reward_std": 0.2765292562544346,
+      "rewards/accuracy_reward": 0.18928572442382574,
+      "rewards/format_reward": 0.8758928962051868,
+      "step": 425
+    },
+    {
+      "completion_length": 256.632155418396,
+      "epoch": 0.6647985312590589,
+      "grad_norm": 0.4539816272276013,
+      "kl": 0.761395263671875,
+      "learning_rate": 6.079696150841634e-06,
+      "loss": 0.0305,
+      "reward": 1.1026786148548127,
+      "reward_std": 0.22854701150208712,
+      "rewards/accuracy_reward": 0.17857143841683865,
+      "rewards/format_reward": 0.9241071738302707,
+      "step": 430
+    },
+    {
+      "completion_length": 235.15983219146727,
+      "epoch": 0.6725287467388154,
+      "grad_norm": 0.2974800717301805,
+      "kl": 0.74510498046875,
+      "learning_rate": 5.832440091204698e-06,
+      "loss": 0.0298,
+      "reward": 1.1125000521540642,
+      "reward_std": 0.19445436242967845,
+      "rewards/accuracy_reward": 0.17500000884756445,
+      "rewards/format_reward": 0.9375000268220901,
+      "step": 435
+    },
+    {
+      "completion_length": 245.59376096725464,
+      "epoch": 0.6802589622185718,
+      "grad_norm": 1.0471525533631525,
+      "kl": 0.828253173828125,
+      "learning_rate": 5.588230122660672e-06,
+      "loss": 0.0331,
+      "reward": 1.1330357663333417,
+      "reward_std": 0.23107239231467247,
+      "rewards/accuracy_reward": 0.21160715389996768,
+      "rewards/format_reward": 0.9214286014437676,
+      "step": 440
+    },
+    {
+      "completion_length": 260.4134042739868,
+      "epoch": 0.6879891776983283,
+      "grad_norm": 1.0462583292018497,
+      "kl": 1.00888671875,
+      "learning_rate": 5.347244739538677e-06,
+      "loss": 0.0404,
+      "reward": 1.1080357603728772,
+      "reward_std": 0.24622467998415232,
+      "rewards/accuracy_reward": 0.2017857247032225,
+      "rewards/format_reward": 0.9062500357627868,
+      "step": 445
+    },
+    {
+      "completion_length": 260.433941078186,
+      "epoch": 0.6957193931780848,
+      "grad_norm": 0.6455052674276692,
+      "kl": 0.912286376953125,
+      "learning_rate": 5.109660079301668e-06,
+      "loss": 0.0365,
+      "reward": 1.1223214827477932,
+      "reward_std": 0.2335977738723159,
+      "rewards/accuracy_reward": 0.20089286817237734,
+      "rewards/format_reward": 0.9214286021888256,
+      "step": 450
+    },
+    {
+      "completion_length": 256.63661804199216,
+      "epoch": 0.7034496086578413,
+      "grad_norm": 0.6457302051700157,
+      "kl": 0.8274169921875,
+      "learning_rate": 4.875649793806655e-06,
+      "loss": 0.0331,
+      "reward": 1.1169643312692643,
+      "reward_std": 0.2260216299444437,
+      "rewards/accuracy_reward": 0.19107143823057413,
+      "rewards/format_reward": 0.9258928872644901,
+      "step": 455
+    },
+    {
+      "completion_length": 288.9500138282776,
+      "epoch": 0.7111798241375978,
+      "grad_norm": 0.24130951862078845,
+      "kl": 1.132049560546875,
+      "learning_rate": 4.64538492238166e-06,
+      "loss": 0.0453,
+      "reward": 1.1035714767873288,
+      "reward_std": 0.24748737178742886,
+      "rewards/accuracy_reward": 0.21071429643779993,
+      "rewards/format_reward": 0.8928571783006192,
+      "step": 460
+    },
+    {
+      "completion_length": 274.6125121116638,
+      "epoch": 0.7189100396173543,
+      "grad_norm": 0.6809081363150956,
+      "kl": 0.901507568359375,
+      "learning_rate": 4.4190337668121964e-06,
+      "loss": 0.0361,
+      "reward": 1.1500000551342964,
+      "reward_std": 0.2500127531588078,
+      "rewards/accuracy_reward": 0.22767858253791928,
+      "rewards/format_reward": 0.9223214589059353,
+      "step": 465
+    },
+    {
+      "completion_length": 269.7616189956665,
+      "epoch": 0.7266402550971108,
+      "grad_norm": 0.5074301520662177,
+      "kl": 0.875689697265625,
+      "learning_rate": 4.196761768328599e-06,
+      "loss": 0.0351,
+      "reward": 1.1383929133415223,
+      "reward_std": 0.2209708670154214,
+      "rewards/accuracy_reward": 0.2125000100582838,
+      "rewards/format_reward": 0.9258928872644901,
+      "step": 470
+    },
+    {
+      "completion_length": 265.1625129699707,
+      "epoch": 0.7343704705768673,
+      "grad_norm": 0.6415529481366966,
+      "kl": 0.763165283203125,
+      "learning_rate": 3.978731386684206e-06,
+      "loss": 0.0305,
+      "reward": 1.1428571954369544,
+      "reward_std": 0.25001275185495614,
+      "rewards/accuracy_reward": 0.2160714398138225,
+      "rewards/format_reward": 0.9267857432365417,
+      "step": 475
+    },
+    {
+      "completion_length": 272.5562623977661,
+      "epoch": 0.7421006860566238,
+      "grad_norm": 0.35234126624207923,
+      "kl": 0.82550048828125,
+      "learning_rate": 3.7651019814126656e-06,
+      "loss": 0.033,
+      "reward": 1.1383929066359997,
+      "reward_std": 0.21339472401887177,
+      "rewards/accuracy_reward": 0.21339286882430314,
+      "rewards/format_reward": 0.9250000290572643,
+      "step": 480
+    },
+    {
+      "completion_length": 272.2678701400757,
+      "epoch": 0.7498309015363803,
+      "grad_norm": 0.9100314610541868,
+      "kl": 0.79708251953125,
+      "learning_rate": 3.5560296953512296e-06,
+      "loss": 0.0319,
+      "reward": 1.1250000461935996,
+      "reward_std": 0.23233508188277482,
+      "rewards/accuracy_reward": 0.1973214376717806,
+      "rewards/format_reward": 0.9276786029338837,
+      "step": 485
+    },
+    {
+      "completion_length": 280.9955499649048,
+      "epoch": 0.7575611170161368,
+      "grad_norm": 0.3556399924481661,
+      "kl": 0.9994873046875,
+      "learning_rate": 3.3516673405151546e-06,
+      "loss": 0.04,
+      "reward": 1.1285714760422707,
+      "reward_std": 0.2247589396312833,
+      "rewards/accuracy_reward": 0.2062500107102096,
+      "rewards/format_reward": 0.9223214603960515,
+      "step": 490
+    },
+    {
+      "completion_length": 276.1401895523071,
+      "epoch": 0.7652913324958933,
+      "grad_norm": 0.5581701650895203,
+      "kl": 0.73818359375,
+      "learning_rate": 3.1521642864065905e-06,
+      "loss": 0.0295,
+      "reward": 1.150892909616232,
+      "reward_std": 0.22602162901312112,
+      "rewards/accuracy_reward": 0.21785715483129026,
+      "rewards/format_reward": 0.9330357424914837,
+      "step": 495
+    },
+    {
+      "completion_length": 305.8750144004822,
+      "epoch": 0.7730215479756498,
+      "grad_norm": 0.2985575344762852,
+      "kl": 1.02808837890625,
+      "learning_rate": 2.957666350839663e-06,
+      "loss": 0.0411,
+      "reward": 1.145535769313574,
+      "reward_std": 0.23612315505743026,
+      "rewards/accuracy_reward": 0.22946429708972574,
+      "rewards/format_reward": 0.9160714574158192,
+      "step": 500
+    },
+    {
+      "epoch": 0.7730215479756498,
+      "eval_completion_length": 257.7681636810303,
+      "eval_kl": 0.739013671875,
+      "eval_loss": 0.030957935377955437,
+      "eval_reward": 1.191964328289032,
+      "eval_reward_std": 0.27147849928587675,
+      "eval_rewards/accuracy_reward": 0.263392873108387,
+      "eval_rewards/format_reward": 0.928571455180645,
+      "eval_runtime": 39.965,
+      "eval_samples_per_second": 2.477,
+      "eval_steps_per_second": 0.1,
+      "step": 500
+    },
+    {
+      "completion_length": 284.98126316070557,
+      "epoch": 0.7807517634554063,
+      "grad_norm": 0.2775335619661649,
+      "kl": 0.804058837890625,
+      "learning_rate": 2.768315693361474e-06,
+      "loss": 0.0322,
+      "reward": 1.1401786215603351,
+      "reward_std": 0.2335977740585804,
+      "rewards/accuracy_reward": 0.22589286724105478,
+      "rewards/format_reward": 0.9142857484519482,
+      "step": 505
+    },
+    {
+      "completion_length": 302.475905418396,
+      "epoch": 0.7884819789351628,
+      "grad_norm": 0.4783830317374093,
+      "kl": 0.930975341796875,
+      "learning_rate": 2.5842507113469307e-06,
+      "loss": 0.0373,
+      "reward": 1.1107143394649028,
+      "reward_std": 0.21970817670226098,
+      "rewards/accuracy_reward": 0.1910714373923838,
+      "rewards/format_reward": 0.9196428842842579,
+      "step": 510
+    },
+    {
+      "completion_length": 326.8464429855347,
+      "epoch": 0.7962121944149193,
+      "grad_norm": 0.4587112625836826,
+      "kl": 1.243695068359375,
+      "learning_rate": 2.405605938843416e-06,
+      "loss": 0.0498,
+      "reward": 1.0883929036557674,
+      "reward_std": 0.2916815454140306,
+      "rewards/accuracy_reward": 0.2071428682655096,
+      "rewards/format_reward": 0.881250037252903,
+      "step": 515
+    },
+    {
+      "completion_length": 338.72858772277834,
+      "epoch": 0.8039424098946758,
+      "grad_norm": 0.5814971897829918,
+      "kl": 1.364935302734375,
+      "learning_rate": 2.2325119482391466e-06,
+      "loss": 0.0546,
+      "reward": 1.0830357670783997,
+      "reward_std": 0.3118845963850617,
+      "rewards/accuracy_reward": 0.2160714386962354,
+      "rewards/format_reward": 0.866964328289032,
+      "step": 520
+    },
+    {
+      "completion_length": 354.6250160217285,
+      "epoch": 0.8116726253744323,
+      "grad_norm": 0.5395627446463483,
+      "kl": 1.560418701171875,
+      "learning_rate": 2.065095254827133e-06,
+      "loss": 0.0624,
+      "reward": 1.0625000484287739,
+      "reward_std": 0.2954696161672473,
+      "rewards/accuracy_reward": 0.21517858309671284,
+      "rewards/format_reward": 0.847321467846632,
+      "step": 525
+    },
+    {
+      "completion_length": 354.5348379135132,
+      "epoch": 0.8194028408541888,
+      "grad_norm": 0.5903315470866531,
+      "kl": 1.75145263671875,
+      "learning_rate": 1.9034782243345074e-06,
+      "loss": 0.0701,
+      "reward": 1.0437500521540641,
+      "reward_std": 0.3118845956400037,
+      "rewards/accuracy_reward": 0.20714286724105477,
+      "rewards/format_reward": 0.8366071812808513,
+      "step": 530
+    },
+    {
+      "completion_length": 355.27947940826414,
+      "epoch": 0.8271330563339453,
+      "grad_norm": 1.2208377616122188,
+      "kl": 1.34444580078125,
+      "learning_rate": 1.7477789834847835e-06,
+      "loss": 0.0538,
+      "reward": 1.0562500461935997,
+      "reward_std": 0.3043084528297186,
+      "rewards/accuracy_reward": 0.20982143869623543,
+      "rewards/format_reward": 0.8464286126196384,
+      "step": 535
+    },
+    {
+      "completion_length": 332.879479598999,
+      "epoch": 0.8348632718137018,
+      "grad_norm": 0.5240182175615019,
+      "kl": 1.40631103515625,
+      "learning_rate": 1.5981113336584041e-06,
+      "loss": 0.0563,
+      "reward": 1.0500000439584256,
+      "reward_std": 0.2626396602019668,
+      "rewards/accuracy_reward": 0.1973214391618967,
+      "rewards/format_reward": 0.8526786088943481,
+      "step": 540
+    },
+    {
+      "completion_length": 323.62679920196535,
+      "epoch": 0.8425934872934583,
+      "grad_norm": 0.6433085422004733,
+      "kl": 1.07110595703125,
+      "learning_rate": 1.4545846677147446e-06,
+      "loss": 0.0429,
+      "reward": 1.0964286200702191,
+      "reward_std": 0.23991122860461472,
+      "rewards/accuracy_reward": 0.21250001098960639,
+      "rewards/format_reward": 0.8839286118745804,
+      "step": 545
+    },
+    {
+      "completion_length": 286.84554920196535,
+      "epoch": 0.8503237027732148,
+      "grad_norm": 0.4618904983113792,
+      "kl": 0.94029541015625,
+      "learning_rate": 1.3173038900362977e-06,
+      "loss": 0.0376,
+      "reward": 1.1437500521540642,
+      "reward_std": 0.26390235032886267,
+      "rewards/accuracy_reward": 0.22857144000008703,
+      "rewards/format_reward": 0.9151786006987095,
+      "step": 550
+    },
+    {
+      "completion_length": 281.5741184234619,
+      "epoch": 0.8580539182529713,
+      "grad_norm": 0.4684944225912412,
+      "kl": 1.12393798828125,
+      "learning_rate": 1.1863693398535115e-06,
+      "loss": 0.045,
+      "reward": 1.1348214790225029,
+      "reward_std": 0.2588515877723694,
+      "rewards/accuracy_reward": 0.22589286798611283,
+      "rewards/format_reward": 0.908928605914116,
+      "step": 555
+    },
+    {
+      "completion_length": 291.7946542739868,
+      "epoch": 0.8657841337327278,
+      "grad_norm": 0.3860335559805723,
+      "kl": 1.16566162109375,
+      "learning_rate": 1.0618767179063416e-06,
+      "loss": 0.0466,
+      "reward": 1.13125004991889,
+      "reward_std": 0.253800824098289,
+      "rewards/accuracy_reward": 0.23928572591394187,
+      "rewards/format_reward": 0.8919643238186836,
+      "step": 560
+    },
+    {
+      "completion_length": 288.9223350524902,
+      "epoch": 0.8735143492124843,
+      "grad_norm": 0.5947417112761748,
+      "kl": 1.116168212890625,
+      "learning_rate": 9.439170164960765e-07,
+      "loss": 0.0446,
+      "reward": 1.1133929133415221,
+      "reward_std": 0.26137696839869023,
+      "rewards/accuracy_reward": 0.22410715520381927,
+      "rewards/format_reward": 0.8892857529222965,
+      "step": 565
+    },
+    {
+      "completion_length": 312.45358619689944,
+      "epoch": 0.8812445646922408,
+      "grad_norm": 0.5248985437711838,
+      "kl": 1.397430419921875,
+      "learning_rate": 8.325764529785851e-07,
+      "loss": 0.0559,
+      "reward": 1.0696429111063481,
+      "reward_std": 0.2676904214546084,
+      "rewards/accuracy_reward": 0.20178572395816446,
+      "rewards/format_reward": 0.8678571797907353,
+      "step": 570
+    },
+    {
+      "completion_length": 295.79108448028563,
+      "epoch": 0.8889747801719973,
+      "grad_norm": 0.450179012206087,
+      "kl": 1.271270751953125,
+      "learning_rate": 7.279364067476247e-07,
+      "loss": 0.0509,
+      "reward": 1.0758929073810577,
+      "reward_std": 0.2310723926872015,
+      "rewards/accuracy_reward": 0.19910715306177734,
+      "rewards/format_reward": 0.8767857521772384,
+      "step": 575
+    },
+    {
+      "completion_length": 286.98304786682127,
+      "epoch": 0.8967049956517538,
+      "grad_norm": 0.283165116362945,
+      "kl": 1.03193359375,
+      "learning_rate": 6.300733597542086e-07,
+      "loss": 0.0413,
+      "reward": 1.120535772293806,
+      "reward_std": 0.24117391742765903,
+      "rewards/accuracy_reward": 0.21964286752045153,
+      "rewards/format_reward": 0.9008928939700127,
+      "step": 580
+    },
+    {
+      "completion_length": 301.77501583099365,
+      "epoch": 0.9044352111315103,
+      "grad_norm": 0.46974734005334373,
+      "kl": 1.178570556640625,
+      "learning_rate": 5.390588406055497e-07,
+      "loss": 0.0471,
+      "reward": 1.0892857603728772,
+      "reward_std": 0.25253813378512857,
+      "rewards/accuracy_reward": 0.20178572423756122,
+      "rewards/format_reward": 0.8875000402331352,
+      "step": 585
+    },
+    {
+      "completion_length": 260.1544776916504,
+      "epoch": 0.9121654266112668,
+      "grad_norm": 0.3415945982894548,
+      "kl": 0.71856689453125,
+      "learning_rate": 4.549593722844492e-07,
+      "loss": 0.0287,
+      "reward": 1.1750000528991222,
+      "reward_std": 0.21970817632973194,
+      "rewards/accuracy_reward": 0.2366071536205709,
+      "rewards/format_reward": 0.9383928820490837,
+      "step": 590
+    },
+    {
+      "completion_length": 265.1803674697876,
+      "epoch": 0.9198956420910233,
+      "grad_norm": 0.2708029106865859,
+      "kl": 0.8180908203125,
+      "learning_rate": 3.77836423527278e-07,
+      "loss": 0.0328,
+      "reward": 1.188392923027277,
+      "reward_std": 0.2386485354974866,
+      "rewards/accuracy_reward": 0.255357154738158,
+      "rewards/format_reward": 0.9330357387661934,
+      "step": 595
+    },
+    {
+      "completion_length": 270.0437623023987,
+      "epoch": 0.9276258575707798,
+      "grad_norm": 0.46374471812077694,
+      "kl": 0.837054443359375,
+      "learning_rate": 3.0774636389618196e-07,
+      "loss": 0.0335,
+      "reward": 1.1705357685685158,
+      "reward_std": 0.24875006210058928,
+      "rewards/accuracy_reward": 0.23571429755538703,
+      "rewards/format_reward": 0.9348214536905288,
+      "step": 600
+    },
+    {
+      "epoch": 0.9276258575707798,
+      "eval_completion_length": 265.839298248291,
+      "eval_kl": 0.89306640625,
+      "eval_loss": 0.037714019417762756,
+      "eval_reward": 1.1875000447034836,
+      "eval_reward_std": 0.2904188595712185,
+      "eval_rewards/accuracy_reward": 0.2678571529686451,
+      "eval_rewards/format_reward": 0.9196428880095482,
+      "eval_runtime": 44.0608,
+      "eval_samples_per_second": 2.247,
+      "eval_steps_per_second": 0.091,
+      "step": 600
+    },
+    {
+      "completion_length": 283.5410858154297,
+      "epoch": 0.9353560730505363,
+      "grad_norm": 0.42477771152185795,
+      "kl": 1.058807373046875,
+      "learning_rate": 2.44740422578269e-07,
+      "loss": 0.0423,
+      "reward": 1.1196429051458836,
+      "reward_std": 0.26516504045575856,
+      "rewards/accuracy_reward": 0.21250001108273864,
+      "rewards/format_reward": 0.9071428932249546,
+      "step": 605
+    },
+    {
+      "completion_length": 263.7607263565063,
+      "epoch": 0.9430862885302927,
+      "grad_norm": 0.4567363340156383,
+      "kl": 0.876043701171875,
+      "learning_rate": 1.8886465094192895e-07,
+      "loss": 0.035,
+      "reward": 1.1633929111063481,
+      "reward_std": 0.23359777368605136,
+      "rewards/accuracy_reward": 0.2330357262864709,
+      "rewards/format_reward": 0.9303571738302707,
+      "step": 610
+    },
+    {
+      "completion_length": 270.82501182556155,
+      "epoch": 0.9508165040100492,
+      "grad_norm": 0.28225043605895783,
+      "kl": 0.95989990234375,
+      "learning_rate": 1.401598888776523e-07,
+      "loss": 0.0384,
+      "reward": 1.15535718947649,
+      "reward_std": 0.24748737160116435,
+      "rewards/accuracy_reward": 0.2357142989523709,
+      "rewards/format_reward": 0.9196428880095482,
+      "step": 615
+    },
+    {
+      "completion_length": 283.83126201629636,
+      "epoch": 0.9585467194898057,
+      "grad_norm": 0.32539772814205725,
+      "kl": 1.015838623046875,
+      "learning_rate": 9.866173494794462e-08,
+      "loss": 0.0406,
+      "reward": 1.1410714834928513,
+      "reward_std": 0.2651650408282876,
+      "rewards/accuracy_reward": 0.23214286779984833,
+      "rewards/format_reward": 0.908928606659174,
+      "step": 620
+    },
+    {
+      "completion_length": 272.28661918640137,
+      "epoch": 0.9662769349695622,
+      "grad_norm": 0.40483227452880277,
+      "kl": 0.98214111328125,
+      "learning_rate": 6.440052036815081e-08,
+      "loss": 0.0393,
+      "reward": 1.1419643364846706,
+      "reward_std": 0.23359777443110943,
+      "rewards/accuracy_reward": 0.22410715464502573,
+      "rewards/format_reward": 0.9178571730852128,
+      "step": 625
+    },
+    {
+      "completion_length": 296.1392983436584,
+      "epoch": 0.9740071504493187,
+      "grad_norm": 0.5042793676495506,
+      "kl": 1.05089111328125,
+      "learning_rate": 3.7401286837214224e-08,
+      "loss": 0.042,
+      "reward": 1.1464286252856255,
+      "reward_std": 0.26516504120081663,
+      "rewards/accuracy_reward": 0.2383928676135838,
+      "rewards/format_reward": 0.9080357499420643,
+      "step": 630
+    },
+    {
+      "completion_length": 291.5410856246948,
+      "epoch": 0.9817373659290752,
+      "grad_norm": 0.2778912462099483,
+      "kl": 1.029638671875,
+      "learning_rate": 1.7683768234568745e-08,
+      "loss": 0.0412,
+      "reward": 1.1250000447034836,
+      "reward_std": 0.2575888976454735,
+      "rewards/accuracy_reward": 0.2125000107102096,
+      "rewards/format_reward": 0.9125000350177288,
+      "step": 635
+    },
+    {
+      "completion_length": 278.6035831451416,
+      "epoch": 0.9894675814088317,
+      "grad_norm": 0.4021017187067133,
+      "kl": 1.000689697265625,
+      "learning_rate": 5.262376196544239e-09,
+      "loss": 0.04,
+      "reward": 1.13035718947649,
+      "reward_std": 0.2575888967141509,
+      "rewards/accuracy_reward": 0.21875001173466443,
+      "rewards/format_reward": 0.9116071738302708,
+      "step": 640
+    },
+    {
+      "completion_length": 272.8669765472412,
+      "epoch": 0.9971977968885882,
+      "grad_norm": 0.22818184024650953,
+      "kl": 0.9707275390625,
+      "learning_rate": 1.461895828280824e-10,
+      "loss": 0.0388,
+      "reward": 1.1553571961820126,
+      "reward_std": 0.23486046474426986,
+      "rewards/accuracy_reward": 0.23839286966249346,
+      "rewards/format_reward": 0.9169643193483352,
+      "step": 645
+    },
+    {
+      "completion_length": 259.26786708831787,
+      "epoch": 0.9987438399845395,
+      "kl": 0.823211669921875,
+      "reward": 1.1785714849829674,
+      "reward_std": 0.2399112293496728,
+      "rewards/accuracy_reward": 0.24553572246804833,
+      "rewards/format_reward": 0.9330357387661934,
+      "step": 646,
+      "total_flos": 0.0,
+      "train_loss": 0.13680233840041295,
+      "train_runtime": 51841.8905,
+      "train_samples_per_second": 1.397,
+      "train_steps_per_second": 0.012
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 646,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}