End of training

Browse files

Files changed (7) hide show

README.md +2 -2
all_results.json +13 -0
eval_results.json +8 -0
train_results.json +9 -0
trainer_state.json +3104 -0
training_eval_loss.png +0 -0
training_loss.png +0 -0

README.md CHANGED Viewed

@@ -17,9 +17,9 @@ should probably proofread and complete it, then remove this comment. -->
 # train_copa_456_1768397595
-This model is a fine-tuned version of [meta-llama/Meta-Llama-3-8B-Instruct](https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.1995
 - Num Input Tokens Seen: 273936
 ## Model description

 # train_copa_456_1768397595
+This model is a fine-tuned version of [meta-llama/Meta-Llama-3-8B-Instruct](https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct) on the copa dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.1024
 - Num Input Tokens Seen: 273936
 ## Model description

all_results.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+    "epoch": 10.0,
+    "eval_loss": 0.10243535041809082,
+    "eval_runtime": 0.9467,
+    "eval_samples_per_second": 42.25,
+    "eval_steps_per_second": 21.125,
+    "num_input_tokens_seen": 273936,
+    "total_flos": 1.3438495585861632e+16,
+    "train_loss": 0.044879560974069234,
+    "train_runtime": 814.6797,
+    "train_samples_per_second": 4.419,
+    "train_steps_per_second": 2.209
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 10.0,
+    "eval_loss": 0.10243535041809082,
+    "eval_runtime": 0.9467,
+    "eval_samples_per_second": 42.25,
+    "eval_steps_per_second": 21.125,
+    "num_input_tokens_seen": 273936
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 10.0,
+    "num_input_tokens_seen": 273936,
+    "total_flos": 1.3438495585861632e+16,
+    "train_loss": 0.044879560974069234,
+    "train_runtime": 814.6797,
+    "train_samples_per_second": 4.419,
+    "train_steps_per_second": 2.209
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,3104 @@

+{
+  "best_global_step": 90,
+  "best_metric": 0.10243535041809082,
+  "best_model_checkpoint": "saves_multiple/bitfit/llama-3-8b-instruct/train_copa_456_1768397595/checkpoint-90",
+  "epoch": 10.0,
+  "eval_steps": 90,
+  "global_step": 1800,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.027777777777777776,
+      "grad_norm": 26.174911499023438,
+      "learning_rate": 1.1111111111111112e-06,
+      "loss": 0.5621,
+      "num_input_tokens_seen": 768,
+      "step": 5
+    },
+    {
+      "epoch": 0.05555555555555555,
+      "grad_norm": 27.083621978759766,
+      "learning_rate": 2.5e-06,
+      "loss": 0.5065,
+      "num_input_tokens_seen": 1520,
+      "step": 10
+    },
+    {
+      "epoch": 0.08333333333333333,
+      "grad_norm": 35.399654388427734,
+      "learning_rate": 3.888888888888889e-06,
+      "loss": 0.3998,
+      "num_input_tokens_seen": 2272,
+      "step": 15
+    },
+    {
+      "epoch": 0.1111111111111111,
+      "grad_norm": 49.66708755493164,
+      "learning_rate": 5.277777777777778e-06,
+      "loss": 0.6268,
+      "num_input_tokens_seen": 3008,
+      "step": 20
+    },
+    {
+      "epoch": 0.1388888888888889,
+      "grad_norm": 17.423233032226562,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 0.5377,
+      "num_input_tokens_seen": 3776,
+      "step": 25
+    },
+    {
+      "epoch": 0.16666666666666666,
+      "grad_norm": 39.209510803222656,
+      "learning_rate": 8.055555555555557e-06,
+      "loss": 0.9891,
+      "num_input_tokens_seen": 4544,
+      "step": 30
+    },
+    {
+      "epoch": 0.19444444444444445,
+      "grad_norm": 13.324094772338867,
+      "learning_rate": 9.444444444444445e-06,
+      "loss": 0.2197,
+      "num_input_tokens_seen": 5312,
+      "step": 35
+    },
+    {
+      "epoch": 0.2222222222222222,
+      "grad_norm": 6.746327877044678,
+      "learning_rate": 1.0833333333333334e-05,
+      "loss": 0.2677,
+      "num_input_tokens_seen": 6112,
+      "step": 40
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 4.74421501159668,
+      "learning_rate": 1.2222222222222222e-05,
+      "loss": 0.2891,
+      "num_input_tokens_seen": 6848,
+      "step": 45
+    },
+    {
+      "epoch": 0.2777777777777778,
+      "grad_norm": 5.368658065795898,
+      "learning_rate": 1.3611111111111111e-05,
+      "loss": 0.1996,
+      "num_input_tokens_seen": 7584,
+      "step": 50
+    },
+    {
+      "epoch": 0.3055555555555556,
+      "grad_norm": 3.385861396789551,
+      "learning_rate": 1.5e-05,
+      "loss": 0.2764,
+      "num_input_tokens_seen": 8368,
+      "step": 55
+    },
+    {
+      "epoch": 0.3333333333333333,
+      "grad_norm": 1.4747138023376465,
+      "learning_rate": 1.638888888888889e-05,
+      "loss": 0.0481,
+      "num_input_tokens_seen": 9104,
+      "step": 60
+    },
+    {
+      "epoch": 0.3611111111111111,
+      "grad_norm": 21.31920623779297,
+      "learning_rate": 1.777777777777778e-05,
+      "loss": 0.0801,
+      "num_input_tokens_seen": 9856,
+      "step": 65
+    },
+    {
+      "epoch": 0.3888888888888889,
+      "grad_norm": 1.2555230855941772,
+      "learning_rate": 1.9166666666666667e-05,
+      "loss": 0.4616,
+      "num_input_tokens_seen": 10624,
+      "step": 70
+    },
+    {
+      "epoch": 0.4166666666666667,
+      "grad_norm": 23.720603942871094,
+      "learning_rate": 2.0555555555555555e-05,
+      "loss": 0.1396,
+      "num_input_tokens_seen": 11392,
+      "step": 75
+    },
+    {
+      "epoch": 0.4444444444444444,
+      "grad_norm": 1.8614143133163452,
+      "learning_rate": 2.1944444444444445e-05,
+      "loss": 0.0432,
+      "num_input_tokens_seen": 12160,
+      "step": 80
+    },
+    {
+      "epoch": 0.4722222222222222,
+      "grad_norm": 24.082788467407227,
+      "learning_rate": 2.3333333333333336e-05,
+      "loss": 0.253,
+      "num_input_tokens_seen": 12896,
+      "step": 85
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 19.710237503051758,
+      "learning_rate": 2.4722222222222223e-05,
+      "loss": 0.0976,
+      "num_input_tokens_seen": 13632,
+      "step": 90
+    },
+    {
+      "epoch": 0.5,
+      "eval_loss": 0.10243535041809082,
+      "eval_runtime": 0.8457,
+      "eval_samples_per_second": 47.297,
+      "eval_steps_per_second": 23.649,
+      "num_input_tokens_seen": 13632,
+      "step": 90
+    },
+    {
+      "epoch": 0.5277777777777778,
+      "grad_norm": 25.10673713684082,
+      "learning_rate": 2.6111111111111114e-05,
+      "loss": 0.0304,
+      "num_input_tokens_seen": 14384,
+      "step": 95
+    },
+    {
+      "epoch": 0.5555555555555556,
+      "grad_norm": 1.2356877326965332,
+      "learning_rate": 2.7500000000000004e-05,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 15136,
+      "step": 100
+    },
+    {
+      "epoch": 0.5833333333333334,
+      "grad_norm": 0.11366397142410278,
+      "learning_rate": 2.8888888888888888e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 15920,
+      "step": 105
+    },
+    {
+      "epoch": 0.6111111111111112,
+      "grad_norm": 0.13132458925247192,
+      "learning_rate": 3.0277777777777776e-05,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 16656,
+      "step": 110
+    },
+    {
+      "epoch": 0.6388888888888888,
+      "grad_norm": 0.2592090964317322,
+      "learning_rate": 3.1666666666666666e-05,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 17440,
+      "step": 115
+    },
+    {
+      "epoch": 0.6666666666666666,
+      "grad_norm": 14.52552604675293,
+      "learning_rate": 3.3055555555555553e-05,
+      "loss": 0.2463,
+      "num_input_tokens_seen": 18224,
+      "step": 120
+    },
+    {
+      "epoch": 0.6944444444444444,
+      "grad_norm": 39.94384002685547,
+      "learning_rate": 3.444444444444445e-05,
+      "loss": 0.1556,
+      "num_input_tokens_seen": 19008,
+      "step": 125
+    },
+    {
+      "epoch": 0.7222222222222222,
+      "grad_norm": 0.04966762289404869,
+      "learning_rate": 3.5833333333333335e-05,
+      "loss": 0.0313,
+      "num_input_tokens_seen": 19776,
+      "step": 130
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 0.26315122842788696,
+      "learning_rate": 3.722222222222222e-05,
+      "loss": 0.013,
+      "num_input_tokens_seen": 20576,
+      "step": 135
+    },
+    {
+      "epoch": 0.7777777777777778,
+      "grad_norm": 0.07332806289196014,
+      "learning_rate": 3.8611111111111116e-05,
+      "loss": 0.0135,
+      "num_input_tokens_seen": 21312,
+      "step": 140
+    },
+    {
+      "epoch": 0.8055555555555556,
+      "grad_norm": 0.052172716706991196,
+      "learning_rate": 4e-05,
+      "loss": 0.1598,
+      "num_input_tokens_seen": 22080,
+      "step": 145
+    },
+    {
+      "epoch": 0.8333333333333334,
+      "grad_norm": 35.53556442260742,
+      "learning_rate": 4.138888888888889e-05,
+      "loss": 0.2769,
+      "num_input_tokens_seen": 22864,
+      "step": 150
+    },
+    {
+      "epoch": 0.8611111111111112,
+      "grad_norm": 1.3189358711242676,
+      "learning_rate": 4.277777777777778e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 23616,
+      "step": 155
+    },
+    {
+      "epoch": 0.8888888888888888,
+      "grad_norm": 3.976815938949585,
+      "learning_rate": 4.4166666666666665e-05,
+      "loss": 0.3282,
+      "num_input_tokens_seen": 24352,
+      "step": 160
+    },
+    {
+      "epoch": 0.9166666666666666,
+      "grad_norm": 1.152937889099121,
+      "learning_rate": 4.555555555555556e-05,
+      "loss": 0.0081,
+      "num_input_tokens_seen": 25088,
+      "step": 165
+    },
+    {
+      "epoch": 0.9444444444444444,
+      "grad_norm": 0.03279455751180649,
+      "learning_rate": 4.6944444444444446e-05,
+      "loss": 0.1479,
+      "num_input_tokens_seen": 25856,
+      "step": 170
+    },
+    {
+      "epoch": 0.9722222222222222,
+      "grad_norm": 0.380422443151474,
+      "learning_rate": 4.8333333333333334e-05,
+      "loss": 0.0089,
+      "num_input_tokens_seen": 26624,
+      "step": 175
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 14.139666557312012,
+      "learning_rate": 4.972222222222223e-05,
+      "loss": 0.0248,
+      "num_input_tokens_seen": 27376,
+      "step": 180
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.11664140224456787,
+      "eval_runtime": 0.8533,
+      "eval_samples_per_second": 46.875,
+      "eval_steps_per_second": 23.438,
+      "num_input_tokens_seen": 27376,
+      "step": 180
+    },
+    {
+      "epoch": 1.0277777777777777,
+      "grad_norm": 1.0830224752426147,
+      "learning_rate": 4.9999247861994194e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 28128,
+      "step": 185
+    },
+    {
+      "epoch": 1.0555555555555556,
+      "grad_norm": 0.01833321526646614,
+      "learning_rate": 4.9996192378909786e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 28896,
+      "step": 190
+    },
+    {
+      "epoch": 1.0833333333333333,
+      "grad_norm": 0.02257794886827469,
+      "learning_rate": 4.999078682916774e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 29648,
+      "step": 195
+    },
+    {
+      "epoch": 1.1111111111111112,
+      "grad_norm": 1.7842925786972046,
+      "learning_rate": 4.998303172098155e-05,
+      "loss": 0.1445,
+      "num_input_tokens_seen": 30416,
+      "step": 200
+    },
+    {
+      "epoch": 1.1388888888888888,
+      "grad_norm": 0.03761421516537666,
+      "learning_rate": 4.997292778346312e-05,
+      "loss": 0.1068,
+      "num_input_tokens_seen": 31200,
+      "step": 205
+    },
+    {
+      "epoch": 1.1666666666666667,
+      "grad_norm": 0.017799263820052147,
+      "learning_rate": 4.996047596655418e-05,
+      "loss": 0.0098,
+      "num_input_tokens_seen": 31968,
+      "step": 210
+    },
+    {
+      "epoch": 1.1944444444444444,
+      "grad_norm": 0.02381935343146324,
+      "learning_rate": 4.994567744093703e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 32720,
+      "step": 215
+    },
+    {
+      "epoch": 1.2222222222222223,
+      "grad_norm": 0.033814460039138794,
+      "learning_rate": 4.992853359792444e-05,
+      "loss": 0.4099,
+      "num_input_tokens_seen": 33472,
+      "step": 220
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 0.019769281148910522,
+      "learning_rate": 4.9909046049328846e-05,
+      "loss": 0.094,
+      "num_input_tokens_seen": 34208,
+      "step": 225
+    },
+    {
+      "epoch": 1.2777777777777777,
+      "grad_norm": 12.754151344299316,
+      "learning_rate": 4.988721662731083e-05,
+      "loss": 0.2881,
+      "num_input_tokens_seen": 34960,
+      "step": 230
+    },
+    {
+      "epoch": 1.3055555555555556,
+      "grad_norm": 0.020138300955295563,
+      "learning_rate": 4.9863047384206835e-05,
+      "loss": 0.0205,
+      "num_input_tokens_seen": 35728,
+      "step": 235
+    },
+    {
+      "epoch": 1.3333333333333333,
+      "grad_norm": 1.8282607793807983,
+      "learning_rate": 4.983654059233626e-05,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 36464,
+      "step": 240
+    },
+    {
+      "epoch": 1.3611111111111112,
+      "grad_norm": 0.02977779507637024,
+      "learning_rate": 4.9807698743787744e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 37200,
+      "step": 245
+    },
+    {
+      "epoch": 1.3888888888888888,
+      "grad_norm": 0.09747491031885147,
+      "learning_rate": 4.9776524550184965e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 37952,
+      "step": 250
+    },
+    {
+      "epoch": 1.4166666666666667,
+      "grad_norm": 0.02982584573328495,
+      "learning_rate": 4.974302094243164e-05,
+      "loss": 0.1759,
+      "num_input_tokens_seen": 38688,
+      "step": 255
+    },
+    {
+      "epoch": 1.4444444444444444,
+      "grad_norm": 48.68693161010742,
+      "learning_rate": 4.970719107043595e-05,
+      "loss": 0.1863,
+      "num_input_tokens_seen": 39472,
+      "step": 260
+    },
+    {
+      "epoch": 1.4722222222222223,
+      "grad_norm": 8.864044189453125,
+      "learning_rate": 4.966903830281449e-05,
+      "loss": 0.0908,
+      "num_input_tokens_seen": 40240,
+      "step": 265
+    },
+    {
+      "epoch": 1.5,
+      "grad_norm": 0.22452251613140106,
+      "learning_rate": 4.962856622657541e-05,
+      "loss": 0.0832,
+      "num_input_tokens_seen": 41008,
+      "step": 270
+    },
+    {
+      "epoch": 1.5,
+      "eval_loss": 0.14009475708007812,
+      "eval_runtime": 0.8695,
+      "eval_samples_per_second": 46.004,
+      "eval_steps_per_second": 23.002,
+      "num_input_tokens_seen": 41008,
+      "step": 270
+    },
+    {
+      "epoch": 1.5277777777777777,
+      "grad_norm": 0.038117777556180954,
+      "learning_rate": 4.9585778646781364e-05,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 41744,
+      "step": 275
+    },
+    {
+      "epoch": 1.5555555555555556,
+      "grad_norm": 19.886659622192383,
+      "learning_rate": 4.9540679586191605e-05,
+      "loss": 0.4371,
+      "num_input_tokens_seen": 42528,
+      "step": 280
+    },
+    {
+      "epoch": 1.5833333333333335,
+      "grad_norm": 33.2148323059082,
+      "learning_rate": 4.9493273284883854e-05,
+      "loss": 0.1143,
+      "num_input_tokens_seen": 43280,
+      "step": 285
+    },
+    {
+      "epoch": 1.6111111111111112,
+      "grad_norm": 9.084549903869629,
+      "learning_rate": 4.9443564199855666e-05,
+      "loss": 0.1255,
+      "num_input_tokens_seen": 44016,
+      "step": 290
+    },
+    {
+      "epoch": 1.6388888888888888,
+      "grad_norm": 0.012888729572296143,
+      "learning_rate": 4.939155700460536e-05,
+      "loss": 0.2754,
+      "num_input_tokens_seen": 44800,
+      "step": 295
+    },
+    {
+      "epoch": 1.6666666666666665,
+      "grad_norm": 0.01083407737314701,
+      "learning_rate": 4.933725658869267e-05,
+      "loss": 0.0569,
+      "num_input_tokens_seen": 45584,
+      "step": 300
+    },
+    {
+      "epoch": 1.6944444444444444,
+      "grad_norm": 0.009935064241290092,
+      "learning_rate": 4.9280668057279014e-05,
+      "loss": 0.192,
+      "num_input_tokens_seen": 46352,
+      "step": 305
+    },
+    {
+      "epoch": 1.7222222222222223,
+      "grad_norm": 43.675479888916016,
+      "learning_rate": 4.9221796730647516e-05,
+      "loss": 0.2653,
+      "num_input_tokens_seen": 47136,
+      "step": 310
+    },
+    {
+      "epoch": 1.75,
+      "grad_norm": 0.01382085308432579,
+      "learning_rate": 4.916064814370287e-05,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 47904,
+      "step": 315
+    },
+    {
+      "epoch": 1.7777777777777777,
+      "grad_norm": 0.05889115855097771,
+      "learning_rate": 4.9097228045450864e-05,
+      "loss": 0.0328,
+      "num_input_tokens_seen": 48704,
+      "step": 320
+    },
+    {
+      "epoch": 1.8055555555555556,
+      "grad_norm": 0.028889305889606476,
+      "learning_rate": 4.9031542398457974e-05,
+      "loss": 0.0228,
+      "num_input_tokens_seen": 49440,
+      "step": 325
+    },
+    {
+      "epoch": 1.8333333333333335,
+      "grad_norm": 0.016455378383398056,
+      "learning_rate": 4.896359737829071e-05,
+      "loss": 0.0645,
+      "num_input_tokens_seen": 50224,
+      "step": 330
+    },
+    {
+      "epoch": 1.8611111111111112,
+      "grad_norm": 2.9751687049865723,
+      "learning_rate": 4.889339937293508e-05,
+      "loss": 0.011,
+      "num_input_tokens_seen": 50976,
+      "step": 335
+    },
+    {
+      "epoch": 1.8888888888888888,
+      "grad_norm": 26.30304527282715,
+      "learning_rate": 4.8820954982195905e-05,
+      "loss": 0.0502,
+      "num_input_tokens_seen": 51760,
+      "step": 340
+    },
+    {
+      "epoch": 1.9166666666666665,
+      "grad_norm": 0.008524544537067413,
+      "learning_rate": 4.874627101707644e-05,
+      "loss": 0.1273,
+      "num_input_tokens_seen": 52496,
+      "step": 345
+    },
+    {
+      "epoch": 1.9444444444444444,
+      "grad_norm": 0.3469292223453522,
+      "learning_rate": 4.8669354499137955e-05,
+      "loss": 0.0112,
+      "num_input_tokens_seen": 53264,
+      "step": 350
+    },
+    {
+      "epoch": 1.9722222222222223,
+      "grad_norm": 0.02578221634030342,
+      "learning_rate": 4.859021265983959e-05,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 54032,
+      "step": 355
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.01661246083676815,
+      "learning_rate": 4.850885293985853e-05,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 54800,
+      "step": 360
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.13968539237976074,
+      "eval_runtime": 0.8731,
+      "eval_samples_per_second": 45.813,
+      "eval_steps_per_second": 22.906,
+      "num_input_tokens_seen": 54800,
+      "step": 360
+    },
+    {
+      "epoch": 2.0277777777777777,
+      "grad_norm": 0.009064249694347382,
+      "learning_rate": 4.8425282988390376e-05,
+      "loss": 0.0901,
+      "num_input_tokens_seen": 55536,
+      "step": 365
+    },
+    {
+      "epoch": 2.0555555555555554,
+      "grad_norm": 0.008344353176653385,
+      "learning_rate": 4.8339510662430046e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 56288,
+      "step": 370
+    },
+    {
+      "epoch": 2.0833333333333335,
+      "grad_norm": 0.6907618045806885,
+      "learning_rate": 4.825154402603308e-05,
+      "loss": 0.0072,
+      "num_input_tokens_seen": 57072,
+      "step": 375
+    },
+    {
+      "epoch": 2.111111111111111,
+      "grad_norm": 0.006057972088456154,
+      "learning_rate": 4.816139134955746e-05,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 57840,
+      "step": 380
+    },
+    {
+      "epoch": 2.138888888888889,
+      "grad_norm": 0.007125409319996834,
+      "learning_rate": 4.806906110888606e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 58592,
+      "step": 385
+    },
+    {
+      "epoch": 2.1666666666666665,
+      "grad_norm": 0.004793958738446236,
+      "learning_rate": 4.797456198462979e-05,
+      "loss": 0.1331,
+      "num_input_tokens_seen": 59328,
+      "step": 390
+    },
+    {
+      "epoch": 2.1944444444444446,
+      "grad_norm": 0.009237749502062798,
+      "learning_rate": 4.7877902861311446e-05,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 60080,
+      "step": 395
+    },
+    {
+      "epoch": 2.2222222222222223,
+      "grad_norm": 0.0056296358816325665,
+      "learning_rate": 4.777909282653042e-05,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 60832,
+      "step": 400
+    },
+    {
+      "epoch": 2.25,
+      "grad_norm": 0.011304618790745735,
+      "learning_rate": 4.7678141170108345e-05,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 61568,
+      "step": 405
+    },
+    {
+      "epoch": 2.2777777777777777,
+      "grad_norm": 64.0176010131836,
+      "learning_rate": 4.757505738321563e-05,
+      "loss": 0.2675,
+      "num_input_tokens_seen": 62336,
+      "step": 410
+    },
+    {
+      "epoch": 2.3055555555555554,
+      "grad_norm": 0.006608088966459036,
+      "learning_rate": 4.7469851157479177e-05,
+      "loss": 0.4822,
+      "num_input_tokens_seen": 63088,
+      "step": 415
+    },
+    {
+      "epoch": 2.3333333333333335,
+      "grad_norm": 0.012060252949595451,
+      "learning_rate": 4.736253238407119e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 63888,
+      "step": 420
+    },
+    {
+      "epoch": 2.361111111111111,
+      "grad_norm": 0.0077227340079844,
+      "learning_rate": 4.725311115277924e-05,
+      "loss": 0.2626,
+      "num_input_tokens_seen": 64640,
+      "step": 425
+    },
+    {
+      "epoch": 2.388888888888889,
+      "grad_norm": 0.1587001085281372,
+      "learning_rate": 4.714159775105765e-05,
+      "loss": 0.1269,
+      "num_input_tokens_seen": 65392,
+      "step": 430
+    },
+    {
+      "epoch": 2.4166666666666665,
+      "grad_norm": 0.029979098588228226,
+      "learning_rate": 4.70280026630603e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 66176,
+      "step": 435
+    },
+    {
+      "epoch": 2.4444444444444446,
+      "grad_norm": 41.430625915527344,
+      "learning_rate": 4.6912336568654925e-05,
+      "loss": 0.0537,
+      "num_input_tokens_seen": 66960,
+      "step": 440
+    },
+    {
+      "epoch": 2.4722222222222223,
+      "grad_norm": 0.01960122212767601,
+      "learning_rate": 4.679461034241906e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 67712,
+      "step": 445
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 0.017095442861318588,
+      "learning_rate": 4.667483505261762e-05,
+      "loss": 0.1191,
+      "num_input_tokens_seen": 68480,
+      "step": 450
+    },
+    {
+      "epoch": 2.5,
+      "eval_loss": 0.14334793388843536,
+      "eval_runtime": 0.8472,
+      "eval_samples_per_second": 47.214,
+      "eval_steps_per_second": 23.607,
+      "num_input_tokens_seen": 68480,
+      "step": 450
+    },
+    {
+      "epoch": 2.5277777777777777,
+      "grad_norm": 0.8339170217514038,
+      "learning_rate": 4.655302196016228e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 69248,
+      "step": 455
+    },
+    {
+      "epoch": 2.5555555555555554,
+      "grad_norm": 0.007273822091519833,
+      "learning_rate": 4.642918251755281e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 70016,
+      "step": 460
+    },
+    {
+      "epoch": 2.5833333333333335,
+      "grad_norm": 0.10730123519897461,
+      "learning_rate": 4.6303328367800284e-05,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 70784,
+      "step": 465
+    },
+    {
+      "epoch": 2.611111111111111,
+      "grad_norm": 0.00880274549126625,
+      "learning_rate": 4.6175471343332485e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 71552,
+      "step": 470
+    },
+    {
+      "epoch": 2.638888888888889,
+      "grad_norm": 0.0065057664178311825,
+      "learning_rate": 4.604562346488144e-05,
+      "loss": 0.0131,
+      "num_input_tokens_seen": 72288,
+      "step": 475
+    },
+    {
+      "epoch": 2.6666666666666665,
+      "grad_norm": 0.009263488464057446,
+      "learning_rate": 4.591379694035325e-05,
+      "loss": 0.0409,
+      "num_input_tokens_seen": 73072,
+      "step": 480
+    },
+    {
+      "epoch": 2.6944444444444446,
+      "grad_norm": 0.005506084766238928,
+      "learning_rate": 4.5780004163680365e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 73856,
+      "step": 485
+    },
+    {
+      "epoch": 2.7222222222222223,
+      "grad_norm": 19.782270431518555,
+      "learning_rate": 4.5644257713656356e-05,
+      "loss": 0.0572,
+      "num_input_tokens_seen": 74624,
+      "step": 490
+    },
+    {
+      "epoch": 2.75,
+      "grad_norm": 0.009718476794660091,
+      "learning_rate": 4.550657035275323e-05,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 75392,
+      "step": 495
+    },
+    {
+      "epoch": 2.7777777777777777,
+      "grad_norm": 0.006279336288571358,
+      "learning_rate": 4.536695502592162e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 76160,
+      "step": 500
+    },
+    {
+      "epoch": 2.8055555555555554,
+      "grad_norm": 0.00757136195898056,
+      "learning_rate": 4.522542485937369e-05,
+      "loss": 0.0326,
+      "num_input_tokens_seen": 76912,
+      "step": 505
+    },
+    {
+      "epoch": 2.8333333333333335,
+      "grad_norm": 0.016545820981264114,
+      "learning_rate": 4.5081993159349056e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 77680,
+      "step": 510
+    },
+    {
+      "epoch": 2.861111111111111,
+      "grad_norm": 0.00826545711606741,
+      "learning_rate": 4.493667341086379e-05,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 78464,
+      "step": 515
+    },
+    {
+      "epoch": 2.888888888888889,
+      "grad_norm": 0.005500601138919592,
+      "learning_rate": 4.478947927644258e-05,
+      "loss": 0.0569,
+      "num_input_tokens_seen": 79232,
+      "step": 520
+    },
+    {
+      "epoch": 2.9166666666666665,
+      "grad_norm": 0.005263440310955048,
+      "learning_rate": 4.464042459483425e-05,
+      "loss": 0.1451,
+      "num_input_tokens_seen": 79968,
+      "step": 525
+    },
+    {
+      "epoch": 2.9444444444444446,
+      "grad_norm": 0.008182135410606861,
+      "learning_rate": 4.448952337971064e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 80736,
+      "step": 530
+    },
+    {
+      "epoch": 2.9722222222222223,
+      "grad_norm": 0.06003406643867493,
+      "learning_rate": 4.43367898183491e-05,
+      "loss": 0.2445,
+      "num_input_tokens_seen": 81488,
+      "step": 535
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 0.010744345374405384,
+      "learning_rate": 4.418223827029867e-05,
+      "loss": 0.0747,
+      "num_input_tokens_seen": 82256,
+      "step": 540
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 0.1585792750120163,
+      "eval_runtime": 0.8639,
+      "eval_samples_per_second": 46.299,
+      "eval_steps_per_second": 23.15,
+      "num_input_tokens_seen": 82256,
+      "step": 540
+    },
+    {
+      "epoch": 3.0277777777777777,
+      "grad_norm": 0.004692050628364086,
+      "learning_rate": 4.402588326603002e-05,
+      "loss": 0.0068,
+      "num_input_tokens_seen": 83008,
+      "step": 545
+    },
+    {
+      "epoch": 3.0555555555555554,
+      "grad_norm": 0.008360066451132298,
+      "learning_rate": 4.386773950556931e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 83760,
+      "step": 550
+    },
+    {
+      "epoch": 3.0833333333333335,
+      "grad_norm": 0.003476613201200962,
+      "learning_rate": 4.3707821857116176e-05,
+      "loss": 0.1888,
+      "num_input_tokens_seen": 84512,
+      "step": 555
+    },
+    {
+      "epoch": 3.111111111111111,
+      "grad_norm": 0.005749064963310957,
+      "learning_rate": 4.354614535564588e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 85264,
+      "step": 560
+    },
+    {
+      "epoch": 3.138888888888889,
+      "grad_norm": 0.039910800755023956,
+      "learning_rate": 4.3382725201495723e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 86048,
+      "step": 565
+    },
+    {
+      "epoch": 3.1666666666666665,
+      "grad_norm": 0.010388891212642193,
+      "learning_rate": 4.321757675893596e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 86784,
+      "step": 570
+    },
+    {
+      "epoch": 3.1944444444444446,
+      "grad_norm": 0.009365994483232498,
+      "learning_rate": 4.305071555472534e-05,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 87568,
+      "step": 575
+    },
+    {
+      "epoch": 3.2222222222222223,
+      "grad_norm": 0.003861945355311036,
+      "learning_rate": 4.288215727665129e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 88320,
+      "step": 580
+    },
+    {
+      "epoch": 3.25,
+      "grad_norm": 0.0033517684787511826,
+      "learning_rate": 4.2711917772055e-05,
+      "loss": 0.2939,
+      "num_input_tokens_seen": 89072,
+      "step": 585
+    },
+    {
+      "epoch": 3.2777777777777777,
+      "grad_norm": 0.0706770047545433,
+      "learning_rate": 4.254001304634151e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 89872,
+      "step": 590
+    },
+    {
+      "epoch": 3.3055555555555554,
+      "grad_norm": 12.658806800842285,
+      "learning_rate": 4.2366459261474933e-05,
+      "loss": 0.005,
+      "num_input_tokens_seen": 90640,
+      "step": 595
+    },
+    {
+      "epoch": 3.3333333333333335,
+      "grad_norm": 0.6362056732177734,
+      "learning_rate": 4.2191272734458955e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 91376,
+      "step": 600
+    },
+    {
+      "epoch": 3.361111111111111,
+      "grad_norm": 0.008696366101503372,
+      "learning_rate": 4.201446993580276e-05,
+      "loss": 0.0193,
+      "num_input_tokens_seen": 92128,
+      "step": 605
+    },
+    {
+      "epoch": 3.388888888888889,
+      "grad_norm": 0.013609865680336952,
+      "learning_rate": 4.183606748797251e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 92912,
+      "step": 610
+    },
+    {
+      "epoch": 3.4166666666666665,
+      "grad_norm": 0.0021089082583785057,
+      "learning_rate": 4.1656082163828566e-05,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 93632,
+      "step": 615
+    },
+    {
+      "epoch": 3.4444444444444446,
+      "grad_norm": 0.004418779164552689,
+      "learning_rate": 4.147453088504854e-05,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 94384,
+      "step": 620
+    },
+    {
+      "epoch": 3.4722222222222223,
+      "grad_norm": 0.004805439617484808,
+      "learning_rate": 4.129143072053638e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 95152,
+      "step": 625
+    },
+    {
+      "epoch": 3.5,
+      "grad_norm": 0.005893156863749027,
+      "learning_rate": 4.110679888481763e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 95920,
+      "step": 630
+    },
+    {
+      "epoch": 3.5,
+      "eval_loss": 0.15426704287528992,
+      "eval_runtime": 0.9961,
+      "eval_samples_per_second": 40.157,
+      "eval_steps_per_second": 20.079,
+      "num_input_tokens_seen": 95920,
+      "step": 630
+    },
+    {
+      "epoch": 3.5277777777777777,
+      "grad_norm": 0.21285879611968994,
+      "learning_rate": 4.09206527364209e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 96704,
+      "step": 635
+    },
+    {
+      "epoch": 3.5555555555555554,
+      "grad_norm": 0.004686427302658558,
+      "learning_rate": 4.073300977624594e-05,
+      "loss": 0.0496,
+      "num_input_tokens_seen": 97456,
+      "step": 640
+    },
+    {
+      "epoch": 3.5833333333333335,
+      "grad_norm": 0.006941783241927624,
+      "learning_rate": 4.054388764591822e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 98192,
+      "step": 645
+    },
+    {
+      "epoch": 3.611111111111111,
+      "grad_norm": 0.003678448498249054,
+      "learning_rate": 4.035330412613035e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 98944,
+      "step": 650
+    },
+    {
+      "epoch": 3.638888888888889,
+      "grad_norm": 0.0034077675081789494,
+      "learning_rate": 4.0161277134970345e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 99712,
+      "step": 655
+    },
+    {
+      "epoch": 3.6666666666666665,
+      "grad_norm": 0.003917415160685778,
+      "learning_rate": 3.996782472623705e-05,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 100496,
+      "step": 660
+    },
+    {
+      "epoch": 3.6944444444444446,
+      "grad_norm": 0.004346042405813932,
+      "learning_rate": 3.977296508774278e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 101232,
+      "step": 665
+    },
+    {
+      "epoch": 3.7222222222222223,
+      "grad_norm": 0.03601907566189766,
+      "learning_rate": 3.957671653960337e-05,
+      "loss": 0.1836,
+      "num_input_tokens_seen": 102000,
+      "step": 670
+    },
+    {
+      "epoch": 3.75,
+      "grad_norm": 0.029370684176683426,
+      "learning_rate": 3.9379097532515725e-05,
+      "loss": 0.3127,
+      "num_input_tokens_seen": 102784,
+      "step": 675
+    },
+    {
+      "epoch": 3.7777777777777777,
+      "grad_norm": 0.02692316845059395,
+      "learning_rate": 3.918012664602317e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 103584,
+      "step": 680
+    },
+    {
+      "epoch": 3.8055555555555554,
+      "grad_norm": 0.003177183447405696,
+      "learning_rate": 3.897982258676867e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 104368,
+      "step": 685
+    },
+    {
+      "epoch": 3.8333333333333335,
+      "grad_norm": 0.003096670377999544,
+      "learning_rate": 3.8778204186736076e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 105104,
+      "step": 690
+    },
+    {
+      "epoch": 3.861111111111111,
+      "grad_norm": 0.004423821810632944,
+      "learning_rate": 3.8575290401479586e-05,
+      "loss": 0.0411,
+      "num_input_tokens_seen": 105856,
+      "step": 695
+    },
+    {
+      "epoch": 3.888888888888889,
+      "grad_norm": 0.009440253488719463,
+      "learning_rate": 3.837110030834161e-05,
+      "loss": 0.099,
+      "num_input_tokens_seen": 106624,
+      "step": 700
+    },
+    {
+      "epoch": 3.9166666666666665,
+      "grad_norm": 0.003973190672695637,
+      "learning_rate": 3.8165653104659185e-05,
+      "loss": 0.0108,
+      "num_input_tokens_seen": 107408,
+      "step": 705
+    },
+    {
+      "epoch": 3.9444444444444446,
+      "grad_norm": 0.006104958709329367,
+      "learning_rate": 3.79589681059591e-05,
+      "loss": 0.0232,
+      "num_input_tokens_seen": 108160,
+      "step": 710
+    },
+    {
+      "epoch": 3.9722222222222223,
+      "grad_norm": 0.0029671171214431524,
+      "learning_rate": 3.775106474414188e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 108928,
+      "step": 715
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 0.006943428888916969,
+      "learning_rate": 3.75419625656549e-05,
+      "loss": 0.0276,
+      "num_input_tokens_seen": 109680,
+      "step": 720
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 0.1733400523662567,
+      "eval_runtime": 0.8977,
+      "eval_samples_per_second": 44.56,
+      "eval_steps_per_second": 22.28,
+      "num_input_tokens_seen": 109680,
+      "step": 720
+    },
+    {
+      "epoch": 4.027777777777778,
+      "grad_norm": 0.35043978691101074,
+      "learning_rate": 3.7331681229654635e-05,
+      "loss": 0.122,
+      "num_input_tokens_seen": 110448,
+      "step": 725
+    },
+    {
+      "epoch": 4.055555555555555,
+      "grad_norm": 0.009929414838552475,
+      "learning_rate": 3.712024050615843e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 111216,
+      "step": 730
+    },
+    {
+      "epoch": 4.083333333333333,
+      "grad_norm": 0.004455262329429388,
+      "learning_rate": 3.690766027418573e-05,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 111968,
+      "step": 735
+    },
+    {
+      "epoch": 4.111111111111111,
+      "grad_norm": 74.90491485595703,
+      "learning_rate": 3.6693960519889106e-05,
+      "loss": 0.0829,
+      "num_input_tokens_seen": 112736,
+      "step": 740
+    },
+    {
+      "epoch": 4.138888888888889,
+      "grad_norm": 0.005577894859015942,
+      "learning_rate": 3.6479161334675296e-05,
+      "loss": 0.0069,
+      "num_input_tokens_seen": 113488,
+      "step": 745
+    },
+    {
+      "epoch": 4.166666666666667,
+      "grad_norm": 0.0027480549179017544,
+      "learning_rate": 3.626328291331618e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 114256,
+      "step": 750
+    },
+    {
+      "epoch": 4.194444444444445,
+      "grad_norm": 0.002460277173668146,
+      "learning_rate": 3.60463455520502e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 115024,
+      "step": 755
+    },
+    {
+      "epoch": 4.222222222222222,
+      "grad_norm": 4.454160690307617,
+      "learning_rate": 3.582836964667408e-05,
+      "loss": 0.2813,
+      "num_input_tokens_seen": 115776,
+      "step": 760
+    },
+    {
+      "epoch": 4.25,
+      "grad_norm": 0.0043601770885288715,
+      "learning_rate": 3.560937569062538e-05,
+      "loss": 0.2045,
+      "num_input_tokens_seen": 116560,
+      "step": 765
+    },
+    {
+      "epoch": 4.277777777777778,
+      "grad_norm": 0.020831065252423286,
+      "learning_rate": 3.538938427305573e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 117344,
+      "step": 770
+    },
+    {
+      "epoch": 4.305555555555555,
+      "grad_norm": 0.0023294168058782816,
+      "learning_rate": 3.516841607689501e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 118080,
+      "step": 775
+    },
+    {
+      "epoch": 4.333333333333333,
+      "grad_norm": 0.011770294979214668,
+      "learning_rate": 3.494649187690695e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 118848,
+      "step": 780
+    },
+    {
+      "epoch": 4.361111111111111,
+      "grad_norm": 0.002268734388053417,
+      "learning_rate": 3.4723632537735846e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 119632,
+      "step": 785
+    },
+    {
+      "epoch": 4.388888888888889,
+      "grad_norm": 0.0043189446441829205,
+      "learning_rate": 3.449985901194498e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 120368,
+      "step": 790
+    },
+    {
+      "epoch": 4.416666666666667,
+      "grad_norm": 0.003947732038795948,
+      "learning_rate": 3.427519233804667e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 121136,
+      "step": 795
+    },
+    {
+      "epoch": 4.444444444444445,
+      "grad_norm": 0.007481610402464867,
+      "learning_rate": 3.404965363852437e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 121888,
+      "step": 800
+    },
+    {
+      "epoch": 4.472222222222222,
+      "grad_norm": 0.006325196009129286,
+      "learning_rate": 3.382326411784672e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 122656,
+      "step": 805
+    },
+    {
+      "epoch": 4.5,
+      "grad_norm": 0.0031090332195162773,
+      "learning_rate": 3.359604506047403e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 123408,
+      "step": 810
+    },
+    {
+      "epoch": 4.5,
+      "eval_loss": 0.17834582924842834,
+      "eval_runtime": 0.9091,
+      "eval_samples_per_second": 43.998,
+      "eval_steps_per_second": 21.999,
+      "num_input_tokens_seen": 123408,
+      "step": 810
+    },
+    {
+      "epoch": 4.527777777777778,
+      "grad_norm": 0.003541292157024145,
+      "learning_rate": 3.336801782885712e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 124160,
+      "step": 815
+    },
+    {
+      "epoch": 4.555555555555555,
+      "grad_norm": 0.0038108064327389,
+      "learning_rate": 3.313920386142892e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 124928,
+      "step": 820
+    },
+    {
+      "epoch": 4.583333333333333,
+      "grad_norm": 0.28179842233657837,
+      "learning_rate": 3.290962467058891e-05,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 125696,
+      "step": 825
+    },
+    {
+      "epoch": 4.611111111111111,
+      "grad_norm": 0.0035293474793434143,
+      "learning_rate": 3.267930184068057e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 126448,
+      "step": 830
+    },
+    {
+      "epoch": 4.638888888888889,
+      "grad_norm": 0.00379269034601748,
+      "learning_rate": 3.244825702596205e-05,
+      "loss": 0.0,
+      "num_input_tokens_seen": 127184,
+      "step": 835
+    },
+    {
+      "epoch": 4.666666666666667,
+      "grad_norm": 0.0022270483896136284,
+      "learning_rate": 3.2216511948570374e-05,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 127936,
+      "step": 840
+    },
+    {
+      "epoch": 4.694444444444445,
+      "grad_norm": 0.017402423545718193,
+      "learning_rate": 3.198408839647911e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 128688,
+      "step": 845
+    },
+    {
+      "epoch": 4.722222222222222,
+      "grad_norm": 0.00284409336745739,
+      "learning_rate": 3.1751008221450025e-05,
+      "loss": 0.0,
+      "num_input_tokens_seen": 129456,
+      "step": 850
+    },
+    {
+      "epoch": 4.75,
+      "grad_norm": 0.0019377171993255615,
+      "learning_rate": 3.151729333697854e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 130192,
+      "step": 855
+    },
+    {
+      "epoch": 4.777777777777778,
+      "grad_norm": 0.005334069021046162,
+      "learning_rate": 3.1282965716233594e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 130976,
+      "step": 860
+    },
+    {
+      "epoch": 4.805555555555555,
+      "grad_norm": 0.00939280353486538,
+      "learning_rate": 3.104804738999169e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 131728,
+      "step": 865
+    },
+    {
+      "epoch": 4.833333333333333,
+      "grad_norm": 0.005722450092434883,
+      "learning_rate": 3.0812560444565745e-05,
+      "loss": 0.0,
+      "num_input_tokens_seen": 132480,
+      "step": 870
+    },
+    {
+      "epoch": 4.861111111111111,
+      "grad_norm": 0.02254972793161869,
+      "learning_rate": 3.057652701972848e-05,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 133264,
+      "step": 875
+    },
+    {
+      "epoch": 4.888888888888889,
+      "grad_norm": 0.001465034089051187,
+      "learning_rate": 3.0339969306631005e-05,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 134032,
+      "step": 880
+    },
+    {
+      "epoch": 4.916666666666667,
+      "grad_norm": 0.03533560410141945,
+      "learning_rate": 3.0102909545716396e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 134800,
+      "step": 885
+    },
+    {
+      "epoch": 4.944444444444445,
+      "grad_norm": 0.0021763457916677,
+      "learning_rate": 2.9865370024628775e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 135536,
+      "step": 890
+    },
+    {
+      "epoch": 4.972222222222222,
+      "grad_norm": 0.0021308716386556625,
+      "learning_rate": 2.9627373076117863e-05,
+      "loss": 0.0,
+      "num_input_tokens_seen": 136272,
+      "step": 895
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.0033213908318430185,
+      "learning_rate": 2.9388941075939334e-05,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 137040,
+      "step": 900
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 0.18915815651416779,
+      "eval_runtime": 0.8637,
+      "eval_samples_per_second": 46.312,
+      "eval_steps_per_second": 23.156,
+      "num_input_tokens_seen": 137040,
+      "step": 900
+    },
+    {
+      "epoch": 5.027777777777778,
+      "grad_norm": 0.056632209569215775,
+      "learning_rate": 2.9150096440751107e-05,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 137808,
+      "step": 905
+    },
+    {
+      "epoch": 5.055555555555555,
+      "grad_norm": 0.14479988813400269,
+      "learning_rate": 2.8910861626005776e-05,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 138560,
+      "step": 910
+    },
+    {
+      "epoch": 5.083333333333333,
+      "grad_norm": 0.004574320744723082,
+      "learning_rate": 2.8671259123839472e-05,
+      "loss": 0.0,
+      "num_input_tokens_seen": 139312,
+      "step": 915
+    },
+    {
+      "epoch": 5.111111111111111,
+      "grad_norm": 0.006690006237477064,
+      "learning_rate": 2.843131146095719e-05,
+      "loss": 0.0,
+      "num_input_tokens_seen": 140032,
+      "step": 920
+    },
+    {
+      "epoch": 5.138888888888889,
+      "grad_norm": 0.04315263405442238,
+      "learning_rate": 2.8191041196514873e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 140768,
+      "step": 925
+    },
+    {
+      "epoch": 5.166666666666667,
+      "grad_norm": 0.002650605281814933,
+      "learning_rate": 2.795047091999849e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 141536,
+      "step": 930
+    },
+    {
+      "epoch": 5.194444444444445,
+      "grad_norm": 0.04034039378166199,
+      "learning_rate": 2.770962324910027e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 142320,
+      "step": 935
+    },
+    {
+      "epoch": 5.222222222222222,
+      "grad_norm": 0.0023825839161872864,
+      "learning_rate": 2.7468520827592197e-05,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 143088,
+      "step": 940
+    },
+    {
+      "epoch": 5.25,
+      "grad_norm": 0.002679111436009407,
+      "learning_rate": 2.7227186323197162e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 143840,
+      "step": 945
+    },
+    {
+      "epoch": 5.277777777777778,
+      "grad_norm": 0.002105121733620763,
+      "learning_rate": 2.6985642425457757e-05,
+      "loss": 0.229,
+      "num_input_tokens_seen": 144592,
+      "step": 950
+    },
+    {
+      "epoch": 5.305555555555555,
+      "grad_norm": 0.0029831964056938887,
+      "learning_rate": 2.674391184360313e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 145328,
+      "step": 955
+    },
+    {
+      "epoch": 5.333333333333333,
+      "grad_norm": 0.008866608142852783,
+      "learning_rate": 2.650201730441392e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 146080,
+      "step": 960
+    },
+    {
+      "epoch": 5.361111111111111,
+      "grad_norm": 0.1157485768198967,
+      "learning_rate": 2.6259981550085504e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 146864,
+      "step": 965
+    },
+    {
+      "epoch": 5.388888888888889,
+      "grad_norm": 0.02147284708917141,
+      "learning_rate": 2.60178273360899e-05,
+      "loss": 0.1137,
+      "num_input_tokens_seen": 147632,
+      "step": 970
+    },
+    {
+      "epoch": 5.416666666666667,
+      "grad_norm": 0.050694871693849564,
+      "learning_rate": 2.5775577429036345e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 148416,
+      "step": 975
+    },
+    {
+      "epoch": 5.444444444444445,
+      "grad_norm": 0.00253108749166131,
+      "learning_rate": 2.553325460453086e-05,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 149152,
+      "step": 980
+    },
+    {
+      "epoch": 5.472222222222222,
+      "grad_norm": 0.0020968341268599033,
+      "learning_rate": 2.5290881645034932e-05,
+      "loss": 0.0,
+      "num_input_tokens_seen": 149920,
+      "step": 985
+    },
+    {
+      "epoch": 5.5,
+      "grad_norm": 0.0030508909840136766,
+      "learning_rate": 2.504848133772358e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 150672,
+      "step": 990
+    },
+    {
+      "epoch": 5.5,
+      "eval_loss": 0.19481489062309265,
+      "eval_runtime": 0.898,
+      "eval_samples_per_second": 44.542,
+      "eval_steps_per_second": 22.271,
+      "num_input_tokens_seen": 150672,
+      "step": 990
+    },
+    {
+      "epoch": 5.527777777777778,
+      "grad_norm": 0.0028975855093449354,
+      "learning_rate": 2.4806076472342997e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 151424,
+      "step": 995
+    },
+    {
+      "epoch": 5.555555555555555,
+      "grad_norm": 0.0023356874007731676,
+      "learning_rate": 2.4563689839067913e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 152160,
+      "step": 1000
+    },
+    {
+      "epoch": 5.583333333333333,
+      "grad_norm": 0.002313376637175679,
+      "learning_rate": 2.432134422635893e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 152960,
+      "step": 1005
+    },
+    {
+      "epoch": 5.611111111111111,
+      "grad_norm": 0.0026274356059730053,
+      "learning_rate": 2.4079062418820002e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 153728,
+      "step": 1010
+    },
+    {
+      "epoch": 5.638888888888889,
+      "grad_norm": 0.0016156655037775636,
+      "learning_rate": 2.3836867195056335e-05,
+      "loss": 0.0,
+      "num_input_tokens_seen": 154496,
+      "step": 1015
+    },
+    {
+      "epoch": 5.666666666666667,
+      "grad_norm": 0.011947419494390488,
+      "learning_rate": 2.3594781325532784e-05,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 155280,
+      "step": 1020
+    },
+    {
+      "epoch": 5.694444444444445,
+      "grad_norm": 0.02961958572268486,
+      "learning_rate": 2.3352827570433036e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 156064,
+      "step": 1025
+    },
+    {
+      "epoch": 5.722222222222222,
+      "grad_norm": 0.07261377573013306,
+      "learning_rate": 2.3111028677519804e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 156816,
+      "step": 1030
+    },
+    {
+      "epoch": 5.75,
+      "grad_norm": 0.003121615620329976,
+      "learning_rate": 2.2869407379996088e-05,
+      "loss": 0.0,
+      "num_input_tokens_seen": 157568,
+      "step": 1035
+    },
+    {
+      "epoch": 5.777777777777778,
+      "grad_norm": 0.003354340326040983,
+      "learning_rate": 2.2627986394367938e-05,
+      "loss": 0.0,
+      "num_input_tokens_seen": 158320,
+      "step": 1040
+    },
+    {
+      "epoch": 5.805555555555555,
+      "grad_norm": 0.005908883176743984,
+      "learning_rate": 2.238678841830867e-05,
+      "loss": 0.0,
+      "num_input_tokens_seen": 159056,
+      "step": 1045
+    },
+    {
+      "epoch": 5.833333333333333,
+      "grad_norm": 0.16055719554424286,
+      "learning_rate": 2.2145836128524902e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 159792,
+      "step": 1050
+    },
+    {
+      "epoch": 5.861111111111111,
+      "grad_norm": 0.001806123647838831,
+      "learning_rate": 2.1905152178624595e-05,
+      "loss": 0.0,
+      "num_input_tokens_seen": 160544,
+      "step": 1055
+    },
+    {
+      "epoch": 5.888888888888889,
+      "grad_norm": 0.00291000516153872,
+      "learning_rate": 2.1664759196987182e-05,
+      "loss": 0.0784,
+      "num_input_tokens_seen": 161296,
+      "step": 1060
+    },
+    {
+      "epoch": 5.916666666666667,
+      "grad_norm": 0.11329387873411179,
+      "learning_rate": 2.1424679784636144e-05,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 162048,
+      "step": 1065
+    },
+    {
+      "epoch": 5.944444444444445,
+      "grad_norm": 0.001582896220497787,
+      "learning_rate": 2.118493651311413e-05,
+      "loss": 0.0,
+      "num_input_tokens_seen": 162816,
+      "step": 1070
+    },
+    {
+      "epoch": 5.972222222222222,
+      "grad_norm": 0.0024200803600251675,
+      "learning_rate": 2.0945551922360818e-05,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 163584,
+      "step": 1075
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 0.0025788673665374517,
+      "learning_rate": 2.070654851859383e-05,
+      "loss": 0.0,
+      "num_input_tokens_seen": 164336,
+      "step": 1080
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 0.20146259665489197,
+      "eval_runtime": 0.8911,
+      "eval_samples_per_second": 44.887,
+      "eval_steps_per_second": 22.444,
+      "num_input_tokens_seen": 164336,
+      "step": 1080
+    },
+    {
+      "epoch": 6.027777777777778,
+      "grad_norm": 0.0012250063009560108,
+      "learning_rate": 2.0467948772192713e-05,
+      "loss": 0.0,
+      "num_input_tokens_seen": 165088,
+      "step": 1085
+    },
+    {
+      "epoch": 6.055555555555555,
+      "grad_norm": 0.002738215960562229,
+      "learning_rate": 2.022977511558638e-05,
+      "loss": 0.0,
+      "num_input_tokens_seen": 165856,
+      "step": 1090
+    },
+    {
+      "epoch": 6.083333333333333,
+      "grad_norm": 0.05658820644021034,
+      "learning_rate": 1.9992049941144066e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 166624,
+      "step": 1095
+    },
+    {
+      "epoch": 6.111111111111111,
+      "grad_norm": 0.0015246145194396377,
+      "learning_rate": 1.9754795599070068e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 167360,
+      "step": 1100
+    },
+    {
+      "epoch": 6.138888888888889,
+      "grad_norm": 0.00705633033066988,
+      "learning_rate": 1.9518034395302414e-05,
+      "loss": 0.0,
+      "num_input_tokens_seen": 168112,
+      "step": 1105
+    },
+    {
+      "epoch": 6.166666666666667,
+      "grad_norm": 0.0018693690653890371,
+      "learning_rate": 1.9281788589415804e-05,
+      "loss": 0.0,
+      "num_input_tokens_seen": 168864,
+      "step": 1110
+    },
+    {
+      "epoch": 6.194444444444445,
+      "grad_norm": 0.002476233523339033,
+      "learning_rate": 1.9046080392528735e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 169616,
+      "step": 1115
+    },
+    {
+      "epoch": 6.222222222222222,
+      "grad_norm": 0.0015990459360182285,
+      "learning_rate": 1.8810931965215356e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 170416,
+      "step": 1120
+    },
+    {
+      "epoch": 6.25,
+      "grad_norm": 0.07700612396001816,
+      "learning_rate": 1.857636541542195e-05,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 171184,
+      "step": 1125
+    },
+    {
+      "epoch": 6.277777777777778,
+      "grad_norm": 0.002112372312694788,
+      "learning_rate": 1.8342402796388445e-05,
+      "loss": 0.1835,
+      "num_input_tokens_seen": 171936,
+      "step": 1130
+    },
+    {
+      "epoch": 6.305555555555555,
+      "grad_norm": 0.8381811380386353,
+      "learning_rate": 1.8109066104575023e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 172688,
+      "step": 1135
+    },
+    {
+      "epoch": 6.333333333333333,
+      "grad_norm": 0.003225484397262335,
+      "learning_rate": 1.7876377277594053e-05,
+      "loss": 0.0106,
+      "num_input_tokens_seen": 173456,
+      "step": 1140
+    },
+    {
+      "epoch": 6.361111111111111,
+      "grad_norm": 0.0008982580038718879,
+      "learning_rate": 1.764435819214762e-05,
+      "loss": 0.0,
+      "num_input_tokens_seen": 174176,
+      "step": 1145
+    },
+    {
+      "epoch": 6.388888888888889,
+      "grad_norm": 0.0012918318388983607,
+      "learning_rate": 1.7413030661970742e-05,
+      "loss": 0.0,
+      "num_input_tokens_seen": 174912,
+      "step": 1150
+    },
+    {
+      "epoch": 6.416666666666667,
+      "grad_norm": 0.0027255413588136435,
+      "learning_rate": 1.7182416435780454e-05,
+      "loss": 0.0,
+      "num_input_tokens_seen": 175680,
+      "step": 1155
+    },
+    {
+      "epoch": 6.444444444444445,
+      "grad_norm": 0.052055828273296356,
+      "learning_rate": 1.695253719523115e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 176448,
+      "step": 1160
+    },
+    {
+      "epoch": 6.472222222222222,
+      "grad_norm": 0.00360573991201818,
+      "learning_rate": 1.672341455287605e-05,
+      "loss": 0.0,
+      "num_input_tokens_seen": 177216,
+      "step": 1165
+    },
+    {
+      "epoch": 6.5,
+      "grad_norm": 0.020261406898498535,
+      "learning_rate": 1.649507005013532e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 177968,
+      "step": 1170
+    },
+    {
+      "epoch": 6.5,
+      "eval_loss": 0.19643399119377136,
+      "eval_runtime": 0.895,
+      "eval_samples_per_second": 44.695,
+      "eval_steps_per_second": 22.347,
+      "num_input_tokens_seen": 177968,
+      "step": 1170
+    },
+    {
+      "epoch": 6.527777777777778,
+      "grad_norm": 0.013305317610502243,
+      "learning_rate": 1.6267525155270773e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 178768,
+      "step": 1175
+    },
+    {
+      "epoch": 6.555555555555555,
+      "grad_norm": 0.0017271782271564007,
+      "learning_rate": 1.6040801261367493e-05,
+      "loss": 0.0,
+      "num_input_tokens_seen": 179488,
+      "step": 1180
+    },
+    {
+      "epoch": 6.583333333333333,
+      "grad_norm": 0.001645921729505062,
+      "learning_rate": 1.5814919684322545e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 180240,
+      "step": 1185
+    },
+    {
+      "epoch": 6.611111111111111,
+      "grad_norm": 0.04658055305480957,
+      "learning_rate": 1.5589901660840896e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 180992,
+      "step": 1190
+    },
+    {
+      "epoch": 6.638888888888889,
+      "grad_norm": 6.15234899520874,
+      "learning_rate": 1.5365768346438797e-05,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 181760,
+      "step": 1195
+    },
+    {
+      "epoch": 6.666666666666667,
+      "grad_norm": 0.0030860521364957094,
+      "learning_rate": 1.5142540813454836e-05,
+      "loss": 0.0,
+      "num_input_tokens_seen": 182528,
+      "step": 1200
+    },
+    {
+      "epoch": 6.694444444444445,
+      "grad_norm": 0.002572861034423113,
+      "learning_rate": 1.4920240049068748e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 183344,
+      "step": 1205
+    },
+    {
+      "epoch": 6.722222222222222,
+      "grad_norm": 0.021335948258638382,
+      "learning_rate": 1.4698886953328292e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 184096,
+      "step": 1210
+    },
+    {
+      "epoch": 6.75,
+      "grad_norm": 43.77614212036133,
+      "learning_rate": 1.4478502337184274e-05,
+      "loss": 0.013,
+      "num_input_tokens_seen": 184832,
+      "step": 1215
+    },
+    {
+      "epoch": 6.777777777777778,
+      "grad_norm": 0.0024675296153873205,
+      "learning_rate": 1.4259106920533955e-05,
+      "loss": 0.0,
+      "num_input_tokens_seen": 185600,
+      "step": 1220
+    },
+    {
+      "epoch": 6.805555555555555,
+      "grad_norm": 0.003566775470972061,
+      "learning_rate": 1.4040721330273062e-05,
+      "loss": 0.0,
+      "num_input_tokens_seen": 186336,
+      "step": 1225
+    },
+    {
+      "epoch": 6.833333333333333,
+      "grad_norm": 0.029065780341625214,
+      "learning_rate": 1.3823366098356487e-05,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 187120,
+      "step": 1230
+    },
+    {
+      "epoch": 6.861111111111111,
+      "grad_norm": 0.0016439430182799697,
+      "learning_rate": 1.3607061659867892e-05,
+      "loss": 0.0,
+      "num_input_tokens_seen": 187872,
+      "step": 1235
+    },
+    {
+      "epoch": 6.888888888888889,
+      "grad_norm": 0.0015073842369019985,
+      "learning_rate": 1.3391828351098578e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 188640,
+      "step": 1240
+    },
+    {
+      "epoch": 6.916666666666667,
+      "grad_norm": 0.0016068222466856241,
+      "learning_rate": 1.3177686407635417e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 189424,
+      "step": 1245
+    },
+    {
+      "epoch": 6.944444444444445,
+      "grad_norm": 0.0016325548058375716,
+      "learning_rate": 1.29646559624584e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 190224,
+      "step": 1250
+    },
+    {
+      "epoch": 6.972222222222222,
+      "grad_norm": 0.0021291859447956085,
+      "learning_rate": 1.2752757044047827e-05,
+      "loss": 0.0,
+      "num_input_tokens_seen": 190992,
+      "step": 1255
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 0.002036020625382662,
+      "learning_rate": 1.2542009574501246e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 191760,
+      "step": 1260
+    },
+    {
+      "epoch": 7.0,
+      "eval_loss": 0.19721972942352295,
+      "eval_runtime": 0.9179,
+      "eval_samples_per_second": 43.576,
+      "eval_steps_per_second": 21.788,
+      "num_input_tokens_seen": 191760,
+      "step": 1260
+    },
+    {
+      "epoch": 7.027777777777778,
+      "grad_norm": 0.0014772972790524364,
+      "learning_rate": 1.2332433367660442e-05,
+      "loss": 0.0,
+      "num_input_tokens_seen": 192528,
+      "step": 1265
+    },
+    {
+      "epoch": 7.055555555555555,
+      "grad_norm": 0.0010045369854196906,
+      "learning_rate": 1.2124048127248644e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 193312,
+      "step": 1270
+    },
+    {
+      "epoch": 7.083333333333333,
+      "grad_norm": 0.006242353934794664,
+      "learning_rate": 1.1916873445017982e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 194064,
+      "step": 1275
+    },
+    {
+      "epoch": 7.111111111111111,
+      "grad_norm": 0.02573557011783123,
+      "learning_rate": 1.1710928798907556e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 194832,
+      "step": 1280
+    },
+    {
+      "epoch": 7.138888888888889,
+      "grad_norm": 0.04534817487001419,
+      "learning_rate": 1.1506233551212186e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 195600,
+      "step": 1285
+    },
+    {
+      "epoch": 7.166666666666667,
+      "grad_norm": 0.006147115025669336,
+      "learning_rate": 1.1302806946762004e-05,
+      "loss": 0.0,
+      "num_input_tokens_seen": 196352,
+      "step": 1290
+    },
+    {
+      "epoch": 7.194444444444445,
+      "grad_norm": 0.0012354146456345916,
+      "learning_rate": 1.1100668111113166e-05,
+      "loss": 0.0,
+      "num_input_tokens_seen": 197104,
+      "step": 1295
+    },
+    {
+      "epoch": 7.222222222222222,
+      "grad_norm": 0.07404682040214539,
+      "learning_rate": 1.0899836048749645e-05,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 197856,
+      "step": 1300
+    },
+    {
+      "epoch": 7.25,
+      "grad_norm": 0.0017910490278154612,
+      "learning_rate": 1.0700329641296541e-05,
+      "loss": 0.0,
+      "num_input_tokens_seen": 198592,
+      "step": 1305
+    },
+    {
+      "epoch": 7.277777777777778,
+      "grad_norm": 5.348869800567627,
+      "learning_rate": 1.0502167645744895e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 199360,
+      "step": 1310
+    },
+    {
+      "epoch": 7.305555555555555,
+      "grad_norm": 0.0018137628212571144,
+      "learning_rate": 1.0305368692688174e-05,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 200128,
+      "step": 1315
+    },
+    {
+      "epoch": 7.333333333333333,
+      "grad_norm": 0.0015285219997167587,
+      "learning_rate": 1.01099512845707e-05,
+      "loss": 0.0,
+      "num_input_tokens_seen": 200912,
+      "step": 1320
+    },
+    {
+      "epoch": 7.361111111111111,
+      "grad_norm": 0.002978443168103695,
+      "learning_rate": 9.91593379394811e-06,
+      "loss": 0.0,
+      "num_input_tokens_seen": 201664,
+      "step": 1325
+    },
+    {
+      "epoch": 7.388888888888889,
+      "grad_norm": 0.001245899242348969,
+      "learning_rate": 9.723334461760006e-06,
+      "loss": 0.0,
+      "num_input_tokens_seen": 202416,
+      "step": 1330
+    },
+    {
+      "epoch": 7.416666666666667,
+      "grad_norm": 0.0016263187862932682,
+      "learning_rate": 9.532171395615036e-06,
+      "loss": 0.0,
+      "num_input_tokens_seen": 203184,
+      "step": 1335
+    },
+    {
+      "epoch": 7.444444444444445,
+      "grad_norm": 0.0017977867973968387,
+      "learning_rate": 9.342462568088416e-06,
+      "loss": 0.0,
+      "num_input_tokens_seen": 203968,
+      "step": 1340
+    },
+    {
+      "epoch": 7.472222222222222,
+      "grad_norm": 0.0018679365748539567,
+      "learning_rate": 9.154225815032242e-06,
+      "loss": 0.0,
+      "num_input_tokens_seen": 204736,
+      "step": 1345
+    },
+    {
+      "epoch": 7.5,
+      "grad_norm": 0.0016537755727767944,
+      "learning_rate": 8.967478833898612e-06,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 205504,
+      "step": 1350
+    },
+    {
+      "epoch": 7.5,
+      "eval_loss": 0.20054903626441956,
+      "eval_runtime": 1.0173,
+      "eval_samples_per_second": 39.32,
+      "eval_steps_per_second": 19.66,
+      "num_input_tokens_seen": 205504,
+      "step": 1350
+    },
+    {
+      "epoch": 7.527777777777778,
+      "grad_norm": 0.07628758251667023,
+      "learning_rate": 8.78223918207575e-06,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 206288,
+      "step": 1355
+    },
+    {
+      "epoch": 7.555555555555555,
+      "grad_norm": 0.001097225584089756,
+      "learning_rate": 8.598524275237322e-06,
+      "loss": 0.1587,
+      "num_input_tokens_seen": 207008,
+      "step": 1360
+    },
+    {
+      "epoch": 7.583333333333333,
+      "grad_norm": 0.0016023390926420689,
+      "learning_rate": 8.41635138570507e-06,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 207776,
+      "step": 1365
+    },
+    {
+      "epoch": 7.611111111111111,
+      "grad_norm": 0.0016416008584201336,
+      "learning_rate": 8.235737640824908e-06,
+      "loss": 0.0,
+      "num_input_tokens_seen": 208528,
+      "step": 1370
+    },
+    {
+      "epoch": 7.638888888888889,
+      "grad_norm": 0.0014643091708421707,
+      "learning_rate": 8.056700021356694e-06,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 209280,
+      "step": 1375
+    },
+    {
+      "epoch": 7.666666666666667,
+      "grad_norm": 0.0008804944809526205,
+      "learning_rate": 7.879255359877705e-06,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 210080,
+      "step": 1380
+    },
+    {
+      "epoch": 7.694444444444445,
+      "grad_norm": 0.002069121925160289,
+      "learning_rate": 7.703420339200101e-06,
+      "loss": 0.0,
+      "num_input_tokens_seen": 210832,
+      "step": 1385
+    },
+    {
+      "epoch": 7.722222222222222,
+      "grad_norm": 0.0012066976632922888,
+      "learning_rate": 7.529211490802498e-06,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 211568,
+      "step": 1390
+    },
+    {
+      "epoch": 7.75,
+      "grad_norm": 0.015535800717771053,
+      "learning_rate": 7.3566451932756744e-06,
+      "loss": 0.0,
+      "num_input_tokens_seen": 212320,
+      "step": 1395
+    },
+    {
+      "epoch": 7.777777777777778,
+      "grad_norm": 0.001121603767387569,
+      "learning_rate": 7.185737670782727e-06,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 213088,
+      "step": 1400
+    },
+    {
+      "epoch": 7.805555555555555,
+      "grad_norm": 0.009458635933697224,
+      "learning_rate": 7.016504991533726e-06,
+      "loss": 0.0,
+      "num_input_tokens_seen": 213808,
+      "step": 1405
+    },
+    {
+      "epoch": 7.833333333333333,
+      "grad_norm": 0.07546650618314743,
+      "learning_rate": 6.848963066275027e-06,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 214544,
+      "step": 1410
+    },
+    {
+      "epoch": 7.861111111111111,
+      "grad_norm": 0.0016303466400131583,
+      "learning_rate": 6.683127646793411e-06,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 215328,
+      "step": 1415
+    },
+    {
+      "epoch": 7.888888888888889,
+      "grad_norm": 0.0015782971167936921,
+      "learning_rate": 6.519014324435102e-06,
+      "loss": 0.0,
+      "num_input_tokens_seen": 216080,
+      "step": 1420
+    },
+    {
+      "epoch": 7.916666666666667,
+      "grad_norm": 0.0021568036172538996,
+      "learning_rate": 6.356638528639955e-06,
+      "loss": 0.0,
+      "num_input_tokens_seen": 216848,
+      "step": 1425
+    },
+    {
+      "epoch": 7.944444444444445,
+      "grad_norm": 0.03259359672665596,
+      "learning_rate": 6.196015525490825e-06,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 217632,
+      "step": 1430
+    },
+    {
+      "epoch": 7.972222222222222,
+      "grad_norm": 0.04973651096224785,
+      "learning_rate": 6.037160416278278e-06,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 218400,
+      "step": 1435
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 0.0013207773445174098,
+      "learning_rate": 5.880088136080814e-06,
+      "loss": 0.0,
+      "num_input_tokens_seen": 219200,
+      "step": 1440
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 0.20432357490062714,
+      "eval_runtime": 0.8946,
+      "eval_samples_per_second": 44.712,
+      "eval_steps_per_second": 22.356,
+      "num_input_tokens_seen": 219200,
+      "step": 1440
+    },
+    {
+      "epoch": 8.027777777777779,
+      "grad_norm": 0.004510511644184589,
+      "learning_rate": 5.724813452360736e-06,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 219984,
+      "step": 1445
+    },
+    {
+      "epoch": 8.055555555555555,
+      "grad_norm": 0.052503470331430435,
+      "learning_rate": 5.571350963575728e-06,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 220784,
+      "step": 1450
+    },
+    {
+      "epoch": 8.083333333333334,
+      "grad_norm": 0.0020534901414066553,
+      "learning_rate": 5.4197150978063965e-06,
+      "loss": 0.0,
+      "num_input_tokens_seen": 221536,
+      "step": 1455
+    },
+    {
+      "epoch": 8.11111111111111,
+      "grad_norm": 0.0017636361299082637,
+      "learning_rate": 5.269920111399732e-06,
+      "loss": 0.0,
+      "num_input_tokens_seen": 222256,
+      "step": 1460
+    },
+    {
+      "epoch": 8.13888888888889,
+      "grad_norm": 0.0010547855636104941,
+      "learning_rate": 5.121980087628803e-06,
+      "loss": 0.0,
+      "num_input_tokens_seen": 223024,
+      "step": 1465
+    },
+    {
+      "epoch": 8.166666666666666,
+      "grad_norm": 0.008152388036251068,
+      "learning_rate": 4.975908935368701e-06,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 223760,
+      "step": 1470
+    },
+    {
+      "epoch": 8.194444444444445,
+      "grad_norm": 0.8113831281661987,
+      "learning_rate": 4.831720387788827e-06,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 224528,
+      "step": 1475
+    },
+    {
+      "epoch": 8.222222222222221,
+      "grad_norm": 0.002010009717196226,
+      "learning_rate": 4.689428001061774e-06,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 225296,
+      "step": 1480
+    },
+    {
+      "epoch": 8.25,
+      "grad_norm": 0.22730909287929535,
+      "learning_rate": 4.549045153088813e-06,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 226032,
+      "step": 1485
+    },
+    {
+      "epoch": 8.277777777777779,
+      "grad_norm": 0.0012671926524490118,
+      "learning_rate": 4.410585042242124e-06,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 226768,
+      "step": 1490
+    },
+    {
+      "epoch": 8.305555555555555,
+      "grad_norm": 0.0022841296158730984,
+      "learning_rate": 4.274060686123959e-06,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 227552,
+      "step": 1495
+    },
+    {
+      "epoch": 8.333333333333334,
+      "grad_norm": 0.0012009363854303956,
+      "learning_rate": 4.1394849203427284e-06,
+      "loss": 0.0,
+      "num_input_tokens_seen": 228336,
+      "step": 1500
+    },
+    {
+      "epoch": 8.36111111111111,
+      "grad_norm": 0.021565040573477745,
+      "learning_rate": 4.006870397306256e-06,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 229088,
+      "step": 1505
+    },
+    {
+      "epoch": 8.38888888888889,
+      "grad_norm": 0.0008409732836298645,
+      "learning_rate": 3.876229585032245e-06,
+      "loss": 0.0,
+      "num_input_tokens_seen": 229840,
+      "step": 1510
+    },
+    {
+      "epoch": 8.416666666666666,
+      "grad_norm": 0.0019264855654910207,
+      "learning_rate": 3.7475747659760502e-06,
+      "loss": 0.0,
+      "num_input_tokens_seen": 230608,
+      "step": 1515
+    },
+    {
+      "epoch": 8.444444444444445,
+      "grad_norm": 0.0012031939113512635,
+      "learning_rate": 3.6209180358759394e-06,
+      "loss": 0.0,
+      "num_input_tokens_seen": 231360,
+      "step": 1520
+    },
+    {
+      "epoch": 8.472222222222221,
+      "grad_norm": 0.0017787732649594545,
+      "learning_rate": 3.4962713026158694e-06,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 232160,
+      "step": 1525
+    },
+    {
+      "epoch": 8.5,
+      "grad_norm": 0.02529619075357914,
+      "learning_rate": 3.373646285105958e-06,
+      "loss": 0.0,
+      "num_input_tokens_seen": 232896,
+      "step": 1530
+    },
+    {
+      "epoch": 8.5,
+      "eval_loss": 0.1972600668668747,
+      "eval_runtime": 0.8977,
+      "eval_samples_per_second": 44.558,
+      "eval_steps_per_second": 22.279,
+      "num_input_tokens_seen": 232896,
+      "step": 1530
+    },
+    {
+      "epoch": 8.527777777777779,
+      "grad_norm": 0.0014007817953824997,
+      "learning_rate": 3.2530545121807145e-06,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 233680,
+      "step": 1535
+    },
+    {
+      "epoch": 8.555555555555555,
+      "grad_norm": 0.014800156466662884,
+      "learning_rate": 3.1345073215151066e-06,
+      "loss": 0.0,
+      "num_input_tokens_seen": 234464,
+      "step": 1540
+    },
+    {
+      "epoch": 8.583333333333334,
+      "grad_norm": 0.0012088757939636707,
+      "learning_rate": 3.0180158585586397e-06,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 235184,
+      "step": 1545
+    },
+    {
+      "epoch": 8.61111111111111,
+      "grad_norm": 0.0011525284498929977,
+      "learning_rate": 2.9035910754875136e-06,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 235984,
+      "step": 1550
+    },
+    {
+      "epoch": 8.63888888888889,
+      "grad_norm": 0.06784788519144058,
+      "learning_rate": 2.7912437301749026e-06,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 236720,
+      "step": 1555
+    },
+    {
+      "epoch": 8.666666666666666,
+      "grad_norm": 0.024774013087153435,
+      "learning_rate": 2.6809843851795357e-06,
+      "loss": 0.0,
+      "num_input_tokens_seen": 237456,
+      "step": 1560
+    },
+    {
+      "epoch": 8.694444444444445,
+      "grad_norm": 0.0015475035179406404,
+      "learning_rate": 2.57282340675267e-06,
+      "loss": 0.0,
+      "num_input_tokens_seen": 238240,
+      "step": 1565
+    },
+    {
+      "epoch": 8.722222222222221,
+      "grad_norm": 0.0015052126254886389,
+      "learning_rate": 2.4667709638634434e-06,
+      "loss": 0.134,
+      "num_input_tokens_seen": 238992,
+      "step": 1570
+    },
+    {
+      "epoch": 8.75,
+      "grad_norm": 0.002601168816909194,
+      "learning_rate": 2.3628370272428564e-06,
+      "loss": 0.0,
+      "num_input_tokens_seen": 239776,
+      "step": 1575
+    },
+    {
+      "epoch": 8.777777777777779,
+      "grad_norm": 0.0026071418542414904,
+      "learning_rate": 2.2610313684463177e-06,
+      "loss": 0.0,
+      "num_input_tokens_seen": 240528,
+      "step": 1580
+    },
+    {
+      "epoch": 8.805555555555555,
+      "grad_norm": 0.0014425113331526518,
+      "learning_rate": 2.1613635589349756e-06,
+      "loss": 0.0,
+      "num_input_tokens_seen": 241280,
+      "step": 1585
+    },
+    {
+      "epoch": 8.833333333333334,
+      "grad_norm": 0.0016695759259164333,
+      "learning_rate": 2.063842969175847e-06,
+      "loss": 0.0,
+      "num_input_tokens_seen": 242048,
+      "step": 1590
+    },
+    {
+      "epoch": 8.86111111111111,
+      "grad_norm": 0.009643935598433018,
+      "learning_rate": 1.968478767760812e-06,
+      "loss": 0.0,
+      "num_input_tokens_seen": 242816,
+      "step": 1595
+    },
+    {
+      "epoch": 8.88888888888889,
+      "grad_norm": 0.001525353523902595,
+      "learning_rate": 1.8752799205445982e-06,
+      "loss": 0.0,
+      "num_input_tokens_seen": 243584,
+      "step": 1600
+    },
+    {
+      "epoch": 8.916666666666666,
+      "grad_norm": 0.002979699755087495,
+      "learning_rate": 1.784255189801895e-06,
+      "loss": 0.0,
+      "num_input_tokens_seen": 244336,
+      "step": 1605
+    },
+    {
+      "epoch": 8.944444444444445,
+      "grad_norm": 0.008621761575341225,
+      "learning_rate": 1.6954131334034922e-06,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 245072,
+      "step": 1610
+    },
+    {
+      "epoch": 8.972222222222221,
+      "grad_norm": 0.0019121435470879078,
+      "learning_rate": 1.6087621040117157e-06,
+      "loss": 0.0,
+      "num_input_tokens_seen": 245824,
+      "step": 1615
+    },
+    {
+      "epoch": 9.0,
+      "grad_norm": 0.039212632924318314,
+      "learning_rate": 1.524310248295152e-06,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 246592,
+      "step": 1620
+    },
+    {
+      "epoch": 9.0,
+      "eval_loss": 0.20404863357543945,
+      "eval_runtime": 0.9073,
+      "eval_samples_per_second": 44.087,
+      "eval_steps_per_second": 22.044,
+      "num_input_tokens_seen": 246592,
+      "step": 1620
+    },
+    {
+      "epoch": 9.027777777777779,
+      "grad_norm": 0.0018777285004034638,
+      "learning_rate": 1.4420655061626932e-06,
+      "loss": 0.0,
+      "num_input_tokens_seen": 247360,
+      "step": 1625
+    },
+    {
+      "epoch": 9.055555555555555,
+      "grad_norm": 0.02277091145515442,
+      "learning_rate": 1.362035610017079e-06,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 248160,
+      "step": 1630
+    },
+    {
+      "epoch": 9.083333333333334,
+      "grad_norm": 0.0013543771347030997,
+      "learning_rate": 1.2842280840278997e-06,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 248912,
+      "step": 1635
+    },
+    {
+      "epoch": 9.11111111111111,
+      "grad_norm": 0.001997560728341341,
+      "learning_rate": 1.2086502434241865e-06,
+      "loss": 0.0,
+      "num_input_tokens_seen": 249680,
+      "step": 1640
+    },
+    {
+      "epoch": 9.13888888888889,
+      "grad_norm": 0.00147831451613456,
+      "learning_rate": 1.1353091938067023e-06,
+      "loss": 0.0,
+      "num_input_tokens_seen": 250400,
+      "step": 1645
+    },
+    {
+      "epoch": 9.166666666666666,
+      "grad_norm": 0.03436870872974396,
+      "learning_rate": 1.0642118304798442e-06,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 251136,
+      "step": 1650
+    },
+    {
+      "epoch": 9.194444444444445,
+      "grad_norm": 0.0011072098277509212,
+      "learning_rate": 9.95364837803392e-07,
+      "loss": 0.0,
+      "num_input_tokens_seen": 251920,
+      "step": 1655
+    },
+    {
+      "epoch": 9.222222222222221,
+      "grad_norm": 0.012758857570588589,
+      "learning_rate": 9.287746885640603e-07,
+      "loss": 0.0,
+      "num_input_tokens_seen": 252656,
+      "step": 1660
+    },
+    {
+      "epoch": 9.25,
+      "grad_norm": 0.0020957046654075384,
+      "learning_rate": 8.64447643366953e-07,
+      "loss": 0.0,
+      "num_input_tokens_seen": 253456,
+      "step": 1665
+    },
+    {
+      "epoch": 9.277777777777779,
+      "grad_norm": 0.0014656794955953956,
+      "learning_rate": 8.023897500469391e-07,
+      "loss": 0.0,
+      "num_input_tokens_seen": 254208,
+      "step": 1670
+    },
+    {
+      "epoch": 9.305555555555555,
+      "grad_norm": 0.0010977443307638168,
+      "learning_rate": 7.426068431000882e-07,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 254976,
+      "step": 1675
+    },
+    {
+      "epoch": 9.333333333333334,
+      "grad_norm": 0.0014999699778854847,
+      "learning_rate": 6.851045431350927e-07,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 255728,
+      "step": 1680
+    },
+    {
+      "epoch": 9.36111111111111,
+      "grad_norm": 0.00202179211191833,
+      "learning_rate": 6.298882563448599e-07,
+      "loss": 0.1258,
+      "num_input_tokens_seen": 256464,
+      "step": 1685
+    },
+    {
+      "epoch": 9.38888888888889,
+      "grad_norm": 0.003387672360986471,
+      "learning_rate": 5.769631739982267e-07,
+      "loss": 0.0,
+      "num_input_tokens_seen": 257216,
+      "step": 1690
+    },
+    {
+      "epoch": 9.416666666666666,
+      "grad_norm": 0.0013138880021870136,
+      "learning_rate": 5.263342719518921e-07,
+      "loss": 0.0,
+      "num_input_tokens_seen": 258000,
+      "step": 1695
+    },
+    {
+      "epoch": 9.444444444444445,
+      "grad_norm": 0.004265029914677143,
+      "learning_rate": 4.780063101826132e-07,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 258768,
+      "step": 1700
+    },
+    {
+      "epoch": 9.472222222222221,
+      "grad_norm": 0.0014389421558007598,
+      "learning_rate": 4.319838323396691e-07,
+      "loss": 0.0,
+      "num_input_tokens_seen": 259536,
+      "step": 1705
+    },
+    {
+      "epoch": 9.5,
+      "grad_norm": 0.0019381530582904816,
+      "learning_rate": 3.88271165317694e-07,
+      "loss": 0.0,
+      "num_input_tokens_seen": 260320,
+      "step": 1710
+    },
+    {
+      "epoch": 9.5,
+      "eval_loss": 0.1979570835828781,
+      "eval_runtime": 0.8827,
+      "eval_samples_per_second": 45.316,
+      "eval_steps_per_second": 22.658,
+      "num_input_tokens_seen": 260320,
+      "step": 1710
+    },
+    {
+      "epoch": 9.527777777777779,
+      "grad_norm": 0.001763106556609273,
+      "learning_rate": 3.468724188498751e-07,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 261056,
+      "step": 1715
+    },
+    {
+      "epoch": 9.555555555555555,
+      "grad_norm": 0.0015600565820932388,
+      "learning_rate": 3.077914851215585e-07,
+      "loss": 0.0,
+      "num_input_tokens_seen": 261808,
+      "step": 1720
+    },
+    {
+      "epoch": 9.583333333333334,
+      "grad_norm": 0.02792200818657875,
+      "learning_rate": 2.71032038404323e-07,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 262576,
+      "step": 1725
+    },
+    {
+      "epoch": 9.61111111111111,
+      "grad_norm": 0.0016239579999819398,
+      "learning_rate": 2.365975347105448e-07,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 263312,
+      "step": 1730
+    },
+    {
+      "epoch": 9.63888888888889,
+      "grad_norm": 0.052164334803819656,
+      "learning_rate": 2.0449121146845774e-07,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 264064,
+      "step": 1735
+    },
+    {
+      "epoch": 9.666666666666666,
+      "grad_norm": 0.0016509494744241238,
+      "learning_rate": 1.747160872177883e-07,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 264816,
+      "step": 1740
+    },
+    {
+      "epoch": 9.694444444444445,
+      "grad_norm": 0.06074906513094902,
+      "learning_rate": 1.472749613259661e-07,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 265584,
+      "step": 1745
+    },
+    {
+      "epoch": 9.722222222222221,
+      "grad_norm": 0.002588711678981781,
+      "learning_rate": 1.22170413724923e-07,
+      "loss": 0.0,
+      "num_input_tokens_seen": 266320,
+      "step": 1750
+    },
+    {
+      "epoch": 9.75,
+      "grad_norm": 0.019099904224276543,
+      "learning_rate": 9.940480466855417e-08,
+      "loss": 0.0,
+      "num_input_tokens_seen": 267072,
+      "step": 1755
+    },
+    {
+      "epoch": 9.777777777777779,
+      "grad_norm": 0.0015253141755238175,
+      "learning_rate": 7.898027451078982e-08,
+      "loss": 0.0,
+      "num_input_tokens_seen": 267840,
+      "step": 1760
+    },
+    {
+      "epoch": 9.805555555555555,
+      "grad_norm": 0.0014633400132879615,
+      "learning_rate": 6.089874350439506e-08,
+      "loss": 0.0,
+      "num_input_tokens_seen": 268592,
+      "step": 1765
+    },
+    {
+      "epoch": 9.833333333333334,
+      "grad_norm": 0.0010498091578483582,
+      "learning_rate": 4.516191162040051e-08,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 269344,
+      "step": 1770
+    },
+    {
+      "epoch": 9.86111111111111,
+      "grad_norm": 0.003073125844821334,
+      "learning_rate": 3.177125838830786e-08,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 270112,
+      "step": 1775
+    },
+    {
+      "epoch": 9.88888888888889,
+      "grad_norm": 0.032370708882808685,
+      "learning_rate": 2.0728042756967824e-08,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 270880,
+      "step": 1780
+    },
+    {
+      "epoch": 9.916666666666666,
+      "grad_norm": 0.26500117778778076,
+      "learning_rate": 1.2033302976222071e-08,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 271664,
+      "step": 1785
+    },
+    {
+      "epoch": 9.944444444444445,
+      "grad_norm": 0.008083530701696873,
+      "learning_rate": 5.687856499297928e-09,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 272384,
+      "step": 1790
+    },
+    {
+      "epoch": 9.972222222222221,
+      "grad_norm": 0.0012048567878082395,
+      "learning_rate": 1.692299905944883e-09,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 273168,
+      "step": 1795
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 0.0026044242549687624,
+      "learning_rate": 4.700884634611935e-11,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 273936,
+      "step": 1800
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 0.19950854778289795,
+      "eval_runtime": 0.8838,
+      "eval_samples_per_second": 45.26,
+      "eval_steps_per_second": 22.63,
+      "num_input_tokens_seen": 273936,
+      "step": 1800
+    },
+    {
+      "epoch": 10.0,
+      "num_input_tokens_seen": 273936,
+      "step": 1800,
+      "total_flos": 1.3438495585861632e+16,
+      "train_loss": 0.044879560974069234,
+      "train_runtime": 814.6797,
+      "train_samples_per_second": 4.419,
+      "train_steps_per_second": 2.209
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 1800,
+  "num_input_tokens_seen": 273936,
+  "num_train_epochs": 10,
+  "save_steps": 90,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.3438495585861632e+16,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

training_eval_loss.png ADDED Viewed

training_loss.png ADDED Viewed