evaleval · damian1996 · Feb 12, 2026 · Feb 11, 2026 · Feb 11, 2026
diff --git a/...18881f8b-b06e-4317-b697-6eadb975077c.json → ...8948bfb0-cc9d-40f7-a02d-d5c9611436d8.json b/...18881f8b-b06e-4317-b697-6eadb975077c.json → ...8948bfb0-cc9d-40f7-a02d-d5c9611436d8.json
@@ -1,10 +1,7 @@
 {
-  "schema_version": "0.1.0",
-  "evaluation_id": "helm_capabilities/allenai_olmo-2-0325-32b-instruct/1767657480.2939079",
-  "retrieved_timestamp": "1767657480.2939079",
-  "source_data": [
-    "https://storage.googleapis.com/crfm-helm-public/capabilities/benchmark_output/releases/v1.12.0/groups/core_scenarios.json"
-  ],
+  "schema_version": "0.2.0",
+  "evaluation_id": "helm_capabilities/allenai_olmo-2-0325-32b-instruct/1770835969.095764",
+  "retrieved_timestamp": "1770835969.095764",
   "source_metadata": {
     "source_name": "helm_capabilities",
     "source_type": "documentation",
@@ -20,6 +17,13 @@
   "evaluation_results": [
     {
       "evaluation_name": "Mean score",
+      "source_data": {
+        "dataset_name": "helm_capabilities",
+        "source_type": "url",
+        "url": [
+          "https://storage.googleapis.com/crfm-helm-public/capabilities/benchmark_output/releases/v1.15.0/groups/core_scenarios.json"
+        ]
+      },
       "metric_config": {
         "evaluation_description": "The mean of the scores from all columns.",
         "lower_is_better": false,
@@ -30,7 +34,6 @@
       "score_details": {
         "score": 0.475,
         "details": {
-          "description": null,
           "tab": "Accuracy",
           "Mean score - Efficiency": {
             "description": null,
@@ -39,12 +42,21 @@
           }
         }
       },
-      "generation_config": {}
+      "generation_config": {
+        "additional_details": {}
+      }
     },
     {
-      "evaluation_name": "MMLU-Pro - COT correct",
+      "evaluation_name": "MMLU-Pro",
+      "source_data": {
+        "dataset_name": "MMLU-Pro",
+        "source_type": "url",
+        "url": [
+          "https://storage.googleapis.com/crfm-helm-public/capabilities/benchmark_output/releases/v1.15.0/groups/core_scenarios.json"
+        ]
+      },
       "metric_config": {
-        "evaluation_description": "MMLU-Pro\n\nCOT correct: Fraction of correct answers after chain of thought",
+        "evaluation_description": "COT correct on MMLU-Pro",
         "lower_is_better": false,
         "score_type": "continuous",
         "min_score": 0.0,
@@ -88,16 +100,25 @@
         }
       },
       "generation_config": {
-        "subset": "all",
-        "use_chain_of_thought": "true",
-        "use_few_shot": "false",
-        "num_output_tokens": "2048"
+        "additional_details": {
+          "subset": "all",
+          "use_chain_of_thought": "true",
+          "use_few_shot": "false",
+          "num_output_tokens": "2048"
+        }
       }
     },
     {
-      "evaluation_name": "GPQA - COT correct",
+      "evaluation_name": "GPQA",
+      "source_data": {
+        "dataset_name": "GPQA",
+        "source_type": "url",
+        "url": [
+          "https://storage.googleapis.com/crfm-helm-public/capabilities/benchmark_output/releases/v1.15.0/groups/core_scenarios.json"
+        ]
+      },
       "metric_config": {
-        "evaluation_description": "GPQA\n\nCOT correct: Fraction of correct answers after chain of thought",
+        "evaluation_description": "COT correct on GPQA",
         "lower_is_better": false,
         "score_type": "continuous",
         "min_score": 0.0,
@@ -141,16 +162,25 @@
         }
       },
       "generation_config": {
-        "subset": "gpqa_main",
-        "use_chain_of_thought": "true",
-        "use_few_shot": "false",
-        "num_output_tokens": "2048"
+        "additional_details": {
+          "subset": "gpqa_main",
+          "use_chain_of_thought": "true",
+          "use_few_shot": "false",
+          "num_output_tokens": "2048"
+        }
       }
     },
     {
-      "evaluation_name": "IFEval - IFEval Strict Acc",
+      "evaluation_name": "IFEval",
+      "source_data": {
+        "dataset_name": "IFEval",
+        "source_type": "url",
+        "url": [
+          "https://storage.googleapis.com/crfm-helm-public/capabilities/benchmark_output/releases/v1.15.0/groups/core_scenarios.json"
+        ]
+      },
       "metric_config": {
-        "evaluation_description": "IFEval\n\nIFEval strict accuracy: Fraction of instructions in the instance that are correctly followed.",
+        "evaluation_description": "IFEval Strict Acc on IFEval",
         "lower_is_better": false,
         "score_type": "continuous",
         "min_score": 0.0,
@@ -194,13 +224,22 @@
         }
       },
       "generation_config": {
-        "num_output_tokens": "2048"
+        "additional_details": {
+          "num_output_tokens": "2048"
+        }
       }
     },
     {
-      "evaluation_name": "WildBench - WB Score",
+      "evaluation_name": "WildBench",
+      "source_data": {
+        "dataset_name": "WildBench",
+        "source_type": "url",
+        "url": [
+          "https://storage.googleapis.com/crfm-helm-public/capabilities/benchmark_output/releases/v1.15.0/groups/core_scenarios.json"
+        ]
+      },
       "metric_config": {
-        "evaluation_description": "WildBench\n\nWildBench Score: Score of the AI output judged by GPT-4o, rescaled to be between 0 and 1.",
+        "evaluation_description": "WB Score on WildBench",
         "lower_is_better": false,
         "score_type": "continuous",
         "min_score": 0.0,
@@ -244,14 +283,23 @@
         }
       },
       "generation_config": {
-        "subset": "v2",
-        "num_output_tokens": "2048"
+        "additional_details": {
+          "subset": "v2",
+          "num_output_tokens": "2048"
+        }
       }
     },
     {
-      "evaluation_name": "Omni-MATH - Acc",
+      "evaluation_name": "Omni-MATH",
+      "source_data": {
+        "dataset_name": "Omni-MATH",
+        "source_type": "url",
+        "url": [
+          "https://storage.googleapis.com/crfm-helm-public/capabilities/benchmark_output/releases/v1.15.0/groups/core_scenarios.json"
+        ]
+      },
       "metric_config": {
-        "evaluation_description": "Omni-MATH\n\nOmni-MATH Accuracy: Accuracy of the AI output judged by GPT-4.",
+        "evaluation_description": "Acc on Omni-MATH",
         "lower_is_better": false,
         "score_type": "continuous",
         "min_score": 0.0,
@@ -295,7 +343,9 @@
         }
       },
       "generation_config": {
-        "num_output_tokens": "2048"
+        "additional_details": {
+          "num_output_tokens": "2048"
+        }
       }
     }
   ]

diff --git a/...97db1a8d-b7d8-4481-82fb-dc0c6396edac.json → ...7d2d1dba-1b31-47b2-8308-f2668cf36c99.json b/...97db1a8d-b7d8-4481-82fb-dc0c6396edac.json → ...7d2d1dba-1b31-47b2-8308-f2668cf36c99.json
@@ -1,10 +1,7 @@
 {
-  "schema_version": "0.1.0",
-  "evaluation_id": "helm_capabilities/allenai_olmo-2-1124-13b-instruct/1767657480.2939079",
-  "retrieved_timestamp": "1767657480.2939079",
-  "source_data": [
-    "https://storage.googleapis.com/crfm-helm-public/capabilities/benchmark_output/releases/v1.12.0/groups/core_scenarios.json"
-  ],
+  "schema_version": "0.2.0",
+  "evaluation_id": "helm_capabilities/allenai_olmo-2-1124-13b-instruct/1770835969.095764",
+  "retrieved_timestamp": "1770835969.095764",
   "source_metadata": {
     "source_name": "helm_capabilities",
     "source_type": "documentation",
@@ -20,6 +17,13 @@
   "evaluation_results": [
     {
       "evaluation_name": "Mean score",
+      "source_data": {
+        "dataset_name": "helm_capabilities",
+        "source_type": "url",
+        "url": [
+          "https://storage.googleapis.com/crfm-helm-public/capabilities/benchmark_output/releases/v1.15.0/groups/core_scenarios.json"
+        ]
+      },
       "metric_config": {
         "evaluation_description": "The mean of the scores from all columns.",
         "lower_is_better": false,
@@ -30,7 +34,6 @@
       "score_details": {
         "score": 0.44,
         "details": {
-          "description": null,
           "tab": "Accuracy",
           "Mean score - Efficiency": {
             "description": null,
@@ -39,12 +42,21 @@
           }
         }
       },
-      "generation_config": {}
+      "generation_config": {
+        "additional_details": {}
+      }
     },
     {
-      "evaluation_name": "MMLU-Pro - COT correct",
+      "evaluation_name": "MMLU-Pro",
+      "source_data": {
+        "dataset_name": "MMLU-Pro",
+        "source_type": "url",
+        "url": [
+          "https://storage.googleapis.com/crfm-helm-public/capabilities/benchmark_output/releases/v1.15.0/groups/core_scenarios.json"
+        ]
+      },
       "metric_config": {
-        "evaluation_description": "MMLU-Pro\n\nCOT correct: Fraction of correct answers after chain of thought",
+        "evaluation_description": "COT correct on MMLU-Pro",
         "lower_is_better": false,
         "score_type": "continuous",
         "min_score": 0.0,
@@ -88,16 +100,25 @@
         }
       },
       "generation_config": {
-        "subset": "all",
-        "use_chain_of_thought": "true",
-        "use_few_shot": "false",
-        "num_output_tokens": "2048"
+        "additional_details": {
+          "subset": "all",
+          "use_chain_of_thought": "true",
+          "use_few_shot": "false",
+          "num_output_tokens": "2048"
+        }
       }
     },
     {
-      "evaluation_name": "GPQA - COT correct",
+      "evaluation_name": "GPQA",
+      "source_data": {
+        "dataset_name": "GPQA",
+        "source_type": "url",
+        "url": [
+          "https://storage.googleapis.com/crfm-helm-public/capabilities/benchmark_output/releases/v1.15.0/groups/core_scenarios.json"
+        ]
+      },
       "metric_config": {
-        "evaluation_description": "GPQA\n\nCOT correct: Fraction of correct answers after chain of thought",
+        "evaluation_description": "COT correct on GPQA",
         "lower_is_better": false,
         "score_type": "continuous",
         "min_score": 0.0,
@@ -141,16 +162,25 @@
         }
       },
       "generation_config": {
-        "subset": "gpqa_main",
-        "use_chain_of_thought": "true",
-        "use_few_shot": "false",
-        "num_output_tokens": "2048"
+        "additional_details": {
+          "subset": "gpqa_main",
+          "use_chain_of_thought": "true",
+          "use_few_shot": "false",
+          "num_output_tokens": "2048"
+        }
       }
     },
     {
-      "evaluation_name": "IFEval - IFEval Strict Acc",
+      "evaluation_name": "IFEval",
+      "source_data": {
+        "dataset_name": "IFEval",
+        "source_type": "url",
+        "url": [
+          "https://storage.googleapis.com/crfm-helm-public/capabilities/benchmark_output/releases/v1.15.0/groups/core_scenarios.json"
+        ]
+      },
       "metric_config": {
-        "evaluation_description": "IFEval\n\nIFEval strict accuracy: Fraction of instructions in the instance that are correctly followed.",
+        "evaluation_description": "IFEval Strict Acc on IFEval",
         "lower_is_better": false,
         "score_type": "continuous",
         "min_score": 0.0,
@@ -194,13 +224,22 @@
         }
       },
       "generation_config": {
-        "num_output_tokens": "2048"
+        "additional_details": {
+          "num_output_tokens": "2048"
+        }
       }
     },
     {
-      "evaluation_name": "WildBench - WB Score",
+      "evaluation_name": "WildBench",
+      "source_data": {
+        "dataset_name": "WildBench",
+        "source_type": "url",
+        "url": [
+          "https://storage.googleapis.com/crfm-helm-public/capabilities/benchmark_output/releases/v1.15.0/groups/core_scenarios.json"
+        ]
+      },
       "metric_config": {
-        "evaluation_description": "WildBench\n\nWildBench Score: Score of the AI output judged by GPT-4o, rescaled to be between 0 and 1.",
+        "evaluation_description": "WB Score on WildBench",
         "lower_is_better": false,
         "score_type": "continuous",
         "min_score": 0.0,
@@ -244,14 +283,23 @@
         }
       },
       "generation_config": {
-        "subset": "v2",
-        "num_output_tokens": "2048"
+        "additional_details": {
+          "subset": "v2",
+          "num_output_tokens": "2048"
+        }
       }
     },
     {
-      "evaluation_name": "Omni-MATH - Acc",
+      "evaluation_name": "Omni-MATH",
+      "source_data": {
+        "dataset_name": "Omni-MATH",
+        "source_type": "url",
+        "url": [
+          "https://storage.googleapis.com/crfm-helm-public/capabilities/benchmark_output/releases/v1.15.0/groups/core_scenarios.json"
+        ]
+      },
       "metric_config": {
-        "evaluation_description": "Omni-MATH\n\nOmni-MATH Accuracy: Accuracy of the AI output judged by GPT-4.",
+        "evaluation_description": "Acc on Omni-MATH",
         "lower_is_better": false,
         "score_type": "continuous",
         "min_score": 0.0,
@@ -295,7 +343,9 @@
         }
       },
       "generation_config": {
-        "num_output_tokens": "2048"
+        "additional_details": {
+          "num_output_tokens": "2048"
+        }
       }
     }
   ]