Les Benchmarks

Publié le 7 Apr. 2026

Tableau récapitulatif Gemma 4 26 A4B

Quantisation	GSM8K	IfEval	MMLU	Arc_Challenge
Unsloth -it-UD-IQ2_XXS	88/87	93/87	72,06	45/46
Unsloth -it-UD-Q3_K_S	88/87	92/88	-	46/46
Unsloth -it-UD-Q3_K_M	88/87	92/88	-	46/46
Unsloth -it-UD-Q3_K_XL	88/87	93/88	-	58/58
Unsloth -it-UD-IQ4_NL	88/87	93/87	65,65	44/44
Unsloth -it-UD-Q4_K_S	90/89	92/88	-	58/59
Unsloth -it-UD-Q4_K_M	90/89	93/88	-	61/61
Unsloth -it-UD-Q4_K_XL	90/89	92/87	-	61/60
Unsloth -it-UD-Q5_K_S	90/89	92/87	-	60/60
Unsloth -it-UD-Q5_K_M	90/89	93/89	-	62/62
Unsloth -it-UD-Q5_K_XL	90/89	93/88	-	59/60

Pour le ifeval, j’ai pris les deux valeurs extremes, meilleure et pire (inst_level_loose_acc pour meilleure, et prompt_level_struct acc pour pire)

Certains tests attendent un réponse de complétion pure, alors que les modèles de type “Instruct” vont fabriquer une réponse sous la forme d’une conversation. Le résultat de ces tests précis ne mesure rien dans le contexte des modèles que j’ai évalué, et pour l’objectif de l’évaluation. Qwen en IfEval a une mauvaise note à cause de ses balises thinking… (même en le désactivant).

Test	principe
GSM8k	Grade School Math
	raisonnement par étapes
ifeval	Suivi d’instruction du prompt
	Important pour agentique
mmlu	Connaissances générales
	Améliore hallucination et compréhension
arc challenge	Compréhension sémantique,
	robustesse aux distracteurs, confusions

Scripts de tests

Les tests ont été réalisé avec l’outil https://github.com/EleutherAI/lm-evaluation-harness

Pour automatiser les tests, une fois que le protocole était établi, je me suis aidé de deux petits scripts

script de bench

Ce scripts run.sh a comme objectif de charger le serveur llama.cpp avec le bon modèle, et de lancer les benchmarks avec les “bons” paramètres. On remarquera que j’ai également stocké les résultats en json avec l’option --output_path.

Contenu du script d'appel

#!/usr/bin/env bash

source ./lm-evaluation-harness/.venv/bin/activate

MODEL_TESTED="$1"

echo bench de $1

echo $MODEL_TESTED

arc_test() {

lm_eval --model gguf\
    --model_args "base_url=http://localhost:8050"\
    --tasks "arc_challenge"\
    --num_fewshot 8\
    --batch_size 1\
    --output_path "./$MODEL_TESTED"

}

ifeval_test() {

lm_eval --model local-completions\
      --model_args "base_url=http://localhost:8050/v1/completions,api_key=EMPTY,pretrained=google/gemma-4-26B-A4B-it,tokenizer=google/gemma-4-26B-A4B-it"\
      --tasks "ifeval"\
      --num_fewshot 0\
      --batch_size 1\
      --apply_chat_template \
      --output_path "./$MODEL_TESTED"

}

gsm8k_test() {
lm_eval --model local-completions\
     --model_args "base_url=http://localhost:8050/v1/completions,api_key=EMPTY,pretrained=google/gemma-4-26B-A4B,tokenizer=google/gemma-4-26b-a4b-it"\
     --tasks "gsm8k"\
     --num_fewshot 8\
     --batch_size 1\
     --apply_chat_template\
      --output_path "./$MODEL_TESTED"
}

arc_test >> $MODEL_TESTED-arc
ifeval_test >> $MODEL_TESTED-ifeval
gsm8k_test >> $MODEL_TESTED-gsm8k

script d’ordonnancement

Ce script a pour objectif d’appeler le script de bench avec le modele à évaluer en paramètre. Il est hautement dépendant des dossiers de stockage des modèles. Je mentionne ici les noms des fichiers qui contiennent les poids à tester.

Contenu du script d'ordonnancement

#!/usr/bin/env bash
for i in gemma-4-26B-A4B-it-UD-Q5_K_M.gguf  gemma-4-26B-A4B-it-UD-Q5_K_S.gguf  gemma-4-26B-A4B-it-UD-Q5_K_XL.gguf  gemma-4-26B-A4B-it-UD-Q6_K.gguf
do
        /home/yves/marvin/vllm/llamacpp/llama.cpp/llama-server \
        -m /data/models/unsloth/"$i" \
        -c 65536 \
        -fit off  \
        -fa on \
        --cache-type-k q4_0 \
        --cache-type-v q4_0 \
        -b 1024         -ub 1024 \
        --port 8050 \
        --host 0.0.0.0 \
        --temp 0.6 \
        --top-p 0.95 \
        --top-k 20 \
        --min-p 0.00 \
        --chat-template-kwargs '{"enable_thinking":true}' &
        sleep 10
        ./run.sh "$i"
        pkill llama-server
        sleep 5
done

GSM8K

Le benchmark GSM8K (Grade School Math 8K) est un dataset d’environ 8 500 problèmes de mathématiques de niveau primaire, spécifiquement conçu pour évaluer les capacités de reasoning des modèles de langage. Chaque exemple est un problème en langage naturel nécessitant plusieurs étapes de calcul (multi-step arithmetic), souvent avec des dépendances intermédiaires (variables implicites, proportions, conversions, etc.). L’objectif n’est pas de tester la mémorisation, mais la capacité du modèle à dérouler une chaîne de raisonnement cohérente jusqu’à une réponse finale.

En pratique, GSM8K mesure la capacité d’un modèle à produire une réponse numérique exacte à partir d’un énoncé textuel, ce qui en fait un proxy assez direct du compositional reasoning et de la fiabilité des chaînes de calcul internes. L’évaluation est généralement strict match : seule la réponse finale est comparée à la ground truth, sans tenir compte des étapes intermédiaires ou de la justification produite.

Le score est exprimé en pourcentage d’exactitude (accuracy) : un modèle à 80 % signifie que 80 % des problèmes sont résolus avec la bonne réponse finale. Important : ce score ne capture ni la qualité du raisonnement (un modèle peut “tomber juste” avec un raisonnement incorrect), ni la robustesse aux variations de prompt, ni la sensibilité aux erreurs numériques mineures. Il reste néanmoins un indicateur standard pour comparer la capacité de raisonnement arithmétique entre modèles.

Un point souvent sous-estimé est que GSM8K peut être non trivial à évaluer avec des modèles instruct ou chat. Ces modèles ont tendance à produire des réponses verbeuses, avec du raisonnement en langage naturel, des unités, ou des phrases autour du résultat final. Cela complique l’évaluation en exact match, qui attend généralement une valeur numérique strictement identique à la référence. En pratique, il faut souvent normaliser les sorties (regex, parsing, extraction de la dernière valeur, etc.) ou contraindre le format de réponse via le prompt. Sans cela, on peut sous-estimer artificiellement les performances du modèle, non pas à cause d’un mauvais raisonnement, mais à cause d’un mismatch de format.

Remarques préliminaires

Pour avoir des résultats cohérents, il a été nécessaire de donner le tokeniser et de préciser le “chat_template” pour que les réponses soient correctement intérprétables par lm evaluation harness .

Détail des résultats des tests GSM8k

gemma-4-26B-A4B-it-UD-IQ2_XXS.gguf-gsm8k

local-completions ({'base_url': 'http://localhost:8050/v1/completions', 'api_key': 'EMPTY', 'pretrained': 'google/gemma-4-26B-A4B', 'tokenizer': 'google/gemma-4-26b-a4b-it'}), gen_kwargs: ({}), limit: None, num_fewshot: 8, bat
ch_size: 1
|Tasks|Version|     Filter     |n-shot|  Metric   |   |Value |   |Stderr|
|-----|------:|----------------|-----:|-----------|---|-----:|---|-----:|
|gsm8k|      3|flexible-extract|     8|exact_match|↑  |0.8825|±  |0.0089|
|     |       |strict-match    |     8|exact_match|↑  |0.8764|±  |0.0091|

gemma-4-26B-A4B-it-UD-IQ4_NL.gguf-gsm8k

local-completions ({'base_url': 'http://localhost:8050/v1/completions', 'api_key': 'EMPTY', 'pretrained': 'google/gemma-4-26B-A4B', 'tokenizer': 'google/gemma-4-26b-a4b-it'}), gen_kwargs: ({}), limit: None, num_fewshot: 8, bat
ch_size: 1
|Tasks|Version|     Filter     |n-shot|  Metric   |   |Value |   |Stderr|
|-----|------:|----------------|-----:|-----------|---|-----:|---|-----:|
|gsm8k|      3|flexible-extract|     8|exact_match|↑  |0.8870|±  |0.0087|
|     |       |strict-match    |     8|exact_match|↑  |0.8734|±  |0.0092|

gemma-4-26B-A4B-it-UD-Q3_K_M.gguf-gsm8k

local-completions ({'base_url': 'http://localhost:8050/v1/completions', 'api_key': 'EMPTY', 'pretrained': 'google/gemma-4-26B-A4B', 'tokenizer': 'google/gemma-4-26b-a4b-it'}), gen_kwargs: ({}), limit: None, num_fewshot: 8, bat
ch_size: 1
|Tasks|Version|     Filter     |n-shot|  Metric   |   |Value |   |Stderr|
|-----|------:|----------------|-----:|-----------|---|-----:|---|-----:|
|gsm8k|      3|flexible-extract|     8|exact_match|↑  |0.8893|±  |0.0086|
|     |       |strict-match    |     8|exact_match|↑  |0.8779|±  |0.0090|

gemma-4-26B-A4B-it-UD-Q3_K_S.gguf-gsm8k

local-completions ({'base_url': 'http://localhost:8050/v1/completions', 'api_key': 'EMPTY', 'pretrained': 'google/gemma-4-26B-A4B', 'tokenizer': 'google/gemma-4-26b-a4b-it'}), gen_kwargs: ({}), limit: None, num_fewshot: 8, bat
ch_size: 1
|Tasks|Version|     Filter     |n-shot|  Metric   |   |Value |   |Stderr|
|-----|------:|----------------|-----:|-----------|---|-----:|---|-----:|
|gsm8k|      3|flexible-extract|     8|exact_match|↑  |0.8893|±  |0.0086|
|     |       |strict-match    |     8|exact_match|↑  |0.8779|±  |0.0090|

gemma-4-26B-A4B-it-UD-Q3_K_XL.gguf-gsm8k

local-completions ({'base_url': 'http://localhost:8050/v1/completions', 'api_key': 'EMPTY', 'pretrained': 'google/gemma-4-26B-A4B', 'tokenizer': 'google/gemma-4-26b-a4b-it'}), gen_kwargs: ({}), limit: None, num_fewshot: 8, bat
ch_size: 1
|Tasks|Version|     Filter     |n-shot|  Metric   |   |Value |   |Stderr|
|-----|------:|----------------|-----:|-----------|---|-----:|---|-----:|
|gsm8k|      3|flexible-extract|     8|exact_match|↑  |0.8863|±  |0.0087|
|     |       |strict-match    |     8|exact_match|↑  |0.8772|±  |0.0090|

gemma-4-26B-A4B-it-UD-Q4_K_M.gguf-gsm8k

local-completions ({'base_url': 'http://localhost:8050/v1/completions', 'api_key': 'EMPTY', 'pretrained': 'google/gemma-4-26B-A4B', 'tokenizer': 'google/gemma-4-26b-a4b-it'}), gen_kwargs: ({}), limit: None, num_fewshot: 8, bat
ch_size: 1
|Tasks|Version|     Filter     |n-shot|  Metric   |   |Value |   |Stderr|
|-----|------:|----------------|-----:|-----------|---|-----:|---|-----:|
|gsm8k|      3|flexible-extract|     8|exact_match|↑  |0.8999|±  |0.0083|
|     |       |strict-match    |     8|exact_match|↑  |0.8908|±  |0.0086|

gemma-4-26B-A4B-it-UD-Q4_K_S.gguf-gsm8k

local-completions ({'base_url': 'http://localhost:8050/v1/completions', 'api_key': 'EMPTY', 'pretrained': 'google/gemma-4-26B-A4B', 'tokenizer': 'google/gemma-4-26b-a4b-it'}), gen_kwargs: ({}), limit: None, num_fewshot: 8, bat
ch_size: 1
|Tasks|Version|     Filter     |n-shot|  Metric   |   |Value |   |Stderr|
|-----|------:|----------------|-----:|-----------|---|-----:|---|-----:|
|gsm8k|      3|flexible-extract|     8|exact_match|↑  |0.9007|±  |0.0082|
|     |       |strict-match    |     8|exact_match|↑  |0.8931|±  |0.0085|

gemma-4-26B-A4B-it-UD-Q4_K_XL.gguf-gsm8k

local-completions ({'base_url': 'http://localhost:8050/v1/completions', 'api_key': 'EMPTY', 'pretrained': 'google/gemma-4-26B-A4B', 'tokenizer': 'google/gemma-4-26b-a4b-it'}), gen_kwargs: ({}), limit: None, num_fewshot: 8, bat
ch_size: 1
|Tasks|Version|     Filter     |n-shot|  Metric   |   |Value |   |Stderr|
|-----|------:|----------------|-----:|-----------|---|-----:|---|-----:|
|gsm8k|      3|flexible-extract|     8|exact_match|↑  |0.9022|±  |0.0082|
|     |       |strict-match    |     8|exact_match|↑  |0.8946|±  |0.0085|

gemma-4-26B-A4B-it-UD-Q5_K_S.gguf-gsm8k

local-completions ({'base_url': 'http://localhost:8050/v1/completions', 'api_key': 'EMPTY', 'pretrained': 'google/gemma-4-26B-A4B', 'tokenizer': 'google/gemma-4-26b-a4b-it'}), gen_kwargs: ({}), limit: None, num_fewshot: 8, bat
ch_size: 1
|Tasks|Version|     Filter     |n-shot|  Metric   |   |Value |   |Stderr|
|-----|------:|----------------|-----:|-----------|---|-----:|---|-----:|
|gsm8k|      3|flexible-extract|     8|exact_match|↑  |0.9060|±  |0.0080|
|     |       |strict-match    |     8|exact_match|↑  |0.8939|±  |0.0085|

gemma-4-26B-A4B-it-UD-Q5_K_M

local-completions ({'base_url': 'http://localhost:8050/v1/completions', 'api_key': 'EMPTY', 'pretrained': 'google/gemma-4-26B-A4B', 'tokenizer': 'google/gemma-4-26b-a4b-it'}), gen_kwargs: ({}), limit: None, num_fewshot: 8, bat
ch_size: 1
|Tasks|Version|     Filter     |n-shot|  Metric   |   |Value |   |Stderr|
|-----|------:|----------------|-----:|-----------|---|-----:|---|-----:|
|gsm8k|      3|flexible-extract|     8|exact_match|↑  |0.9098|±  |0.0079|
|     |       |strict-match    |     8|exact_match|↑  |0.8984|±  |0.0083|

gemma-4-26B-A4B-it-UD-Q5_K_XL

local-completions ({'base_url': 'http://localhost:8050/v1/completions', 'api_key': 'EMPTY', 'pretrained': 'google/gemma-4-26B-A4B', 'tokenizer': 'google/gemma-4-26b-a4b-it'}), gen_kwargs: ({}), limit: None, num_fewshot: 8, batch_size: 1
|Tasks|Version|     Filter     |n-shot|  Metric   |   |Value |   |Stderr|
|-----|------:|----------------|-----:|-----------|---|-----:|---|-----:|
|gsm8k|      3|flexible-extract|     8|exact_match|↑  |0.9045|±  |0.0081|
|     |       |strict-match    |     8|exact_match|↑  |0.8939|±  |0.0085|

arc_challenge

Le benchmark ARC Challenge est une sous-partie du dataset ARC (AI2 Reasoning Challenge), spécifiquement conçue pour être difficile pour les modèles de langage. Il s’agit d’un ensemble de questions scientifiques de niveau scolaire (principalement collège/lycée), présentées sous forme de QCM, où les questions ont été filtrées pour éliminer celles qui peuvent être résolues par des heuristiques simples ou de la recherche superficielle.

Chaque exemple est une question à choix multiple (généralement 4 options), couvrant des domaines comme la physique, la biologie, la chimie ou les sciences de la Terre. Contrairement à MMLU, qui teste largement la connaissance, ARC-Challenge met davantage l’accent sur la capacité à combiner des faits et à effectuer un raisonnement multi-étapes léger à modéré, souvent avec des connaissances scientifiques implicites.

En pratique, ARC-Challenge mesure la capacité d’un modèle à appliquer des connaissances scientifiques dans un contexte de raisonnement, plutôt qu’à simplement rappeler des faits. Les questions sont conçues pour nécessiter une compréhension plus profonde (par exemple : relations causales, propriétés physiques, interprétation de phénomènes), ce qui en fait un benchmark intermédiaire entre pure connaissance et reasoning structuré.

Le score est exprimé en accuracy : un modèle à 60 % signifie qu’il répond correctement à 60 % des questions. Étant donné le caractère “challenge” du dataset, les scores sont généralement plus bas que sur des benchmarks plus faciles, et les écarts entre modèles peuvent être plus significatifs. Comme pour tout QCM, le score peut être influencé par des effets de calibration ou des biais dans la distribution des réponses.

Comme pour MMLU ou HellaSwag, l’évaluation avec des modèles instruct ou chat nécessite de contrôler le format de sortie. Les modèles ont tendance à répondre avec des explications (“Je pense que la réponse est B car…”), ce qui nécessite soit un prompt contraint (ex : “Réponds uniquement par A, B, C ou D”), soit un parsing robuste. Sans cela, on peut introduire du bruit dans l’évaluation.

Enfin, ARC-Challenge met en lumière une limite fréquente des LLMs : même avec de bonnes connaissances, les modèles peuvent échouer lorsqu’il faut combiner plusieurs concepts scientifiques de manière cohérente. Cela en fait un bon complément à des benchmarks comme MMLU (plus orienté connaissance) ou GSM8K (raisonnement arithmétique), pour évaluer une forme de reasoning appliqué au monde réel.

Détail des résultats des tests ARC

gemma-4-26B-A4B-it-UD-IQ2_XXS

gguf ({'base_url': 'http://localhost:8050'}), gen_kwargs: ({}), limit: None, num_fewshot: 8, batch_size: 1
|    Tasks    |Version|Filter|n-shot| Metric |   |Value |   |Stderr|
|-------------|------:|------|-----:|--------|---|-----:|---|-----:|
|arc_challenge|      1|none  |     8|acc     |↑  |0.4514|±  |0.0145|
|             |       |none  |     8|acc_norm|↑  |0.4599|±  |0.0146|

gemma-4-26B-A4B-it-UD-IQ4_NL

gguf ({'base_url': 'http://localhost:8050'}), gen_kwargs: ({}), limit: None, num_fewshot: 8, batch_size: 1
|    Tasks    |Version|Filter|n-shot| Metric |   |Value |   |Stderr|
|-------------|------:|------|-----:|--------|---|-----:|---|-----:|
|arc_challenge|      1|none  |     8|acc     |↑  |0.4488|±  |0.0145|
|             |       |none  |     8|acc_norm|↑  |0.4488|±  |0.0145|

gemma-4-26B-A4B-it-UD-Q3_K_M

gguf ({'base_url': 'http://localhost:8050'}), gen_kwargs: ({}), limit: None, num_fewshot: 8, batch_size: 1
|    Tasks    |Version|Filter|n-shot| Metric |   |Value |   |Stderr|
|-------------|------:|------|-----:|--------|---|-----:|---|-----:|
|arc_challenge|      1|none  |     8|acc     |↑  |0.4616|±  |0.0146|
|             |       |none  |     8|acc_norm|↑  |0.4633|±  |0.0146|

gemma-4-26B-A4B-it-UD-Q3_K_S

gguf ({'base_url': 'http://localhost:8050'}), gen_kwargs: ({}), limit: None, num_fewshot: 8, batch_size: 1
|    Tasks    |Version|Filter|n-shot| Metric |   |Value |   |Stderr|
|-------------|------:|------|-----:|--------|---|-----:|---|-----:|
|arc_challenge|      1|none  |     8|acc     |↑  |0.4616|±  |0.0146|
|             |       |none  |     8|acc_norm|↑  |0.4633|±  |0.0146|

gemma-4-26B-A4B-it-UD-Q3_K_XL

gguf ({'base_url': 'http://localhost:8050'}), gen_kwargs: ({}), limit: None, num_fewshot: 8, batch_size: 1
|    Tasks    |Version|Filter|n-shot| Metric |   |Value |   |Stderr|
|-------------|------:|------|-----:|--------|---|-----:|---|-----:|
|arc_challenge|      1|none  |     8|acc     |↑  |0.5845|±  |0.0144|
|             |       |none  |     8|acc_norm|↑  |0.5845|±  |0.0144|

gemma-4-26B-A4B-it-UD-Q4_K_M

gguf ({'base_url': 'http://localhost:8050'}), gen_kwargs: ({}), limit: None, num_fewshot: 8, batch_size: 1
|    Tasks    |Version|Filter|n-shot| Metric |   |Value |   |Stderr|
|-------------|------:|------|-----:|--------|---|-----:|---|-----:|
|arc_challenge|      1|none  |     8|acc     |↑  |0.6143|±  |0.0142|
|             |       |none  |     8|acc_norm|↑  |0.6135|±  |0.0142|

gemma-4-26B-A4B-it-UD-Q4_K_S

gguf ({'base_url': 'http://localhost:8050'}), gen_kwargs: ({}), limit: None, num_fewshot: 8, batch_size: 1
|    Tasks    |Version|Filter|n-shot| Metric |   |Value |   |Stderr|
|-------------|------:|------|-----:|--------|---|-----:|---|-----:|
|arc_challenge|      1|none  |     8|acc     |↑  |0.5879|±  |0.0144|
|             |       |none  |     8|acc_norm|↑  |0.5922|±  |0.0144|

gemma-4-26B-A4B-it-UD-Q4_K_XL

gguf ({'base_url': 'http://localhost:8050'}), gen_kwargs: ({}), limit: None, num_fewshot: 8, batch_size: 1
|    Tasks    |Version|Filter|n-shot| Metric |   |Value |   |Stderr|
|-------------|------:|------|-----:|--------|---|-----:|---|-----:|
|arc_challenge|      1|none  |     8|acc     |↑  |0.6135|±  |0.0142|
|             |       |none  |     8|acc_norm|↑  |0.6075|±  |0.0143|

gemma-4-26B-A4B-it-UD-Q5_K_S

gguf ({'base_url': 'http://localhost:8050'}), gen_kwargs: ({}), limit: None, num_fewshot: 8, batch_size: 1
|    Tasks    |Version|Filter|n-shot| Metric |   |Value |   |Stderr|
|-------------|------:|------|-----:|--------|---|-----:|---|-----:|
|arc_challenge|      1|none  |     8|acc     |↑  |0.6049|±  |0.0143|
|             |       |none  |     8|acc_norm|↑  |0.6041|±  |0.0143|

gemma-4-26B-A4B-it-UD-Q5_K_M

gguf ({'base_url': 'http://localhost:8050'}), gen_kwargs: ({}), limit: None, num_fewshot: 8, batch_size: 1
|    Tasks    |Version|Filter|n-shot| Metric |   |Value |   |Stderr|
|-------------|------:|------|-----:|--------|---|-----:|---|-----:|
|arc_challenge|      1|none  |     8|acc     |↑  |0.6263|±  |0.0141|
|             |       |none  |     8|acc_norm|↑  |0.6246|±  |0.0142|

gemma-4-26B-A4B-it-UD-Q5_K_XL

gguf ({'base_url': 'http://localhost:8050'}), gen_kwargs: ({}), limit: None, num_fewshot: 8, batch_size: 1
|    Tasks    |Version|Filter|n-shot| Metric |   |Value|   |Stderr|
|-------------|------:|------|-----:|--------|---|----:|---|-----:|
|arc_challenge|      1|none  |     8|acc     |↑  |0.593|±  |0.0144|
|             |       |none  |     8|acc_norm|↑  |0.599|±  |0.0143|

ifeval

Le benchmark IFEval (Instruction Following Evaluation) est un dataset d’environ 500 prompts spécifiquement conçu pour évaluer la capacité des modèles de langage à respecter des consignes de formatage et des contraintes structurelles strictes. Chaque exemple est une requête en langage naturel accompagnée d’une ou plusieurs contraintes vérifiables (par exemple : “écris exactement 3 paragraphes”, “ne contiens aucune virgule”, “commence par le mot ‘Cependant’”, ou “réponds au format JSON strict”). L’objectif n’est pas de tester les connaissances ou la pertinence sémantique, mais la capacité du modèle à obéir aveuglément et avec précision à des règles formelles.

En pratique, IFEval mesure la fiabilité d’un modèle en tant qu’exécutant discipliné, ce qui en fait un proxy direct pour les cas d’usage “Agentiques” (où l’IA doit interagir avec du code ou des bases de données). L’évaluation est purement algorithmique et déterministe par le biais de scripts Python : elle vérifie la longueur du texte, le comptage des mots, la ponctuation, ou la présence de mots-clés, sans jamais évaluer la qualité du fond. L’évaluation est binaire : si la consigne demande exactement 250 mots et que le modèle en génère 251, le test échoue.

Le score est exprimé en pourcentage de réussite (accuracy) et se divise généralement en deux métriques : instruction-level (pourcentage de sous-contraintes individuelles respectées) et prompt-level (pourcentage de prompts où toutes les contraintes sont respectées simultanément). Un modèle à 85 % en prompt-level strict signifie que dans 85 % des cas, la réponse a passé tous les filtres heuristiques sans la moindre erreur. Important : ce score ne capture absolument pas l’intelligence ou le style du texte généré (un modèle pourrait écrire du charabia complet et obtenir 100 % s’il respecte le compte de mots et les lettres interdites). Il reste néanmoins l’indicateur de référence pour mesurer l’obéissance brute d’un modèle.

Un point souvent sous-estimé est qu’IFEval est extrêmement sensible à l’alignement conversationnel (Chat Template) et aux nouvelles architectures de modèles. Les modèles bavards ou “polis” qui rajoutent des préambules (“Bien sûr, voici le texte demandé :”) échouent systématiquement aux règles de type “Commence exactement par le mot X”. De plus, avec l’émergence des modèles de raisonnement, les balises de brouillon (comme <think>) faussent totalement les compteurs de mots du correcteur automatique. Sans un nettoyage de la réponse avant correction ou un prompt interdisant ces balises, on peut sous-estimer artificiellement un excellent modèle, non pas parce qu’il désobéit, mais parce que son processus de réflexion ou de courtoisie perturbe le script d’évaluation.

Détail des résultats des tests ifeval

gemma-4-26B-A4B-it-UD-IQ2_XXS.gguf-ifeval

local-completions ({'base_url': 'http://localhost:8050/v1/completions', 'api_key': 'EMPTY', 'pretrained': 'google/gemma-4-26B-A4B-it', 'tokenizer': 'google/gemma-4-26B-A4B-it'}), gen_kwargs: ({}), limit: None, num_fewshot: 0,
batch_size: 1
|Tasks |Version|Filter|n-shot|        Metric         |   |Value |   |Stderr|
|------|------:|------|-----:|-----------------------|---|-----:|---|------|
|ifeval|      4|none  |     0|inst_level_loose_acc   |↑  |0.9317|±  |   N/A|
|      |       |none  |     0|inst_level_strict_acc  |↑  |0.9101|±  |   N/A|
|      |       |none  |     0|prompt_level_loose_acc |↑  |0.8983|±  |0.0130|
|      |       |none  |     0|prompt_level_strict_acc|↑  |0.8706|±  |0.0144|

gemma-4-26B-A4B-it-UD-IQ4_NL.gguf-ifeval

local-completions ({'base_url': 'http://localhost:8050/v1/completions', 'api_key': 'EMPTY', 'pretrained': 'google/gemma-4-26B-A4B-it', 'tokenizer': 'google/gemma-4-26B-A4B-it'}), gen_kwargs: ({}), limit: None, num_fewshot: 0,
batch_size: 1
|Tasks |Version|Filter|n-shot|        Metric         |   |Value |   |Stderr|
|------|------:|------|-----:|-----------------------|---|-----:|---|------|
|ifeval|      4|none  |     0|inst_level_loose_acc   |↑  |0.9341|±  |   N/A|
|      |       |none  |     0|inst_level_strict_acc  |↑  |0.9185|±  |   N/A|
|      |       |none  |     0|prompt_level_loose_acc |↑  |0.9002|±  |0.0129|
|      |       |none  |     0|prompt_level_strict_acc|↑  |0.8799|±  |0.0140|

gemma-4-26B-A4B-it-UD-Q3_K_M.gguf-ifeval

local-completions ({'base_url': 'http://localhost:8050/v1/completions', 'api_key': 'EMPTY', 'pretrained': 'google/gemma-4-26B-A4B-it', 'tokenizer': 'google/gemma-4-26B-A4B-it'}), gen_kwargs: ({}), limit: None, num_fewshot: 0,
batch_size: 1
|Tasks |Version|Filter|n-shot|        Metric         |   |Value |   |Stderr|
|------|------:|------|-----:|-----------------------|---|-----:|---|------|
|ifeval|      4|none  |     0|inst_level_loose_acc   |↑  |0.9281|±  |   N/A|
|      |       |none  |     0|inst_level_strict_acc  |↑  |0.9185|±  |   N/A|
|      |       |none  |     0|prompt_level_loose_acc |↑  |0.8928|±  |0.0133|
|      |       |none  |     0|prompt_level_strict_acc|↑  |0.8799|±  |0.0140|

gemma-4-26B-A4B-it-UD-Q3_K_S.gguf-ifeval

local-completions ({'base_url': 'http://localhost:8050/v1/completions', 'api_key': 'EMPTY', 'pretrained': 'google/gemma-4-26B-A4B-it', 'tokenizer': 'google/gemma-4-26B-A4B-it'}), gen_kwargs: ({}), limit: None, num_fewshot: 0,
batch_size: 1
|Tasks |Version|Filter|n-shot|        Metric         |   |Value |   |Stderr|
|------|------:|------|-----:|-----------------------|---|-----:|---|------|
|ifeval|      4|none  |     0|inst_level_loose_acc   |↑  |0.9281|±  |   N/A|
|      |       |none  |     0|inst_level_strict_acc  |↑  |0.9185|±  |   N/A|
|      |       |none  |     0|prompt_level_loose_acc |↑  |0.8928|±  |0.0133|
|      |       |none  |     0|prompt_level_strict_acc|↑  |0.8799|±  |0.0140|

gemma-4-26B-A4B-it-UD-Q3_K_XL.gguf-ifeval

local-completions ({'base_url': 'http://localhost:8050/v1/completions', 'api_key': 'EMPTY', 'pretrained': 'google/gemma-4-26B-A4B-it', 'tokenizer': 'google/gemma-4-26B-A4B-it'}), gen_kwargs: ({}), limit: None, num_fewshot: 0,
batch_size: 1
|Tasks |Version|Filter|n-shot|        Metric         |   |Value |   |Stderr|
|------|------:|------|-----:|-----------------------|---|-----:|---|------|
|ifeval|      4|none  |     0|inst_level_loose_acc   |↑  |0.9365|±  |   N/A|
|      |       |none  |     0|inst_level_strict_acc  |↑  |0.9209|±  |   N/A|
|      |       |none  |     0|prompt_level_loose_acc |↑  |0.9057|±  |0.0126|
|      |       |none  |     0|prompt_level_strict_acc|↑  |0.8854|±  |0.0137|

gemma-4-26B-A4B-it-UD-Q4_K_M.gguf-ifeval

local-completions ({'base_url': 'http://localhost:8050/v1/completions', 'api_key': 'EMPTY', 'pretrained': 'google/gemma-4-26B-A4B-it', 'tokenizer': 'google/gemma-4-26B-A4B-it'}), gen_kwargs: ({}), limit: None, num_fewshot: 0,
batch_size: 1
|Tasks |Version|Filter|n-shot|        Metric         |   |Value |   |Stderr|
|------|------:|------|-----:|-----------------------|---|-----:|---|------|
|ifeval|      4|none  |     0|inst_level_loose_acc   |↑  |0.9353|±  |   N/A|
|      |       |none  |     0|inst_level_strict_acc  |↑  |0.9209|±  |   N/A|
|      |       |none  |     0|prompt_level_loose_acc |↑  |0.9020|±  |0.0128|
|      |       |none  |     0|prompt_level_strict_acc|↑  |0.8854|±  |0.0137|

gemma-4-26B-A4B-it-UD-Q4_K_S.gguf-ifeval

local-completions ({'base_url': 'http://localhost:8050/v1/completions', 'api_key': 'EMPTY', 'pretrained': 'google/gemma-4-26B-A4B-it', 'tokenizer': 'google/gemma-4-26B-A4B-it'}), gen_kwargs: ({}), limit: None, num_fewshot: 0,
batch_size: 1
|Tasks |Version|Filter|n-shot|        Metric         |   |Value |   |Stderr|
|------|------:|------|-----:|-----------------------|---|-----:|---|------|
|ifeval|      4|none  |     0|inst_level_loose_acc   |↑  |0.9281|±  |   N/A|
|      |       |none  |     0|inst_level_strict_acc  |↑  |0.9209|±  |   N/A|
|      |       |none  |     0|prompt_level_loose_acc |↑  |0.8928|±  |0.0133|
|      |       |none  |     0|prompt_level_strict_acc|↑  |0.8835|±  |0.0138|

gemma-4-26B-A4B-it-UD-Q4_K_XL.gguf-ifeval

local-completions ({'base_url': 'http://localhost:8050/v1/completions', 'api_key': 'EMPTY', 'pretrained': 'google/gemma-4-26B-A4B-it', 'tokenizer': 'google/gemma-4-26B-A4B-it'}), gen_kwargs: ({}), limit: None, num_fewshot: 0,
batch_size: 1
|Tasks |Version|Filter|n-shot|        Metric         |   |Value |   |Stderr|
|------|------:|------|-----:|-----------------------|---|-----:|---|------|
|ifeval|      4|none  |     0|inst_level_loose_acc   |↑  |0.9293|±  |   N/A|
|      |       |none  |     0|inst_level_strict_acc  |↑  |0.9149|±  |   N/A|
|      |       |none  |     0|prompt_level_loose_acc |↑  |0.8946|±  |0.0132|
|      |       |none  |     0|prompt_level_strict_acc|↑  |0.8762|±  |0.0142|

gemma-4-26B-A4B-it-UD-Q5_K_S

local-completions ({'base_url': 'http://localhost:8050/v1/completions', 'api_key': 'EMPTY', 'pretrained': 'google/gemma-4-26B-A4B-it', 'tokenizer': 'google/gemma-4-26B-A4B-it'}), gen_kwargs: ({}), limit: None, num_fewshot: 0,
batch_size: 1
|Tasks |Version|Filter|n-shot|        Metric         |   |Value |   |Stderr|
|------|------:|------|-----:|-----------------------|---|-----:|---|------|
|ifeval|      4|none  |     0|inst_level_loose_acc   |↑  |0.9293|±  |   N/A|
|      |       |none  |     0|inst_level_strict_acc  |↑  |0.9173|±  |   N/A|
|      |       |none  |     0|prompt_level_loose_acc |↑  |0.8946|±  |0.0132|
|      |       |none  |     0|prompt_level_strict_acc|↑  |0.8780|±  |0.0141|

gemma-4-26B-A4B-it-UD-Q5_K_M

local-completions ({'base_url': 'http://localhost:8050/v1/completions', 'api_key': 'EMPTY', 'pretrained': 'google/gemma-4-26B-A4B-it', 'tokenizer': 'google/gemma-4-26B-A4B-it'}), gen_kwargs: ({}), limit: None, num_fewshot: 0,
batch_size: 1
|Tasks |Version|Filter|n-shot|        Metric         |   |Value |   |Stderr|
|------|------:|------|-----:|-----------------------|---|-----:|---|------|
|ifeval|      4|none  |     0|inst_level_loose_acc   |↑  |0.9365|±  |   N/A|
|      |       |none  |     0|inst_level_strict_acc  |↑  |0.9257|±  |   N/A|
|      |       |none  |     0|prompt_level_loose_acc |↑  |0.9057|±  |0.0126|
|      |       |none  |     0|prompt_level_strict_acc|↑  |0.8909|±  |0.0134|

gemma-4-26B-A4B-it-UD-Q5_K_XL

local-completions ({'base_url': 'http://localhost:8050/v1/completions', 'api_key': 'EMPTY', 'pretrained': 'google/gemma-4-26B-A4B-it', 'tokenizer': 'google/gemma-4-26B-A4B-it'}), gen_kwargs: ({}), limit: None, num_fewshot: 0, batch_s
ize: 1
|Tasks |Version|Filter|n-shot|        Metric         |   |Value |   |Stderr|
|------|------:|------|-----:|-----------------------|---|-----:|---|------|
|ifeval|      4|none  |     0|inst_level_loose_acc   |↑  |0.9329|±  |   N/A|
|      |       |none  |     0|inst_level_strict_acc  |↑  |0.9221|±  |   N/A|
|      |       |none  |     0|prompt_level_loose_acc |↑  |0.8983|±  |0.0130|
|      |       |none  |     0|prompt_level_strict_acc|↑  |0.8817|±  |0.0139|

MMLU

Le benchmark MMLU (Massive Multitask Language Understanding) est un dataset conçu pour évaluer les capacités générales de compréhension et de connaissance des modèles de langage à travers un large éventail de domaines académiques et professionnels. Il couvre plus de 50 disciplines (mathématiques, droit, médecine, histoire, informatique, etc.), avec des questions allant du niveau lycée à expert.

Chaque exemple est une question à choix multiple (généralement 4 options), formulée de manière à tester à la fois la connaissance factuelle et la capacité du modèle à appliquer des concepts dans un contexte donné. Contrairement à GSM8K ou Winogrande, MMLU ne cible pas une seule compétence spécifique, mais cherche à capturer une forme de performance globale sur des tâches variées.

En pratique, MMLU mesure la capacité d’un modèle à sélectionner la bonne réponse parmi plusieurs options dans des domaines hétérogènes, ce qui en fait un bon proxy de sa couverture de connaissances et de sa capacité à généraliser. Le benchmark est souvent utilisé en zero-shot ou few-shot, ce qui permet d’évaluer la performance sans fine-tuning spécifique.

Le score est exprimé en accuracy : un modèle à 65 % signifie qu’il répond correctement à 65 % des questions. Étant donné la diversité des sujets, ce score agrégé masque souvent de fortes variations entre disciplines (un modèle peut être excellent en informatique mais faible en droit, par exemple). Il est donc courant d’analyser les résultats par sous-catégorie pour obtenir une vision plus fine.

Comme pour les autres benchmarks à choix multiple, l’évaluation avec des modèles instruct ou chat nécessite une attention particulière au format de sortie. Les modèles ont tendance à produire des réponses expliquées (“La bonne réponse est C car…”), ce qui nécessite soit de contraindre le format via le prompt, soit de parser la sortie pour extraire l’option choisie. Par ailleurs, MMLU est sensible à la formulation exacte des questions et au nombre d’exemples fournis en contexte (few-shot), ce qui peut introduire une variance non négligeable dans les scores.

Enfin, il est important de noter que MMLU mélange connaissance et raisonnement léger : de bons scores peuvent refléter une forte mémorisation des données d’entraînement plutôt qu’une véritable capacité de raisonnement profond. Cela en fait un benchmark utile pour évaluer la “culture générale” d’un modèle, mais insuffisant à lui seul pour juger de ses capacités de reasoning avancé.

Pour le moment, je n’ai pas fait les tests MMLU, ils sont très longs à réaliser. J’ai comme objectif de les lancer de nuit prochainement.

Détail des résultats des tests MMLU

gemma-4-26B-A4B-it-UD-IQ2_XXS.gguf

gguf ({'base_url': 'http://localhost:8050'}), gen_kwargs: ({}), limit: None, num_fewshot: 5, batch_size: 1
|                 Tasks                 |Version|Filter|n-shot|Metric|   |Value |   |Stderr|
|---------------------------------------|------:|------|-----:|------|---|-----:|---|-----:|
|mmlu                                   |      2|none  |      |acc   |   |0.7206|±  |0.0036|
| - humanities                          |      2|none  |     5|acc   |↑  |0.6867|±  |0.0066|
|  - formal_logic                       |      1|none  |     5|acc   |↑  |0.6587|±  |0.0424|
|  - high_school_european_history       |      1|none  |     5|acc   |↑  |0.8424|±  |0.0285|
|  - high_school_us_history             |      1|none  |     5|acc   |↑  |0.8333|±  |0.0262|
|  - high_school_world_history          |      1|none  |     5|acc   |↑  |0.8861|±  |0.0207|
|  - international_law                  |      1|none  |     5|acc   |↑  |0.8595|±  |0.0317|
|  - jurisprudence                      |      1|none  |     5|acc   |↑  |0.8056|±  |0.0383|
|  - logical_fallacies                  |      1|none  |     5|acc   |↑  |0.7607|±  |0.0335|
|  - moral_disputes                     |      1|none  |     5|acc   |↑  |0.7081|±  |0.0245|
|  - moral_scenarios                    |      1|none  |     5|acc   |↑  |0.6212|±  |0.0162|
|  - philosophy                         |      1|none  |     5|acc   |↑  |0.7170|±  |0.0256|
|  - prehistory                         |      1|none  |     5|acc   |↑  |0.8179|±  |0.0215|
|  - professional_law                   |      1|none  |     5|acc   |↑  |0.5737|±  |0.0126|
|  - world_religions                    |      1|none  |     5|acc   |↑  |0.8480|±  |0.0275|
| - other                               |      2|none  |     5|acc   |↑  |0.7177|±  |0.0078|
|  - business_ethics                    |      1|none  |     5|acc   |↑  |0.8300|±  |0.0378|
|  - clinical_knowledge                 |      1|none  |     5|acc   |↑  |0.7283|±  |0.0274|
|  - college_medicine                   |      1|none  |     5|acc   |↑  |0.6474|±  |0.0364|
|  - global_facts                       |      1|none  |     5|acc   |↑  |0.3600|±  |0.0482|
|  - human_aging                        |      1|none  |     5|acc   |↑  |0.6099|±  |0.0327|
|  - management                         |      1|none  |     5|acc   |↑  |0.7379|±  |0.0435|
|  - marketing                          |      1|none  |     5|acc   |↑  |0.9060|±  |0.0191|
|  - medical_genetics                   |      1|none  |     5|acc   |↑  |0.6700|±  |0.0473|
|  - miscellaneous                      |      1|none  |     5|acc   |↑  |0.8084|±  |0.0141|
|  - nutrition                          |      1|none  |     5|acc   |↑  |0.7549|±  |0.0246|
|  - professional_accounting            |      1|none  |     5|acc   |↑  |0.5709|±  |0.0295|
|  - professional_medicine              |      1|none  |     5|acc   |↑  |0.7610|±  |0.0259|
|  - virology                           |      1|none  |     5|acc   |↑  |0.5000|±  |0.0389|
| - social sciences                     |      2|none  |     5|acc   |↑  |0.8125|±  |0.0069|
|  - econometrics                       |      1|none  |     5|acc   |↑  |0.6930|±  |0.0434|
|  - high_school_geography              |      1|none  |     5|acc   |↑  |0.8333|±  |0.0266|
|  - high_school_government_and_politics|      1|none  |     5|acc   |↑  |0.8964|±  |0.0220|
|  - high_school_macroeconomics         |      1|none  |     5|acc   |↑  |0.7308|±  |0.0225|
|  - high_school_microeconomics         |      1|none  |     5|acc   |↑  |0.8782|±  |0.0212|
|  - high_school_psychology             |      1|none  |     5|acc   |↑  |0.8936|±  |0.0132|
|  - human_sexuality                    |      1|none  |     5|acc   |↑  |0.6870|±  |0.0407|
|  - professional_psychology            |      1|none  |     5|acc   |↑  |0.7941|±  |0.0164|
|  - public_relations                   |      1|none  |     5|acc   |↑  |0.6455|±  |0.0458|
|  - security_studies                   |      1|none  |     5|acc   |↑  |0.8000|±  |0.0256|
|  - sociology                          |      1|none  |     5|acc   |↑  |0.8408|±  |0.0259|
|  - us_foreign_policy                  |      1|none  |     5|acc   |↑  |0.9000|±  |0.0302|
| - stem                                |      2|none  |     5|acc   |↑  |0.6841|±  |0.0079|
|  - abstract_algebra                   |      1|none  |     5|acc   |↑  |0.4800|±  |0.0502|
|  - anatomy                            |      1|none  |     5|acc   |↑  |0.7556|±  |0.0371|
|  - astronomy                          |      1|none  |     5|acc   |↑  |0.8224|±  |0.0311|
|  - college_biology                    |      1|none  |     5|acc   |↑  |0.8681|±  |0.0283|
|  - college_chemistry                  |      1|none  |     5|acc   |↑  |0.5000|±  |0.0503|
|  - college_computer_science           |      1|none  |     5|acc   |↑  |0.6800|±  |0.0469|
|  - college_mathematics                |      1|none  |     5|acc   |↑  |0.4600|±  |0.0501|
|  - college_physics                    |      1|none  |     5|acc   |↑  |0.5980|±  |0.0488|
|  - computer_security                  |      1|none  |     5|acc   |↑  |0.7400|±  |0.0441|
|  - conceptual_physics                 |      1|none  |     5|acc   |↑  |0.7064|±  |0.0298|
|  - electrical_engineering             |      1|none  |     5|acc   |↑  |0.7448|±  |0.0363|
|  - elementary_mathematics             |      1|none  |     5|acc   |↑  |0.6614|±  |0.0244|
|  - high_school_biology                |      1|none  |     5|acc   |↑  |0.8935|±  |0.0175|
|  - high_school_chemistry              |      1|none  |     5|acc   |↑  |0.6749|±  |0.0330|
|  - high_school_computer_science       |      1|none  |     5|acc   |↑  |0.8400|±  |0.0368|
|  - high_school_mathematics            |      1|none  |     5|acc   |↑  |0.3963|±  |0.0298|
|  - high_school_physics                |      1|none  |     5|acc   |↑  |0.7152|±  |0.0368|
|  - high_school_statistics             |      1|none  |     5|acc   |↑  |0.6898|±  |0.0315|
|  - machine_learning                   |      1|none  |     5|acc   |↑  |0.6429|±  |0.0455|

|      Groups      |Version|Filter|n-shot|Metric|   |Value |   |Stderr|
|------------------|------:|------|-----:|------|---|-----:|---|-----:|
|mmlu              |      2|none  |      |acc   |   |0.7206|±  |0.0036|
| - humanities     |      2|none  |     5|acc   |↑  |0.6867|±  |0.0066|
| - other          |      2|none  |     5|acc   |↑  |0.7177|±  |0.0078|
| - social sciences|      2|none  |     5|acc   |↑  |0.8125|±  |0.0069|
| - stem           |      2|none  |     5|acc   |↑  |0.6841|±  |0.0079|

gemma-4-26B-A4B-it-UD-IQ4_NL.gguf-gsm8k

gguf ({'base_url': 'http://localhost:8050'}), gen_kwargs: ({}), limit: None, num_fewshot: 5, batch_size: 1
|                 Tasks                 |Version|Filter|n-shot|Metric|   |Value |   |Stderr|
|---------------------------------------|------:|------|-----:|------|---|-----:|---|-----:|
|mmlu                                   |      2|none  |      |acc   |   |0.6565|±  |0.0039|
| - humanities                          |      2|none  |     5|acc   |↑  |0.6315|±  |0.0069|
|  - formal_logic                       |      1|none  |     5|acc   |↑  |0.6270|±  |0.0433|
|  - high_school_european_history       |      1|none  |     5|acc   |↑  |0.8182|±  |0.0301|
|  - high_school_us_history             |      1|none  |     5|acc   |↑  |0.8480|±  |0.0252|
|  - high_school_world_history          |      1|none  |     5|acc   |↑  |0.8523|±  |0.0231|
|  - international_law                  |      1|none  |     5|acc   |↑  |0.8099|±  |0.0358|
|  - jurisprudence                      |      1|none  |     5|acc   |↑  |0.7130|±  |0.0437|
|  - logical_fallacies                  |      1|none  |     5|acc   |↑  |0.6810|±  |0.0366|
|  - moral_disputes                     |      1|none  |     5|acc   |↑  |0.5723|±  |0.0266|
|  - moral_scenarios                    |      1|none  |     5|acc   |↑  |0.5140|±  |0.0167|
|  - philosophy                         |      1|none  |     5|acc   |↑  |0.5852|±  |0.0280|
|  - prehistory                         |      1|none  |     5|acc   |↑  |0.7654|±  |0.0236|
|  - professional_law                   |      1|none  |     5|acc   |↑  |0.5743|±  |0.0126|
|  - world_religions                    |      1|none  |     5|acc   |↑  |0.7427|±  |0.0335|
| - other                               |      2|none  |     5|acc   |↑  |0.6244|±  |0.0084|
|  - business_ethics                    |      1|none  |     5|acc   |↑  |0.7200|±  |0.0451|
|  - clinical_knowledge                 |      1|none  |     5|acc   |↑  |0.6566|±  |0.0292|
|  - college_medicine                   |      1|none  |     5|acc   |↑  |0.6474|±  |0.0364|
|  - global_facts                       |      1|none  |     5|acc   |↑  |0.3300|±  |0.0473|
|  - human_aging                        |      1|none  |     5|acc   |↑  |0.5202|±  |0.0335|
|  - management                         |      1|none  |     5|acc   |↑  |0.7379|±  |0.0435|
|  - marketing                          |      1|none  |     5|acc   |↑  |0.4487|±  |0.0326|
|  - medical_genetics                   |      1|none  |     5|acc   |↑  |0.7000|±  |0.0461|
|  - miscellaneous                      |      1|none  |     5|acc   |↑  |0.7075|±  |0.0163|
|  - nutrition                          |      1|none  |     5|acc   |↑  |0.5915|±  |0.0281|
|  - professional_accounting            |      1|none  |     5|acc   |↑  |0.5355|±  |0.0298|
|  - professional_medicine              |      1|none  |     5|acc   |↑  |0.8125|±  |0.0237|
|  - virology                           |      1|none  |     5|acc   |↑  |0.4518|±  |0.0387|
| - social sciences                     |      2|none  |     5|acc   |↑  |0.7345|±  |0.0078|
|  - econometrics                       |      1|none  |     5|acc   |↑  |0.5614|±  |0.0467|
|  - high_school_geography              |      1|none  |     5|acc   |↑  |0.8081|±  |0.0281|
|  - high_school_government_and_politics|      1|none  |     5|acc   |↑  |0.7772|±  |0.0300|
|  - high_school_macroeconomics         |      1|none  |     5|acc   |↑  |0.7000|±  |0.0232|
|  - high_school_microeconomics         |      1|none  |     5|acc   |↑  |0.8782|±  |0.0212|
|  - high_school_psychology             |      1|none  |     5|acc   |↑  |0.8239|±  |0.0163|
|  - human_sexuality                    |      1|none  |     5|acc   |↑  |0.6718|±  |0.0412|
|  - professional_psychology            |      1|none  |     5|acc   |↑  |0.6863|±  |0.0188|
|  - public_relations                   |      1|none  |     5|acc   |↑  |0.6273|±  |0.0463|
|  - security_studies                   |      1|none  |     5|acc   |↑  |0.6653|±  |0.0302|
|  - sociology                          |      1|none  |     5|acc   |↑  |0.6816|±  |0.0329|
|  - us_foreign_policy                  |      1|none  |     5|acc   |↑  |0.7800|±  |0.0416|
| - stem                                |      2|none  |     5|acc   |↑  |0.6492|±  |0.0082|
|  - abstract_algebra                   |      1|none  |     5|acc   |↑  |0.4400|±  |0.0499|
|  - anatomy                            |      1|none  |     5|acc   |↑  |0.6074|±  |0.0422|
|  - astronomy                          |      1|none  |     5|acc   |↑  |0.5921|±  |0.0400|
|  - college_biology                    |      1|none  |     5|acc   |↑  |0.7986|±  |0.0335|
|  - college_chemistry                  |      1|none  |     5|acc   |↑  |0.4700|±  |0.0502|
|  - college_computer_science           |      1|none  |     5|acc   |↑  |0.6700|±  |0.0473|
|  - college_mathematics                |      1|none  |     5|acc   |↑  |0.5100|±  |0.0502|
|  - college_physics                    |      1|none  |     5|acc   |↑  |0.5294|±  |0.0497|
|  - computer_security                  |      1|none  |     5|acc   |↑  |0.7300|±  |0.0446|
|  - conceptual_physics                 |      1|none  |     5|acc   |↑  |0.6340|±  |0.0315|
|  - electrical_engineering             |      1|none  |     5|acc   |↑  |0.6759|±  |0.0390|
|  - elementary_mathematics             |      1|none  |     5|acc   |↑  |0.6878|±  |0.0239|
|  - high_school_biology                |      1|none  |     5|acc   |↑  |0.8742|±  |0.0189|
|  - high_school_chemistry              |      1|none  |     5|acc   |↑  |0.6798|±  |0.0328|
|  - high_school_computer_science       |      1|none  |     5|acc   |↑  |0.8100|±  |0.0394|
|  - high_school_mathematics            |      1|none  |     5|acc   |↑  |0.4593|±  |0.0304|
|  - high_school_physics                |      1|none  |     5|acc   |↑  |0.6093|±  |0.0398|
|  - high_school_statistics             |      1|none  |     5|acc   |↑  |0.7407|±  |0.0299|
|  - machine_learning                   |      1|none  |     5|acc   |↑  |0.4554|±  |0.0473|

|      Groups      |Version|Filter|n-shot|Metric|   |Value |   |Stderr|
|------------------|------:|------|-----:|------|---|-----:|---|-----:|
|mmlu              |      2|none  |      |acc   |   |0.6565|±  |0.0039|
| - humanities     |      2|none  |     5|acc   |↑  |0.6315|±  |0.0069|
| - other          |      2|none  |     5|acc   |↑  |0.6244|±  |0.0084|
| - social sciences|      2|none  |     5|acc   |↑  |0.7345|±  |0.0078|
| - stem           |      2|none  |     5|acc   |↑  |0.6492|±  |0.0082|