tiiuae
/

Falcon3-1B-Instruct

@@ -117,97 +117,90 @@ We report in the following table our internal pipeline benchmarks.
         <tr>
             <td rowspan="3">General</td>
             <td>MMLU (5-shot)</td>
-            <td>23.4</td>
-            <td><b>58.4</b></td>
-            <td>48.4</td>
-            <td>43.9</td>
         </tr>
         <tr>
             <td>MMLU-PRO (5-shot)</td>
-            <td>11.3</td>
-            <td><b>21.3</b></td>
-            <td>17.2</td>
             <td>18.6</td>
         </tr>
         <tr>
             <td>IFEval</td>
-            <td><b>55.8</b></td>
-            <td>44.4</td>
-            <td>53.0</td>
             <td>54.4</td>
         </tr>
         <tr>
             <td rowspan="3">Math</td>
             <td>GSM8K (5-shot)</td>
-            <td>37.4</td>
-            <td><b>57.2</b></td>
-            <td>43.4</td>
-            <td>38.6</td>
         </tr>
         <tr>
             <td>GSM8K (8-shot, COT)</td>
-            <td>35.6</td>
-            <td><b>62.2</b></td>
-            <td>47.2</td>
-            <td>41.8</td>
         </tr>
         <tr>
             <td>MATH Lvl-5 (4-shot)</td>
-            <td><b>3.9</b></td>
-            <td>0.2</td>
-            <td>0.1</td>
-            <td>1.0</td>
         </tr>
         <tr>
             <td rowspan="6">Reasoning</td>
             <td>Arc Challenge (25-shot)</td>
-            <td>34.1</td>
-            <td>47.0</td>
-            <td><b>47.6</b></td>
-            <td>45.9</td>
         </tr>
         <tr>
             <td>GPQA (0-shot)</td>
-            <td>25.3</td>
             <td><b>29.6</b></td>
-            <td>28.7</td>
             <td>26.5</td>
         </tr>
         <tr>
             <td>GPQA (0-shot, COT)</td>
             <td>13.2</td>
             <td>9.2</td>
-            <td>16.0</td>
             <td><b>21.3</b></td>
         </tr>
         <tr>
             <td>MUSR (0-shot)</td>
-            <td>32.4</td>
-            <td>36.8</td>
-            <td>33.0</td>
             <td><b>40.7</b></td>
         </tr>
         <tr>
             <td>BBH (3-shot)</td>
-            <td>30.3</td>
-            <td><b>38.5</b></td>
-            <td>33.1</td>
             <td>35.1</td>
         </tr>
-        <tr>
-            <td>BBH (3-shot, COT)</td>
-            <td>0.0</td>
-            <td>20.3</td>
-            <td>0.8</td>
-            <td><b>30.5</b></td>
-        </tr>
         <tr>
             <td rowspan="5">CommonSense Understanding</td>
             <td>PIQA (0-shot)</td>
             <td>72.1</td>
             <td>73.2</td>
             <td><b>74.4</b></td>
-            <td>72.0</td>
         </tr>
         <tr>
             <td>SciQ (0-shot)</td>
@@ -228,7 +221,7 @@ We report in the following table our internal pipeline benchmarks.
             <td>40.2</td>
             <td>40.4</td>
             <td><b>42.8</b></td>
-            <td>40.0</td>
         </tr>
         <tr>
             <td>MT-Bench (avg)</td>

         <tr>
             <td rowspan="3">General</td>
             <td>MMLU (5-shot)</td>
+            <td><b>68.2</b></td>
+            <td>59.8<</td>
+            <td>49.2</td>
+            <td>46.1</td>
         </tr>
         <tr>
             <td>MMLU-PRO (5-shot)</td>
+            <td>16</td>
+            <td><b>28.2</b></td>
+            <td>20</td>
             <td>18.6</td>
         </tr>
         <tr>
             <td>IFEval</td>
+            <td><b>55.3</b></td>
+            <td>44.2</td>
+            <td>53</td>
             <td>54.4</td>
         </tr>
         <tr>
             <td rowspan="3">Math</td>
             <td>GSM8K (5-shot)</td>
+            <td><b>82.6</b></td>
+            <td>57.8</td>
+            <td>47.6</td>
+            <td>43.9</td>
         </tr>
         <tr>
             <td>GSM8K (8-shot, COT)</td>
+            <td>46.6</td>
+            <td><b>58.8</b></td>
+            <td>46.3</td>
+            <td>45.8</td>
         </tr>
         <tr>
             <td>MATH Lvl-5 (4-shot)</td>
+            <td><b>5.2</b></td>
+            <td>1.1</td>
+            <td>3.1</td>
+            <td>1</td>
         </tr>
         <tr>
             <td rowspan="6">Reasoning</td>
             <td>Arc Challenge (25-shot)</td>
+            <td>58.6</td>
+            <td>50.7</td>
+            <td><b>49.7</b></td>
+            <td>47.7</td>
         </tr>
         <tr>
             <td>GPQA (0-shot)</td>
+            <td>24.4</td>
             <td><b>29.6</b></td>
+            <td>28.6</td>
             <td>26.5</td>
         </tr>
         <tr>
             <td>GPQA (0-shot, COT)</td>
             <td>13.2</td>
             <td>9.2</td>
+            <td>16</td>
             <td><b>21.3</b></td>
         </tr>
         <tr>
             <td>MUSR (0-shot)</td>
+            <td>32</td>
+            <td>36.5</td>
+            <td>32.9</td>
             <td><b>40.7</b></td>
         </tr>
         <tr>
             <td>BBH (3-shot)</td>
+            <td>33.8</td>
+            <td><b>39.2</b></td>
+            <td>34</td>
             <td>35.1</td>
         </tr>
         <tr>
             <td rowspan="5">CommonSense Understanding</td>
             <td>PIQA (0-shot)</td>
             <td>72.1</td>
             <td>73.2</td>
             <td><b>74.4</b></td>
+            <td>72</td>
         </tr>
         <tr>
             <td>SciQ (0-shot)</td>
             <td>40.2</td>
             <td>40.4</td>
             <td><b>42.8</b></td>
+            <td>40</td>
         </tr>
         <tr>
             <td>MT-Bench (avg)</td>