用户9178
用户4924测试集难度N | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
Openai-o1-1217 | 0.83 | 0.51 | 0.38 | 0.38 | 0.35 | 0.30 | 0.20 |
GPT-4o | 0.68 | 0.57 | 0.49 | 0.32 | 0.23 | 0.21 | 0.11 |
Deepseek-Math-7B | 0.35 | 0.21 | 0.08 | 0.06 | 0.02 | 0.00 | 0.00 |
Ours(7B) | 0.68 | 0.59 | 0.44 | 0.34 | 0.22 | 0.16 | 0.15 |