simmediumrlmetric · varies

Pencil Puzzle Bench: A Benchmark for Multi-Step Verifiable Reasoning

Description

We introduce Pencil Puzzle Bench, a framework for evaluating large language model reasoning through pencil puzzles, a family of constraint-satisfaction problems closely related to NP-complete problems, with deterministic, step-level verification. From a database of 62,231 puzzles across 94 varieties with verified unique solutions, we select a benchmark of 300 puzzles spanning 20 varieties and evaluate 51 models from 11 providers in two modes: direct ask (single-shot) and agentic (multi-turn with

Source

http://arxiv.org/abs/2603.02119v1