Evaluations, Capabilities & Threat Modeling

Measuring autonomous capability, time horizons, and what rigorous eval suites try to capture.