simmediumeval_datasetmetric · varies

B3 Agent Security Benchmark Weak

Description

HuggingFace evaluation dataset: Lakera/b3-agent-security-benchmark-weak