LLM Jailbreaking

Bypassing AI safeguards to trigger forbidden outputs

LegalModelsRiskSecurity

Updated 2 May 2025

Definition

A technique to bypass safeguards in language models, often to trigger forbidden or unsafe outputs. Prompting a model with adversarial instructions to discuss illegal activities.

All Terms

LLM Hyperparameters

LLM Quality Assurance