AI Safety & Interpretability Lab

non-profit

https://aisilab.github.io/

AI & ML interests

Interpretability-informed control

Recent Activity

EvilScript updated a dataset 4 days ago

aisilab/moltbook-files

lgalke authored a paper about 2 months ago

The Arbiter Agent: Continually Monitoring Multi-Agent Conversations to Detect Emergent Misalignment

EvilScript authored a paper about 2 months ago

The Arbiter Agent: Continually Monitoring Multi-Agent Conversations to Detect Emergent Misalignment

View all activity

Papers

Emergent Languages in Populations of Language Model Agents: From Token Efficiency to Oversight Evasion

Confidence and Calibration of Activation Oracles for Reliable Interpretation of Language Model Internals

View all Papers

aisilab 's datasets 3

aisilab/moltbook-files

Viewer • Updated 4 days ago • 232k • 52

aisilab/MoltSpeech

Viewer • Updated Jun 2 • 518 • 159

aisilab/moltbook-embeddings

Viewer • Updated May 5 • 189k • 57