Editing a classifier by rewriting its prediction rules

Santurkar, Shibani; Tsipras, Dimitris; Elango, Mahalaxmi; Bau, David; Torralba, Antonio; Madry, Aleksander

Editing a classifier by rewriting its prediction rules

Part of Advances in Neural Information Processing Systems 34 (NeurIPS 2021)

Bibtex Paper Reviews And Public Comment » Supplemental

Authors

Shibani Santurkar, Dimitris Tsipras, Mahalaxmi Elango, David Bau, Antonio Torralba, Aleksander Madry

Abstract

We propose a methodology for modifying the behavior of a classifier by directly rewriting its prediction rules. Our method requires virtually no additional data collection and can be applied to a variety of settings, including adapting a model to new environments, and modifying it to ignore spurious features.

Editing a classifier by rewriting its prediction rules

Authors

Abstract

Name Change Policy