Neural Network Interpretability for Prisoner's Dilemma

A research project investigating how evolved artificial neural networks encode strategic concepts in game-theoretic interactions, with a focus on cooperation, retaliation, and forgiveness in the Prisoner's Dilemma. We evolve neural networks to play the Prisoner's Dilemma, then use mechanistic interpretability techniques to decode what strategic concepts each neuron represents.

Quick Start

# Environment setup
source venv/bin/activate
export OPENAI_API_KEY="your-api-key"

# Core analysis pipeline
./scripts/record_neurons.sh    # Record neuron activations against strategies
./scripts/gen_prompts.sh       # Generate GPT-4 interpretation prompts  
./scripts/gen_explanations.sh  # Obtain neuron-level interpretations

Methodology

Evolution: Train artificial neural networks using the Axelrod library to compete in Prisoner's Dilemma tournaments
Recording: Capture neuron activations during gameplay against canonical strategies (Tit-for-Tat, Always Cooperate, etc.)
Analysis: Apply weighted activation aggregation to identify feature-neuron correlations
Interpretation: Use GPT-4 to generate human-readable explanations of neuron behavior patterns

Repository Structure

├── ann_recorder.py           # Core recording module for neuron activations
├── generate_gpt_prompt.py    # Converts activation data to structured prompts
├── query.py                  # GPT-4 interface for neuron interpretations
├── utils.py                  # Visualization and analysis utilities
├── data/                     # Neural network parameters and activation data
│   ├── ann_*_params.csv     # Evolved network parameters (5-200 neurons)
│   ├── wa-*.pkl             # Weighted activation arrays
│   └── prompt-*.json        # Generated interpretation prompts
├── results/                  # GPT-4 explanations and analysis outputs
├── visuals/                  # Correlation heatmaps and visualizations
└── scripts/                  # Automated workflow scripts

Usage Examples

Single Network Analysis

# Record activations for 10-neuron network vs Tit-for-Tat
python3 ann_recorder.py data/ann_10_params.csv Tit_For_Tat

# Generate interpretation prompt
python3 generate_gpt_prompt.py data/prompt_header.txt data/wa-10-Tit_For_Tat.pkl data/prompt-10-Tit_For_Tat.json

# Obtain GPT-4 explanations
python3 query.py gpt-4 data/prompt-10-Tit_For_Tat.json results/explained-10-Tit_For_Tat.json

Feature Engineering

The system tracks 17 behavioral features during gameplay:

Opponent's first and second moves
Historical cooperation/defection counts
Round number and temporal patterns
Move sequences and strategic transitions
Boolean indicators (0-1) and continuous measures

Weighted activation analysis reveals which neurons preferentially fire in response to specific strategic contexts, enabling interpretation of their computational role.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Neural Network Interpretability for Prisoner's Dilemma

Quick Start

Methodology

Repository Structure

Usage Examples

Single Network Analysis

Feature Engineering

About

Uh oh!

Releases

Packages

Contributors 2

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
data		data
results		results
scripts		scripts
visuals		visuals
.gitignore		.gitignore
Objectives-and-Experiments.pdf		Objectives-and-Experiments.pdf
README.md		README.md
ann_recorder.py		ann_recorder.py
decode_params.py		decode_params.py
generate_gpt_prompt.py		generate_gpt_prompt.py
metrics.py		metrics.py
query.py		query.py
utils.py		utils.py

idilks/IPD-Interp

Folders and files

Latest commit

History

Repository files navigation

Neural Network Interpretability for Prisoner's Dilemma

Quick Start

Methodology

Repository Structure

Usage Examples

Single Network Analysis

Feature Engineering

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Uh oh!

Languages

Packages