CLE Peptide Discovery Pipeline

An AI-driven pipeline for the identification of CLE signaling peptides in plant proteomes using protein language model embeddings.

Overview

This pipeline leverages state-of-the-art Protein Language Models (ESM2 and ProtT5) to discover novel CLE peptides directly from plant proteomes. By coupling evolutionary-scale sequence embeddings with unsupervised clustering and supervised machine learning, this dual-model approach captures deep semantic features of the CLE family that escape traditional sequence alignment methods.

Pipeline Architecture

Step 1: Embedding extraction (ESM2 + ProtT5):
- Embeddings_ESM2.py
- Embeddings_T5.py
Step 2: Clustering analysis:
- Cluster_maps.py
Step 3: XGBoost training:
- XGB_training.py
Step 4: XGBoost cluster prediction:
- Cluster_prediction.py
Step 5: Sequence extraction:
- Sequence_MEME_analysis.py
- extract_all_candidates.py (candidates ≥ 0.5) → optional

Visualization

Bokeh_visualization_positives.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

CLE Peptide Discovery Pipeline

Overview

Pipeline Architecture

Visualization

About

Uh oh!

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 60 Commits
Data		Data
Results		Results
Visualization		Visualization
Cluster_maps.py		Cluster_maps.py
Cluster_prediction.py		Cluster_prediction.py
Embeddings_ESM2.py		Embeddings_ESM2.py
Embeddings_T5.py		Embeddings_T5.py
README.md		README.md
Sequence_MEME_analysis.py		Sequence_MEME_analysis.py
XGB_training.py		XGB_training.py
extract_all_candidates.py		extract_all_candidates.py

sales-lab/uncleash

Folders and files

Latest commit

History

Repository files navigation

CLE Peptide Discovery Pipeline

Overview

Pipeline Architecture

Visualization

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages