Clasificación de sitios de unión a factores de transcripción (TFBS) en bacterias mediante aprendizaje automático.
La regulación génica en bacterias es un proceso esencial para su adaptación a diferentes condiciones ambientales. Uno de los principales mecanismos de regulación es la interacción entre factores de transcripción (TFs) y regiones específicas del ADN conocidas como sitios de unión a factores de transcripción (TFBS, por sus siglas en inglés).
Identificar estos sitios es un reto, ya que:
- Son secuencias cortas (10–20 pb).
- Presentan variabilidad en su contenido de nucleótidos.
- Producen muchos falsos positivos con métodos tradicionales (como matrices de peso posición – PWMs).
El uso de técnicas de aprendizaje automático (ML) aplicadas a datos genómicos ofrece una alternativa poderosa para mejorar la predicción de TFBS.
- Python
- MLflow (Gestión de experimentos)
Este repositorio contiene un pipeline para la clasificación automática de sitios de unión a factores de transcripción en bacterias, utilizando modelos de aprendizaje automático sobre datos reales. El flujo incluye:
- Preprocesamiento de secuencias.
- Extracción de características.
- Entrenamiento y evaluación de modelos clasificadores.
- src
- evaluate_model.py (Evaluación de modelos entrenados)
- preprocessing.py (Limpieza y transformación de datos)
- train.py (Entrenamiento de modelos ML)
- data
- CollectTf (Archivos Fasta)
- Regulon DB (Archivos Faa)
- DiProGB.csv (Atributos biofísicos por par de nucleótidos)
- data_analisis.ipynb (Exploración inicial de datos)
- model_analisis.ipynb (Comparación y evaluación de modelos)
- submit
- entrega.ipynb (Notebook que subi al reto MeIA)
- outputFinal.csv (Archivo que subi al Kaggle del reto MeIA)
- output.ipynb (Notebook que genera el submit para kaggle)
- output.csv (Archivo que genera output.ipynb)
- mlruns (Registros de experimentos MLflow)
- Random Forest
- Decision Tree
- XGBoost
- CatBoost
- LightGBM
- Support Vector Machine
- Neural Network (MLP)
- K-Nearest Neighbors

