Skip to content

Clasificación de sitios de unión a factores de transcripción en bacterias usando técnicas de aprendizaje automático.

Notifications You must be signed in to change notification settings

IanPangDev/TFBS_Classifier

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

27 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

TFBS_Classifier

Clasificación de sitios de unión a factores de transcripción (TFBS) en bacterias mediante aprendizaje automático.

Introducción

La regulación génica en bacterias es un proceso esencial para su adaptación a diferentes condiciones ambientales. Uno de los principales mecanismos de regulación es la interacción entre factores de transcripción (TFs) y regiones específicas del ADN conocidas como sitios de unión a factores de transcripción (TFBS, por sus siglas en inglés).

Identificar estos sitios es un reto, ya que:

  • Son secuencias cortas (10–20 pb).
  • Presentan variabilidad en su contenido de nucleótidos.
  • Producen muchos falsos positivos con métodos tradicionales (como matrices de peso posición – PWMs).

El uso de técnicas de aprendizaje automático (ML) aplicadas a datos genómicos ofrece una alternativa poderosa para mejorar la predicción de TFBS.

Tecnologías

  • Python
  • MLflow (Gestión de experimentos)

Objetivo del Proyecto

Este repositorio contiene un pipeline para la clasificación automática de sitios de unión a factores de transcripción en bacterias, utilizando modelos de aprendizaje automático sobre datos reales. El flujo incluye:

  • Preprocesamiento de secuencias.
  • Extracción de características.
  • Entrenamiento y evaluación de modelos clasificadores.

Estructura del repositorio

  • src
    • evaluate_model.py (Evaluación de modelos entrenados)
    • preprocessing.py (Limpieza y transformación de datos)
    • train.py (Entrenamiento de modelos ML)
  • data
    • CollectTf (Archivos Fasta)
    • Regulon DB (Archivos Faa)
    • DiProGB.csv (Atributos biofísicos por par de nucleótidos)
  • data_analisis.ipynb (Exploración inicial de datos)
  • model_analisis.ipynb (Comparación y evaluación de modelos)
  • submit
    • entrega.ipynb (Notebook que subi al reto MeIA)
    • outputFinal.csv (Archivo que subi al Kaggle del reto MeIA)
  • output.ipynb (Notebook que genera el submit para kaggle)
  • output.csv (Archivo que genera output.ipynb)
  • mlruns (Registros de experimentos MLflow)

Modelos Entrenados

  • Random Forest
  • Decision Tree
  • XGBoost
  • CatBoost
  • LightGBM
  • Support Vector Machine
  • Neural Network (MLP)
  • K-Nearest Neighbors

Metrica de desempeño

Curva ROC de los modelos entrenados
Curva ROC de los modelos entrenados

Matriz de confusión y métricas generales
Matriz de confusión y métricas generales por modelo

About

Clasificación de sitios de unión a factores de transcripción en bacterias usando técnicas de aprendizaje automático.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published