O TelecomX é um projeto completo de Machine Learning focado na previsão de evasão de clientes (churn) em uma empresa de telecomunicações. Utilizando técnicas avançadas de ciência de dados, o projeto desenvolve modelos preditivos capazes de identificar clientes com alto risco de cancelamento, permitindo ações proativas de retenção.
Com uma taxa de evasão atual de 25.72%, a empresa precisa identificar os fatores que mais influenciam o cancelamento de serviços e desenvolver estratégias eficazes de retenção de clientes.
- 4 modelos de machine learning desenvolvidos e avaliados
- Melhor modelo: Regressão Logística com F1-Score de 0.5795
- Principais fatores de churn identificados:
- Tempo como cliente (fator de proteção)
- Tipo de internet Fiber Optic (fator de risco)
- Custo total (fator de risco)
- Python 3.8+
- Pandas - Manipulação de dados
- NumPy - Operações numéricas
- Scikit-learn - Machine Learning
- Seaborn/Matplotlib - Visualizações
- Warnings - Controle de avisos
- Regressão Logística ⭐ (Melhor performance)
- Random Forest
- K-Nearest Neighbors (KNN)
- Support Vector Machine (SVM)
TelecomX/
├── README.md # Documentação do projeto
├── TelecomX_parte2.ipynb # Notebook principal com análises
├── dados_limpos.csv # Dataset processado
- Limpeza e tratamento de dados ausentes
- Conversão de variáveis categóricas (One-Hot Encoding)
- Normalização de dados para modelos sensíveis à escala
- Criação de variáveis derivadas (
contas_diarias)
- Análise de correlações entre variáveis
- Visualizações estatísticas avançadas
- Identificação de padrões de comportamento
- Análise da distribuição de churn
- Pipeline completo de Machine Learning
- Validação cruzada estratificada (70/30)
- Avaliação robusta com múltiplas métricas:
- Accuracy, Precision, Recall, F1-Score
- Matrizes de confusão
- Análise de overfitting/underfitting
- Importância das features (Random Forest)
- Análise de coeficientes (Regressão Logística)
- Insights estratégicos para tomada de decisão
- Fibra Óptica: Clientes com internet fibra têm maior propensão ao cancelamento
- Alto Custo Total: Clientes que gastam mais tendem a cancelar
- Método de Pagamento: Cheque eletrônico aumenta risco
- Tempo de Relacionamento: Clientes antigos são mais fiéis
- Contratos de 2 anos: Maior estabilidade
- Múltiplos Serviços: Clientes com mais serviços cancelam menos
pip install pandas numpy scikit-learn seaborn matplotlib- Clone o repositório
- Abra o notebook
TelecomX_parte2.ipynb - Execute as células sequencialmente
- Analise os resultados e visualizações
| Modelo | Accuracy | Precision | Recall | F1-Score |
|---|---|---|---|---|
| Regressão Logística ⭐ | 0.8010 | 0.6348 | 0.5330 | 0.5795 |
| Random Forest | 0.7762 | 0.5867 | 0.4403 | 0.5031 |
| KNN | 0.7634 | 0.5455 | 0.4813 | 0.5114 |
| SVM | 0.7937 | 0.6300 | 0.4795 | 0.5445 |
- Taxa atual de churn: 25.72%
- Potencial de identificação: 58% dos casos de churn
- ROI esperado: Redução significativa na perda de clientes
- Programas de fidelidade para clientes novos (< 12 meses)
- Revisão de preços para serviços de fibra óptica
- Incentivos para contratos de longo prazo
- Melhoria nos métodos de pagamento
Contribuições são bem-vindas! Sinta-se à vontade para:
- Reportar bugs
- Sugerir melhorias
- Adicionar novas funcionalidades
- Otimizar algoritmos