Skip to content

IaiaLS/DengueAI

Repository files navigation

🦟 DengAI: Predição de Casos de Dengue

Projeto desenvolvido como parte do desafio DengAI: Predicting Disease Spread. O objetivo foi prever o número semanal de casos de dengue em duas cidades tropicais — San Juan (Porto Rico) e Iquitos (Peru) — utilizando dados climáticos, ambientais e temporais.


📁 Estrutura dos Dados

Fornecidos pela DrivenData, os dados incluem:

  • Características ambientais e climáticas por semana
  • Número de casos registrados por cidade
  • Informações de NDVI (índice de vegetação), temperatura, precipitação, umidade e mais

As cidades analisadas são:

  • 📍 San Juan (sj) — Hemisfério Norte
  • 📍 Iquitos (iq) — Hemisfério Sul

🔍 Análise Exploratória

Inicialmente, foram inspecionadas as colunas, tipos de dados e valores ausentes. A seguir, iniciamos a exploração visual das variáveis por cidade.

🗓️ Sazonalidade

Identificamos estações seca e chuvosa para cada cidade:

  • San Juan: estação chuvosa de maio a novembro
  • Iquitos: estação chuvosa de novembro a abril
image

🌿 Engenharia de Variáveis

🧪 Variáveis Criadas

  • NDVI médio: média das quatro direções (NE, NW, SE, SW)
  • Dias secos: dias com precipitação < 1mm
  • Defasagens (lags): de 1 a 9 semanas para todas as variáveis ambientais
  • Season: uma variável para representar as estações do ano para cada cidade
image image image image image

Fiz um gráfico como esse para cada variável proposta para o problema, para visualizar a correlação linear delas com o número de casos.


🧠 Modelagem

Foi utilizado o modelo Random Forest Regressor, com divisão temporal 80/20 para treino e teste. O modelo foi palicado separadamente para cada cidade.

🔧 Seleção de Variáveis

As variáveis foram escolhidas com base na correlação com total_cases e na interpretação climatológica. Algumas selecionadas:

📍 San Juan

  • reanalysis_specific_humidity_g_per_kg_lag6
  • reanalysis_dew_point_temp_k_lag6
  • reanalysis_relative_humidity_percent_lag6
  • station_avg_temp_c_lag6
  • reanalysis_air_temp_k_lag6
  • reanalysis_avg_temp_k_lag6
  • dry_days (sem defasagem)
  • season (variável categórica)

📍 Iquitos

  • reanalysis_specific_humidity_g_per_kg_lag6
  • reanalysis_dew_point_temp_k_lag6
  • reanalysis_air_temp_k_lag6
  • reanalysis_avg_temp_k_lag6
  • dry_days (sem defasagem)
  • season (variável categórica)

📊 Avaliação

Cidade MAE MAE Normalizado RMSE RMSE Normalizado
San Juan 21.02 0.831 28.74 1.137
Iquitos 7.88 0.909 11.61 1.338
image image

🧭 Considerações Finais

  • Iquitos apresentou melhores resultados com menos variabilidade de casos
  • O uso de lags permitiu capturar dinâmicas epidemiológicas relevantes
  • A combinação de temperatura e umidade foi particularmente significativa em ambas as cidades
  • O modelo ainda apresenta potencial de melhoria, especialmente em San Juan

📌 Possíveis Extensões

  • Testar outros modelos (LSTM, XGBoost)
  • Modelar separadamente para cada cidade
  • Incluir mais dados externos (mobilidade, campanhas públicas etc.)

📎 Referência

Este projeto foi desenvolvido no contexto do Desafio DengAI, utilizando Python, pandas, seaborn e scikit-learn.

About

resolução do desafio https://www.drivendata.org/competitions/44/dengai-predicting-disease-spread/ usando Regressão com Floresta aleatória

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages