Projeto desenvolvido como parte do desafio DengAI: Predicting Disease Spread. O objetivo foi prever o número semanal de casos de dengue em duas cidades tropicais — San Juan (Porto Rico) e Iquitos (Peru) — utilizando dados climáticos, ambientais e temporais.
Fornecidos pela DrivenData, os dados incluem:
- Características ambientais e climáticas por semana
- Número de casos registrados por cidade
- Informações de NDVI (índice de vegetação), temperatura, precipitação, umidade e mais
As cidades analisadas são:
- 📍 San Juan (sj) — Hemisfério Norte
- 📍 Iquitos (iq) — Hemisfério Sul
Inicialmente, foram inspecionadas as colunas, tipos de dados e valores ausentes. A seguir, iniciamos a exploração visual das variáveis por cidade.
Identificamos estações seca e chuvosa para cada cidade:
- San Juan: estação chuvosa de maio a novembro
- Iquitos: estação chuvosa de novembro a abril
- NDVI médio: média das quatro direções (NE, NW, SE, SW)
- Dias secos: dias com precipitação < 1mm
- Defasagens (lags): de 1 a 9 semanas para todas as variáveis ambientais
- Season: uma variável para representar as estações do ano para cada cidade
Fiz um gráfico como esse para cada variável proposta para o problema, para visualizar a correlação linear delas com o número de casos.
Foi utilizado o modelo Random Forest Regressor, com divisão temporal 80/20 para treino e teste. O modelo foi palicado separadamente para cada cidade.
As variáveis foram escolhidas com base na correlação com total_cases e na interpretação climatológica. Algumas selecionadas:
reanalysis_specific_humidity_g_per_kg_lag6reanalysis_dew_point_temp_k_lag6reanalysis_relative_humidity_percent_lag6station_avg_temp_c_lag6reanalysis_air_temp_k_lag6reanalysis_avg_temp_k_lag6dry_days(sem defasagem)season(variável categórica)
reanalysis_specific_humidity_g_per_kg_lag6reanalysis_dew_point_temp_k_lag6reanalysis_air_temp_k_lag6reanalysis_avg_temp_k_lag6dry_days(sem defasagem)season(variável categórica)
| Cidade | MAE | MAE Normalizado | RMSE | RMSE Normalizado |
|---|---|---|---|---|
| San Juan | 21.02 | 0.831 | 28.74 | 1.137 |
| Iquitos | 7.88 | 0.909 | 11.61 | 1.338 |
- Iquitos apresentou melhores resultados com menos variabilidade de casos
- O uso de lags permitiu capturar dinâmicas epidemiológicas relevantes
- A combinação de temperatura e umidade foi particularmente significativa em ambas as cidades
- O modelo ainda apresenta potencial de melhoria, especialmente em San Juan
- Testar outros modelos (LSTM, XGBoost)
- Modelar separadamente para cada cidade
- Incluir mais dados externos (mobilidade, campanhas públicas etc.)
Este projeto foi desenvolvido no contexto do Desafio DengAI, utilizando Python, pandas, seaborn e scikit-learn.