Conversor automatizado de documentos (PDF, Excel, Word, HTML) para Markdown usando Docling.
- 📑 Converte
.pdf,.xls,.xlsx,.docx,.html→ Markdown - 🔄 Processamento em lote
- 🔢 Preserva formatação numérica (sem notação científica)
- ⚡ Otimizações de performance (2-5x mais rápido)
- 📊 Relatórios detalhados
# Instalar uv
curl -LsSf https://astral.sh/uv/install.sh | sh
# Instalar projeto
git clone https://github.com/seu-usuario/docling-converter.git
cd docling-converter
uv sync
# Configurar paths em config/config.py
# Usar
python main.py nome_da_pasta- Instalação - Setup completo e requisitos
- Configuração - Otimizações de performance
- Uso - Exemplos e troubleshooting
- Estrutura - Arquitetura do projeto
| Configuração | Speedup | Uso |
|---|---|---|
| pypdfium2 backend | 2-5x | PDFs grandes |
| Sem OCR | 3-5x | PDFs simples |
| Otimizado (pypdfium2 + sem tabelas/OCR) | 5-10x | Processamento massivo |
Veja docs/CONFIGURACAO.md para detalhes.
# Processar uma pasta
python main.py relatorios_2024
# Uso programático
python
>>> from src.core_converter import converter
>>> converter("/entrada", "/saida")
(3, 0) # 3 sucessos, 0 falhas- Python 3.8+
- uv (gerenciador de pacotes)
- Bibliotecas: docling, pandas, xlrd, openpyxl
docling-converter/
├── main.py # Script principal
├── config/ # Configurações
├── src/ # Código fonte
├── docs/ # Documentação detalhada
└── examples/ # Exemplos de uso
Veja docs/ESTRUTURA.md para detalhes completos.
Contribuições são bem-vindas! Veja o código de conduta e guidelines no repositório.
MIT License - veja LICENSE para detalhes.