Skip to content

Conversor automatizado de documentos (PDF, Excel, Word, HTML) para Markdown usando Docling.

License

Notifications You must be signed in to change notification settings

victorgrein/doclingTemplate

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

📄 Docling Converter

Python License Docling

Conversor automatizado de documentos (PDF, Excel, Word, HTML) para Markdown usando Docling.

✨ Funcionalidades

  • 📑 Converte .pdf, .xls, .xlsx, .docx, .html → Markdown
  • 🔄 Processamento em lote
  • 🔢 Preserva formatação numérica (sem notação científica)
  • ⚡ Otimizações de performance (2-5x mais rápido)
  • 📊 Relatórios detalhados

🚀 Quick Start

# Instalar uv
curl -LsSf https://astral.sh/uv/install.sh | sh

# Instalar projeto
git clone https://github.com/seu-usuario/docling-converter.git
cd docling-converter
uv sync

# Configurar paths em config/config.py
# Usar
python main.py nome_da_pasta

📚 Documentação

📊 Performance

Configuração Speedup Uso
pypdfium2 backend 2-5x PDFs grandes
Sem OCR 3-5x PDFs simples
Otimizado (pypdfium2 + sem tabelas/OCR) 5-10x Processamento massivo

Veja docs/CONFIGURACAO.md para detalhes.

💻 Exemplo de Uso

# Processar uma pasta
python main.py relatorios_2024

# Uso programático
python
>>> from src.core_converter import converter
>>> converter("/entrada", "/saida")
(3, 0)  # 3 sucessos, 0 falhas

🛠️ Requisitos

  • Python 3.8+
  • uv (gerenciador de pacotes)
  • Bibliotecas: docling, pandas, xlrd, openpyxl

📁 Estrutura

docling-converter/
├── main.py              # Script principal
├── config/              # Configurações
├── src/                 # Código fonte
├── docs/                # Documentação detalhada
└── examples/            # Exemplos de uso

Veja docs/ESTRUTURA.md para detalhes completos.

🤝 Contribuindo

Contribuições são bem-vindas! Veja o código de conduta e guidelines no repositório.

📝 Licença

MIT License - veja LICENSE para detalhes.

🔗 Links


About

Conversor automatizado de documentos (PDF, Excel, Word, HTML) para Markdown usando Docling.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages