这是一个多模态数据处理项目,支持处理PDF、TXT、DOC文档以及PNG、JPG等图片格式文件。项目使用本地部署的Qwen2.5-vl-72b等多模态模型来提取图片中的文本内容。
- 支持多种文件格式:PDF、TXT、DOC、PNG、JPG
- 多模态模型集成:支持Qwen2.5-vl-72b等本地部署模型
- 文本提取:从图片中提取文本内容
- 异步处理:支持批量文件处理
- 模块化设计:处理逻辑与模型服务分离
DataProcessing/
├── src/ # 源代码目录
│ ├── processors/ # 文件处理器
│ ├── models/ # 模型接口
│ ├── utils/ # 工具函数
│ └── main.py # 主程序入口
├── config/ # 配置文件
├── data/ # 数据目录
│ ├── input/ # 输入文件
│ └── output/ # 输出结果
├── logs/ # 日志文件
├── tests/ # 测试文件
├── requirements.txt # 依赖包
└── README.md # 项目说明
pip install -r requirements.txtpython src/main.py --input data/input --output data/output在 config/settings.yaml 中配置模型服务地址和其他参数。
- 确保本地多模态模型服务已启动
- 输入文件请放置在
data/input目录 - 处理结果将保存在
data/output目录