run_project.py #158

lyc728 · 2024-10-23T12:56:38Z

你好想问下有没有整体流程的测试，同时问下run_project.py这个脚本是干嘛用的

wufan-tb · 2024-10-24T03:33:59Z

这个是pdf 2markdown的脚本，是综合使用布局检测，公式检测，公式识别等任务，提取pdf并转换为markdown，具体可以参考教程文档https://pdf-extract-kit.readthedocs.io/zh-cn/latest/project/pdf_extract.html

lyc728 · 2024-10-24T08:32:12Z

有没有不需要将这4个组装一起的脚本呢？暂时用不到公式检测和公式识别

lyc728 · 2024-10-25T02:15:36Z

生成的md会把文本拼接一起没有段落了

wufan-tb · 2024-10-25T03:05:49Z

更准确的拼接可以参考MinerU，后处理的逻辑比Kit的要复杂些，效果也更好。

lyc728 · 2024-10-29T03:06:23Z

现在百度新增了版面区域检测模型，这边有打算接入的可能吗？

Provide feedback