英文文档解析效果很差，请问如何对模型进行微调？微调后需要改代码吗？ #172

aodingpeng · 2024-11-06T01:25:05Z

Description of the bug | 错误描述

模型在检测英文文档时很抽象，试过多个类似文档，有些区域会被错误检测为图片或者表格：

JSON格式：

原文件排版:

附上文件：
iec63138-2.pdf

How to reproduce the bug | 如何复现

请问如何自己微调？以及微调后是否需要更改代码？模型不太理想，想自己标注数据集然后进行训练，训练的标签等等应该是什么样的？能给个微调教程嘛

Operating system | 操作系统

Windows

Python version | Python 版本

3.10

Software version | 软件版本 (magic-pdf --version)

0.8.x

Device mode | 设备模式

cpu

aodingpeng · 2024-11-06T01:26:17Z

然后还想问问以及如何正确识别出这种类似选择题的数据？
eg：图片中的正方形实心或者打勾了的才是这个文档应该被解析的数据，而空心正方形的文本应该被丢弃。

myhloli · 2024-11-06T02:17:27Z

模型在检测英文文档时很抽象，试过多个类似文档，有些区域会被错误检测为图片或者表格：

第一个问题是模型识别问题，会帮你转到模型开发相关仓库，看看有没有解决方案。

eg：图片中的正方形实心或者打勾了的才是这个文档应该被解析的数据，而空心正方形的文本应该被丢弃。

第二个问题说实话比较困难，在把所有数据都提取出来的前提下，丢给llm做问答是不是可以实现？

aodingpeng · 2024-11-06T03:48:18Z

模型在检测英文文档时很抽象，试过多个类似文档，有些区域会被错误检测为图片或者表格：

第一个问题是模型识别问题，会帮你转到模型开发相关仓库，看看有没有解决方案。

eg：图片中的正方形实心或者打勾了的才是这个文档应该被解析的数据，而空心正方形的文本应该被丢弃。

第二个问题说实话比较困难，在把所有数据都提取出来的前提下，丢给llm做问答是不是可以实现？

我用的是minerU跑的，应该是布局识别有问题吧？我想知道如何自己打标签训练数据，应该参考哪个链接或者文档进行训练，以及训练完是否需要改很多代码呢？可以给个详细训练微调教程嘛

aodingpeng added the bug Something isn't working label Nov 6, 2024

myhloli transferred this issue from opendatalab/MinerU Nov 6, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

英文文档解析效果很差，请问如何对模型进行微调？微调后需要改代码吗？ #172

英文文档解析效果很差，请问如何对模型进行微调？微调后需要改代码吗？ #172

aodingpeng commented Nov 6, 2024

aodingpeng commented Nov 6, 2024

myhloli commented Nov 6, 2024

aodingpeng commented Nov 6, 2024

英文文档解析效果很差，请问如何对模型进行微调？微调后需要改代码吗？ #172

英文文档解析效果很差，请问如何对模型进行微调？微调后需要改代码吗？ #172

Comments

aodingpeng commented Nov 6, 2024

Description of the bug | 错误描述

How to reproduce the bug | 如何复现

Operating system | 操作系统

Python version | Python 版本

Software version | 软件版本 (magic-pdf --version)

Device mode | 设备模式

aodingpeng commented Nov 6, 2024

myhloli commented Nov 6, 2024

aodingpeng commented Nov 6, 2024