Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

英文文档解析效果很差,请问如何对模型进行微调?微调后需要改代码吗? #172

Open
aodingpeng opened this issue Nov 6, 2024 · 3 comments
Labels
bug Something isn't working

Comments

@aodingpeng
Copy link

Description of the bug | 错误描述

模型在检测英文文档时很抽象,试过多个类似文档,有些区域会被错误检测为图片或者表格:
image

JSON格式:
image

原文件排版:
image

附上文件:
iec63138-2.pdf

How to reproduce the bug | 如何复现

请问如何自己微调?以及微调后是否需要更改代码?模型不太理想,想自己标注数据集然后进行训练,训练的标签等等应该是什么样的?能给个微调教程嘛

Operating system | 操作系统

Windows

Python version | Python 版本

3.10

Software version | 软件版本 (magic-pdf --version)

0.8.x

Device mode | 设备模式

cpu

@aodingpeng aodingpeng added the bug Something isn't working label Nov 6, 2024
@aodingpeng
Copy link
Author

然后还想问问以及如何正确识别出这种类似选择题的数据?
eg:图片中的正方形实心或者打勾了的才是这个文档应该被解析的数据,而空心正方形的文本应该被丢弃。
image
image
image

@myhloli
Copy link
Collaborator

myhloli commented Nov 6, 2024

模型在检测英文文档时很抽象,试过多个类似文档,有些区域会被错误检测为图片或者表格:

第一个问题是模型识别问题,会帮你转到模型开发相关仓库,看看有没有解决方案。

eg:图片中的正方形实心或者打勾了的才是这个文档应该被解析的数据,而空心正方形的文本应该被丢弃。

第二个问题说实话比较困难,在把所有数据都提取出来的前提下,丢给llm做问答是不是可以实现?

@myhloli myhloli transferred this issue from opendatalab/MinerU Nov 6, 2024
@aodingpeng
Copy link
Author

模型在检测英文文档时很抽象,试过多个类似文档,有些区域会被错误检测为图片或者表格:

第一个问题是模型识别问题,会帮你转到模型开发相关仓库,看看有没有解决方案。

eg:图片中的正方形实心或者打勾了的才是这个文档应该被解析的数据,而空心正方形的文本应该被丢弃。

第二个问题说实话比较困难,在把所有数据都提取出来的前提下,丢给llm做问答是不是可以实现?

我用的是minerU跑的,应该是布局识别有问题吧?我想知道如何自己打标签训练数据,应该参考哪个链接或者文档进行训练,以及训练完是否需要改很多代码呢?可以给个详细训练微调教程嘛

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
bug Something isn't working
Projects
None yet
Development

No branches or pull requests

2 participants