[go: nahoru, domu]

Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[Question]: 请问当前有文本生成的模型能满足报告生成的需求吗? #4936

Open
jiweizhangxu opened this issue Feb 22, 2023 · 10 comments
Assignees
Labels
question Further information is requested triage

Comments

@jiweizhangxu
Copy link

请提出你的问题

输入:客观的利用下面的信息写一篇150字卫生防疫的报告,必须以“本报告显示”开头,必须写出各个事件件数。地点:火星市水星区。重点:疾病预防控制199件,保健食品化妆品管理682件,健康证1867件,突发公共卫生事件处理119件。希望的解决方式:请相关部门尽快落实处理,部门核查。

输出:本报告显示,在火星市水星区发现疾病预防控制199件,保健食品化妆品管理682件,健康证1867件,突发公共卫生事件处理119件。因此,相关部门应尽快落实处理,并对相关部门进行核查。因此,有必要加强疾病预防控制,控制保健食品化妆品的管理,加强对健康证的管理,以及及时处理突发公共卫生事件,做好预防及应急处置工作,以确保公众的健康安全。

能生成上述这一种即可,希望能小样本微调

@jiweizhangxu jiweizhangxu added the question Further information is requested label Feb 22, 2023
@LemonNoel
Copy link
Contributor

可以尝试下文心模型教程,其中app key申请

@jiweizhangxu
Copy link
Author

可以尝试下文心模型教程,其中app key申请

您好,我需要模型,能进行离线化微调的,请问有相关模型吗?

@wawltor
Copy link
Collaborator
wawltor commented Feb 23, 2023

目前生成模型如果具备比较好的小样本的能力,模型参数需要一定级别;如果可以制作充足的样本可以T5相关模型进行相关工作,可以参考 https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/question_generation/t5

@jiweizhangxu
Copy link
Author

您好,我能提供的训练数据大概就500左右,您提供的这个T5模型好像只能适应英文训练集吧?现在中文模型还没有能满足我这个需求然后微调的吗?

@wawltor
Copy link
Collaborator
wawltor commented Feb 23, 2023

您好,我能提供的训练数据大概就500左右,您提供的这个T5模型好像只能适应英文训练集吧?现在中文模型还没有能满足我这个需求然后微调的吗?

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/question_generation/unimo-text 可以试试这个,不确定500条样本是否足够,需要尝试

@jiweizhangxu
Copy link
Author

您好,我能提供的训练数据大概就500左右,您提供的这个T5模型好像只能适应英文训练集吧?现在中文模型还没有能满足我这个需求然后微调的吗?

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/question_generation/unimo-text 可以试试这个,不确定500条样本是否足够,需要尝试

那数据集样式该怎么定义呢?因为该案例只有问题生成的数据样式,我的需求应该不太好构建

@wawltor
Copy link
Collaborator
wawltor commented Feb 23, 2023

您好,我能提供的训练数据大概就500左右,您提供的这个T5模型好像只能适应英文训练集吧?现在中文模型还没有能满足我这个需求然后微调的吗?

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/question_generation/unimo-text 可以试试这个,不确定500条样本是否足够,需要尝试

那数据集样式该怎么定义呢?因为该案例只有问题生成的数据样式,我的需求应该不太好构建

一样的数据构造方式,都是生成数据格式,只是数据内容不一样

@jiweizhangxu
Copy link
Author

您好,我能提供的训练数据大概就500左右,您提供的这个T5模型好像只能适应英文训练集吧?现在中文模型还没有能满足我这个需求然后微调的吗?

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/question_generation/unimo-text 可以试试这个,不确定500条样本是否足够,需要尝试

那数据集样式该怎么定义呢?因为该案例只有问题生成的数据样式,我的需求应该不太好构建

一样的数据构造方式,都是生成数据格式,只是数据内容不一样

明白,这种形式就可以吗?
{
"context": "地点:火星市水星区。重点:疾病预防控制199件,保健食品化妆品管理682件,健康证1867件,突发公共卫生事件处理119件。希望的解决方式:请相关部门尽快落实处理,部门核查。",
"answer": "客观的利用下面的信息写一篇150字卫生防疫的报告,必须以“本报告显示”开头,必须写出各个事件件数。",
"question": "本报告显示,在火星市水星区发现疾病预防控制199件,保健食品化妆品管理682件,健康证1867件,突发公共卫生事件处理119件。因此,相关部门应尽快落实处理,并对相关部门进行核查。因此,有必要加强疾病预防控制,控制保健食品化妆品的管理,加强对健康证的管理,以及及时处理突发公共卫生事件,做好预防及应急处置工作,以确保公众的健康安全。",
}

@wawltor
Copy link
Collaborator
wawltor commented Feb 28, 2023

您好,我能提供的训练数据大概就500左右,您提供的这个T5模型好像只能适应英文训练集吧?现在中文模型还没有能满足我这个需求然后微调的吗?

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/question_generation/unimo-text 可以试试这个,不确定500条样本是否足够,需要尝试

那数据集样式该怎么定义呢?因为该案例只有问题生成的数据样式,我的需求应该不太好构建

一样的数据构造方式,都是生成数据格式,只是数据内容不一样

明白,这种形式就可以吗? { "context": "地点:火星市水星区。重点:疾病预防控制199件,保健食品化妆品管理682件,健康证1867件,突发公共卫生事件处理119件。希望的解决方式:请相关部门尽快落实处理,部门核查。", "answer": "客观的利用下面的信息写一篇150字卫生防疫的报告,必须以“本报告显示”开头,必须写出各个事件件数。", "question": "本报告显示,在火星市水星区发现疾病预防控制199件,保健食品化妆品管理682件,健康证1867件,突发公共卫生事件处理119件。因此,相关部门应尽快落实处理,并对相关部门进行核查。因此,有必要加强疾病预防控制,控制保健食品化妆品的管理,加强对健康证的管理,以及及时处理突发公共卫生事件,做好预防及应急处置工作,以确保公众的健康安全。", }

如果是问题生成是可以的,如果是其他生成模式,只要是输入一段文本,输出是另外一段文本即可,生成的数据比较简单,需要看一下数据处理逻辑

@jiweizhangxu
Copy link
Author

您好,我能提供的训练数据大概就500左右,您提供的这个T5模型好像只能适应英文训练集吧?现在中文模型还没有能满足我这个需求然后微调的吗?

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/question_generation/unimo-text 可以试试这个,不确定500条样本是否足够,需要尝试

那数据集样式该怎么定义呢?因为该案例只有问题生成的数据样式,我的需求应该不太好构建

一样的数据构造方式,都是生成数据格式,只是数据内容不一样

明白,这种形式就可以吗? { "context": "地点:火星市水星区。重点:疾病预防控制199件,保健食品化妆品管理682件,健康证1867件,突发公共卫生事件处理119件。希望的解决方式:请相关部门尽快落实处理,部门核查。", "answer": "客观的利用下面的信息写一篇150字卫生防疫的报告,必须以“本报告显示”开头,必须写出各个事件件数。", "question": "本报告显示,在火星市水星区发现疾病预防控制199件,保健食品化妆品管理682件,健康证1867件,突发公共卫生事件处理119件。因此,相关部门应尽快落实处理,并对相关部门进行核查。因此,有必要加强疾病预防控制,控制保健食品化妆品的管理,加强对健康证的管理,以及及时处理突发公共卫生事件,做好预防及应急处置工作,以确保公众的健康安全。", }

如果是问题生成是可以的,如果是其他生成模式,只要是输入一段文本,输出是另外一段文本即可,生成的数据比较简单,需要看一下数据处理逻辑

要篡改的数据加载代码位置能给个参考吗?我也希望尽量是{"input":"","output":""}这种数据形式,要是很难改的话上述这种问题生成的数据形式模型能学习到也可以。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
question Further information is requested triage
Projects
None yet
Development

No branches or pull requests

3 participants