-
Notifications
You must be signed in to change notification settings - Fork 2.9k
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
[Question]: 请问当前有文本生成的模型能满足报告生成的需求吗? #4936
Comments
目前生成模型如果具备比较好的小样本的能力,模型参数需要一定级别;如果可以制作充足的样本可以T5相关模型进行相关工作,可以参考 https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/question_generation/t5 |
您好,我能提供的训练数据大概就500左右,您提供的这个T5模型好像只能适应英文训练集吧?现在中文模型还没有能满足我这个需求然后微调的吗? |
https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/question_generation/unimo-text 可以试试这个,不确定500条样本是否足够,需要尝试 |
那数据集样式该怎么定义呢?因为该案例只有问题生成的数据样式,我的需求应该不太好构建 |
一样的数据构造方式,都是生成数据格式,只是数据内容不一样 |
明白,这种形式就可以吗? |
如果是问题生成是可以的,如果是其他生成模式,只要是输入一段文本,输出是另外一段文本即可,生成的数据比较简单,需要看一下数据处理逻辑 |
要篡改的数据加载代码位置能给个参考吗?我也希望尽量是{"input":"","output":""}这种数据形式,要是很难改的话上述这种问题生成的数据形式模型能学习到也可以。 |
请提出你的问题
输入:客观的利用下面的信息写一篇150字卫生防疫的报告,必须以“本报告显示”开头,必须写出各个事件件数。地点:火星市水星区。重点:疾病预防控制199件,保健食品化妆品管理682件,健康证1867件,突发公共卫生事件处理119件。希望的解决方式:请相关部门尽快落实处理,部门核查。
输出:本报告显示,在火星市水星区发现疾病预防控制199件,保健食品化妆品管理682件,健康证1867件,突发公共卫生事件处理119件。因此,相关部门应尽快落实处理,并对相关部门进行核查。因此,有必要加强疾病预防控制,控制保健食品化妆品的管理,加强对健康证的管理,以及及时处理突发公共卫生事件,做好预防及应急处置工作,以确保公众的健康安全。
能生成上述这一种即可,希望能小样本微调
The text was updated successfully, but these errors were encountered: