Skip to content

Commit 7f10232

Browse files
committed
update readme (#728)
1 parent 1f10c42 commit 7f10232

File tree

1 file changed

+5
-1
lines changed
  • paddlemix/datacopilot/example/pp_inscaptagger

1 file changed

+5
-1
lines changed

paddlemix/datacopilot/example/pp_inscaptagger/readme.md

Lines changed: 5 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -93,9 +93,13 @@ LLaVA v1.5模型SFT阶段训练时,使用的指令微调数据集为[LLaVA-Ins
9393

9494
使用PP-InsCapTagger对llava_v1_5_mix665k数据集进行打标,可以得到7913个标签,对数量最多的前100个标签分布进行可视化,可以看出标签分布存在较大的差异,如下图所示:
9595

96+
<details>
97+
<summary>See</summary>
9698
<center><img src="https://github.com/user-attachments/assets/48e30848-fe18-4e1a-a9a5-6c6f18ad9029" width = "300"/></center>
99+
</details>
97100

98-
为了对llava_v1_5_mix665k数据集进行优化,我们使用PP-InsCapTagger打标的标签结果对数据集进行筛选,首先确定出能够覆盖80%数据的单条数据的标签数量N,然后在数据集标签集合中选出标签数量占比前0.7%的标签作为一个筛选集合R,对于llava_v1_5_mix665k数据集中的每条数据,如果该条数据标签数量小于N,且该条数据的所有标签均在集合R中,则删除该条数据,否则保留该条数据。通过该筛选策略,最终保留数据集规模为原始数据集的50%左右。
101+
102+
为了对llava_v1_5_mix665k数据集进行优化,我们使用PP-InsCapTagger打标的标签结果对数据集进行筛选,**首先确定出能够覆盖80%数据的单条数据的标签数量N,然后在数据集标签集合中选出标签数量占比前0.7%的标签作为一个筛选集合R,对于llava_v1_5_mix665k数据集中的每条数据,如果该条数据标签数量小于N,且该条数据的所有标签均在集合R中,则删除该条数据,否则保留该条数据**。通过该筛选策略,最终保留数据集规模为原始数据集的50%左右。
99103

100104
我们分别使用llava_v1_5_mix665k数据集和筛选后的数据集进行llava-1.5-7b SFT阶段训练,对比结果如下表所示:
101105

0 commit comments

Comments
 (0)