File tree Expand file tree Collapse file tree 1 file changed +5
-1
lines changed
paddlemix/datacopilot/example/pp_inscaptagger Expand file tree Collapse file tree 1 file changed +5
-1
lines changed Original file line number Diff line number Diff line change @@ -93,9 +93,13 @@ LLaVA v1.5模型SFT阶段训练时,使用的指令微调数据集为[LLaVA-Ins
93
93
94
94
使用PP-InsCapTagger对llava_v1_5_mix665k数据集进行打标,可以得到7913个标签,对数量最多的前100个标签分布进行可视化,可以看出标签分布存在较大的差异,如下图所示:
95
95
96
+ <details >
97
+ <summary >See</summary >
96
98
<center ><img src =" https://github.com/user-attachments/assets/48e30848-fe18-4e1a-a9a5-6c6f18ad9029 " width = " 300 " /></center >
99
+ </details >
97
100
98
- 为了对llava_v1_5_mix665k数据集进行优化,我们使用PP-InsCapTagger打标的标签结果对数据集进行筛选,首先确定出能够覆盖80%数据的单条数据的标签数量N,然后在数据集标签集合中选出标签数量占比前0.7%的标签作为一个筛选集合R,对于llava_v1_5_mix665k数据集中的每条数据,如果该条数据标签数量小于N,且该条数据的所有标签均在集合R中,则删除该条数据,否则保留该条数据。通过该筛选策略,最终保留数据集规模为原始数据集的50%左右。
101
+
102
+ 为了对llava_v1_5_mix665k数据集进行优化,我们使用PP-InsCapTagger打标的标签结果对数据集进行筛选,** 首先确定出能够覆盖80%数据的单条数据的标签数量N,然后在数据集标签集合中选出标签数量占比前0.7%的标签作为一个筛选集合R,对于llava_v1_5_mix665k数据集中的每条数据,如果该条数据标签数量小于N,且该条数据的所有标签均在集合R中,则删除该条数据,否则保留该条数据** 。通过该筛选策略,最终保留数据集规模为原始数据集的50%左右。
99
103
100
104
我们分别使用llava_v1_5_mix665k数据集和筛选后的数据集进行llava-1.5-7b SFT阶段训练,对比结果如下表所示:
101
105
You can’t perform that action at this time.
0 commit comments