dataAugmentation

2019-07-16

dataAugmentation

2019-07-16

记录一下常用的NLP数据增加方式,数据增强常用于样本不够或者样本严重不均衡的情况下

随机drop和shuffle

也就是把一个样本随机打乱词语顺序或者扔掉一些词语,当做新的样本,但是不能做过多的drop和shuffle，防止更改了原义

同义词替换

回译

这个很有技巧性，就是吧样本翻译成其他语言，然后在翻译回来，当做新的样本

生成对抗网络

最后更新时间：2021-09-20 02:01:25
转载请标注:https://lingyixia.github.io/2019/07/16/dataAugmentation/

陈飞宇

赏