记录一下常用的NLP数据增加方式,数据增强常用于样本不够或者样本严重不均衡的情况下

随机drop和shuffle

也就是把一个样本随机打乱词语顺序或者扔掉一些词语,当做新的样本,但是不能做过多的drop和shuffle,防止更改了原义

同义词替换

回译

这个很有技巧性,就是吧样本翻译成其他语言,然后在翻译回来,当做新的样本

生成对抗网络