第二篇小论文的思考记录
大论文的开题核心为”问句语义识别应用研究“。
第一篇小论文采用预训练模型进行数据增强以提升文本表征能力,主要研究集中在问句识别前期工作,并没有聚焦到语义识别。
对中文论文进行调研,大部分paper都将问句语义识别定义为一个文本分类问题,即问句分类。
所以第二篇小论文优先考虑文本分类问题
近期又不可避免的 看了写GAN的文章,生成对抗网络,用于图像生成的确很不错。但是在nlp效果很一般,唯一给我的感觉就是这是一个很有学术价值的东西,适合写论文。
seqGAN: sequence generative adversarial nets with policy gradient
2017年发表 代码比较老 判别器用cnn,生成器rnn,改进点没想法,换成transformer?
TT-gan:Text-to-Text Generative Adversarial Networks 2018年 模型不但可以生成真实文本,还能生成源文本释义或语义摘要。作者说是第一个 语义层面上生成自然语言的框框架。 无代码 没想法
重点来了“GAN-BERT”
GAN-BERT: Generative Adversarial Learning for Robust Text Classification with a Bunch of Labeled Examples 2020acl。这篇文献我详细阅读了。 其判别器和生成器都是多层感知机,输入 noise(向量h) 进入生成器,输出\(h_{fake}\) 然后在将真实数据 输入bert 获得向量 进行判别器。设置一个多分类任务进行训练,设置k+1个类,其中k为真实的类,k+1为生成器产生的类。过程如下:
- 经过bert的向量设为\(h_{cls}\) ,训练目标: 判别器真实样本将其归为k类,\(h_{fake}\)归为k类
- 反向传播阶段, 无监督学习:无标签数据被错误归入k+1类时 优化 判别器的损失。有监督学习, 通同1要求 优化判别器损失。
- 训练结束,丢弃生成器,利用原始bert进行推理。(应该是bert+判别器)
我的想法 能不能 用其他model替换mlp。(但是原文的一个创新就是 没有使用cnn),然后融入一些其他trick,提升分类效果。
更新于2022年05月01日
最近忙东忙西,不知道在干嘛。互联网+比赛,项目书、PPT、视频,小论文返修...
实验做了一点点。GAN,生成器,判别器,多层感知机 换成RNN。...
更新于2022年05月26日