SeqGAN:具有Policy梯度的序列生成对抗网络
Publish
AAAI-2017 ## title SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient ## solution problem 生成对抗网络(GAN)在生成real_value数据取得了巨大的成功,但是在用于生成离散数据具有局限性,主要原因在于:来自生成模型的离散输出使其难以从判别模型的梯度更新传递给生成模型。此外:判别模型只能评估完整的序列,而对于部分生成的序列,一旦生成完整序列,就需要去平衡当前和未来的评分。 ## Summary 1. 提出一种训练生成模型的新方法SeqGAN
2. 其数据生成器建模使用强化学习中的随机策略,其中RL奖励值来自GAN判别器对完整序列的评判。使用蒙特卡洛搜索传回中间状态。 ## Conclusion 在合成数据和现实任务上进行的大量实验表明,与强大的基线相比,有了显著的改进. # Other ## 蒙特卡洛搜索 学习资料 1 2
SeqGAN:具有Policy梯度的序列生成对抗网络
You need to set
install_url
to use ShareThis. Please set it in _config.yml
.