SeqGAN:具有Policy梯度的序列生成对抗网络

Publish

AAAI-2017

title

SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient

solution problem

生成对抗网络(GAN)在生成real_value数据取得了巨大的成功,但是在用于生成离散数据具有局限性,主要原因在于:来自生成模型的离散输出使其难以从判别模型的梯度更新传递给生成模型。此外:判别模型只能评估完整的序列,而对于部分生成的序列,一旦生成完整序列,就需要去平衡当前和未来的评分。

Summary

  1. 提出一种训练生成模型的新方法SeqGAN
  2. 其数据生成器建模使用强化学习中的随机策略,其中RL奖励值来自GAN判别器对完整序列的评判。使用蒙特卡洛搜索传回中间状态。

    Conclusion

    在合成数据和现实任务上进行的大量实验表明,与强大的基线相比,有了显著的改进.

    Other

    蒙特卡洛搜索

    学习资料
    1
    2

SeqGAN:具有Policy梯度的序列生成对抗网络

http://example.com/2022/04/12/SeqGAN/

作者

周江峰

发布于

2022-04-12

更新于

2022-06-22

许可协议

You need to set install_url to use ShareThis. Please set it in _config.yml.
You forgot to set the business or currency_code for Paypal. Please set it in _config.yml.

评论

You forgot to set the shortname for Disqus. Please set it in _config.yml.