生成式对抗网络（GAN）学习笔记

作者：KevinZonda

$G$ $D$ ）。

生成器 $z$ $G(z)$ 。

辨别器的目的是根据输入，输出输入是真实的置信度。也就是判定是真实数据还是假数据：如果是真实数据，输出 1；如果是假数据，输出 0。

因此我们的目标可以简化为，我们希望构建一个足够好的辨别器，并让生成器成功欺骗辨别器。

建模

$G$

$G$ $z\sim p_{z}(z)$ $G(z)$ 。

$D$ $G(z)$ 是假数据。因此则为：

max D (G (z))

$D$

$D$ $D(x)$ $x$ 是真实数据的概率。

$x\sim p_{data}(x)$ ，我们期望

max D (x)

$z\sim p_{z}(z)$ ，我们期望

min D (G (z))

目标函数

为此可以构建目标函数：

min_{G} max_{D} V (D, G) = E_{x \sim p_{d a t a} (x)} [\log D (x)] + E_{z \sim p_{d a t a} (z)} [\log (1 - D (G (z)))]

$D$ ：

$D(x)$ 大
$D(G(z))$ 小
- $\rightarrow 1-D(G(z))$ 大
- $\rightarrow \log{(1-D(G(z)))}$ 大
$V(D, G)$ 大

$G$ ：

$D(G(z))$ 大
- $\rightarrow 1-D(G(z))$ 小
- $\rightarrow \log{(1-D(G(z)))}$ 小
$V(D, G)$ 小

$\mathbb{E}$ 为:


func E(xs []float64, oper func(float64) float64) float64 {
    sum := 0.0
    count := 0
    for _, x := range xs {
        sum += oper(x)
        count++
    }
    sum /= count
    return sum
}

算法 1

对于 每一个迭代 循环：
- 循环 k 次（需要自定义）
  - $p_g(z)$ $m$ $\{z^{(1)}, \dots, z^{(m)}\}$
  - $p_{data}(x)$ $m$ $\{x^{(1)}, \dots, x^{(m)}\}$
  - $D$ 的参数：
    - $\theta_{D} \leftarrow \theta_{D} - \alpha \nabla_{\theta_{D}} \frac{1}{m} \sum_{i=1}^{m} \left[ \log D(x^{(i)}) + \log (1-D(G(z^{(i)}))) \right]$
  - 结束循环
- $p_g(z)$ $m$ $\{z^{(1)}, \dots, z^{(m)}\}$
- $G$ 的参数：
  - $\theta_{G} \leftarrow \theta_{g} - \alpha \nabla_{\theta_{G}} \frac{1}{m} \sum_{i=1}^{m} \log (1-D(G(z^{(i)})))$
结束循环

$D$ $G$ $G$ 就会面对梯度消失的问题。

$\log D(G(z))$ $\log (1-D(G(z)))$ $G$ 。

理论证明

$D$

Proposition 1 $G$ $D$ 是

D_{G}^{*} (x) = \frac{p_{d a t a} (x)}{p_{d a t a} (x) + p_{g} (x)} \in [0, 1]

$p_{data}$ $p_g$ ，为了判别其是否相等，原式=.5（Two Sample Test）。

证明：

考虑：

E_{x \sim p} f (x) = \int_{x} p (x) f (x) d x

可得：

\begin{aligned} V (D, G) & = E_{x \sim p_{d a t a} (x)} [\log D (x)] + E_{z \sim p_{d a t a} (z)} [\log (1 - D (G (z)))] \\ = \int_{x} p_{d a t a} (x) \log D (x) d x + \int_{z} p_{z} (z) \log (1 - D (G (z))) d z \\ 考虑 G (z) = p_{g} (x) \\ = \int_{x} p_{d a t a} (x) \log D (x) d x + \int_{x} p_{g} (x) \log (1 - D (x)) d x \\ = \int_{x} p_{d a t a} (x) \log D (x) + p_{g} (x) \log (1 - D (x)) d x \end{aligned}

令

\begin{matrix} a = p_{d a t a} (x) \\ y = D (x) \\ b = p_{g} (x) \end{matrix}

因此可使原式改写为

\begin{aligned} V (D, G) & = \int_{x} p_{d a t a} (x) \log D (x) + p_{g} (x) \log (1 - D (x)) d x \\ = \int_{x} a \log (y) + b \log (1 - y) d x \end{aligned}

$D$ $y\to a\log(y)+b\log(1-y)$

这个函数是个凸函数，因此为求其最大值，我们可以求其导数为0的点。

\begin{aligned} \frac{d}{d y} a \log (y) + b \log (1 - y) & = \frac{a}{y} - \frac{b}{1 - y} = 0 \\ \frac{a}{y} & = \frac{b}{1 - y} \\ a - a y & = b y \\ y & = \frac{a}{a + b} \\ D (x) & = \frac{p_{d a t a} (x)}{p_{d a t a} (x) + p_{g} (x)} \end{aligned}

代入回原式，可得：

\begin{aligned} C (G) & = max_{D} V (D, G) \\ = E_{x \sim p_{d a t a} (x)} [\log (D_{G}^{*} (x))] + E_{z \sim p_{z} (z)} [\log (1 - D_{G}^{*} (G (z)))] \\ = E_{x \sim p_{d a t a}} [\log (D_{G}^{*} (x))] + E_{x \sim p_{g}} [\log (1 - D_{G}^{*} (x))] \\ = E_{x \sim p_{d a t a}} [\log \frac{p_{d a t a} (x)}{p_{d a t a} (x) + p_{g} (x)}] + E_{x \sim p_{g}} [\log \frac{p_{g} (x)}{p_{d a t a} (x) + p_{g} (x)}] \end{aligned}

$C(G)$ 了。

KL 散度
$\begin{matrix} D_{K L} (P | | Q) = E_{x \sim p (x)} \log \frac{P (x)}{Q (x)} \\ = \sum_{i} P (i) \log \frac{P (i)}{Q (i)} \end{matrix}$
$P$ $Q$ $P$ $Q$ 之间的差异。

\begin{aligned} C (G) & = E_{x \sim p_{d a t a}} [\log \frac{p_{d a t a} (x)}{p_{d a t a} (x) + p_{g} (x)}] + E_{x \sim p_{g}} [\log \frac{p_{g} (x)}{p_{d a t a} (x) + p_{g} (x)}] \end{aligned}

$C(G)$ 的最小值

定理 1 $p_g = p_{data}$ $C(G)$ $C(G) = - \log 4$

证明：

$D$ $D(x)=\frac{1}{2}$ 。因此

C (G) = \log \frac{1}{2} + \log \frac{1}{2} = - \log 4

因此可以重写原式：

\begin{aligned} C (G) & = E_{x \sim p_{d a t a}} [\log \frac{p_{d a t a} (x)}{p_{d a t a} (x) + p_{g} (x)}] + E_{x \sim p_{g}} [\log \frac{p_{g} (x)}{p_{d a t a} (x) + p_{g} (x)}] \\ = (E_{x \sim p_{d a t a}} [\log \frac{p_{d a t a} (x)}{\frac{1}{2} (p_{d a t a} (x) + p_{g} (x))}] - \log 2) + (E_{x \sim p_{g}} [\log \frac{p_{g} (x)}{\frac{1}{2} (p_{d a t a} (x) + p_{g} (x))}] - \log 2) \\ = - \log 4 + D_{K L} (p_{d a t a} | | \frac{p_{d a t a} + p_{g}}{2}) + D_{K L} (p_{g} | | \frac{p_{d a t a} + p_{g}}{2}) \end{aligned}

$\geq 0$ $C(G)$ $p_{data} = p_{g}$ 。

算法 1 的收敛性

命题 2

proposition 2 $G$ $D$ $D$ $p_g$ $G$ 被训练到最优，使用如下标准：

E_{x \sim p_{d a t a}} [\log D_{G}^{*} (x)] + E_{x \sim p_{g}} [\log (1 - D_{G}^{*} (x))]

$p_g$ $p_{data}$ 。

生成式对抗网络（GAN）学习笔记

建模

生成器 GG

辨别器 DD