YY's Blog

置顶|更新于2022-04-11|剑谱序言

剑谱序言小生于壬寅年元月痛失所爱，数月以来郁郁寡欢，再不得昨日之愉，然偶见各路大神奉为顶上珍宝的格言：剑谱第一页无爱既是神日思夜想之下竟真悟出了几番道理，称其为道理确些许有失偏颇，然实有些许感悟，故在此立此blog，欲决心发奋学习练剑，将些许学习笔记心得写于此剑谱之 ...

DQN

更新于2022-05-12|剑谱天下第一剑:机器学习Pytorch强化学习

DQN 感慨一下，终于到DQN了，慢慢啃书看数学公式真让人难受，我也不知道我看懂没有，好像懂了，但是一合上书啥也不知道，薛定谔的学习。当我观测的时候我就坍塌成了我没懂0.0 相比之下我还是喜欢编代码跑跑gym里的小游戏，看看我训练的人工智障是否仍是个智障。好了，把这个基础知识搞了就去写个打砖块的人工 ...

蒙特卡洛搜索树

更新于2022-05-12|剑谱天下第一剑:机器学习Pytorchalpha zero

蒙特卡洛搜索树MCTS Alpha Zero and Monte Carlo Tree Search (joshvarty.github.io) Alpha zero中的蒙特卡洛搜索树每一个节点表示一个局面，子节点表示此局面下一步走法，每个节点参数W/N，W表示经过此节点的路径最终胜利次数，N ...

近端策略优化

更新于2022-05-07|剑谱天下第一剑:机器学习Pytorch强化学习

近端策略优化同策略与异策略对于上篇文章所得的同策略优化算法其中$E_{\tau\sim p_\theta(\tau)}$是对策略$\pi_\theta$采样的轨迹$\tau$求期望。一旦更新了参数，从$\theta$变成$\theta’$，概率$p_\theta(\tau)$就不再正确，之前 ...

策略梯度

更新于2022-05-07|剑谱天下第一剑:机器学习Pytorch强化学习

策略梯度策略梯度算法假设我们在一场游戏里把换进的输出s和智能体的动作a全部组合起来，称作一个轨迹： $$ \tau={s_1,a_1,s_2,a_2,…,s_t,a_t} $$ 假设智能体参数为$\theta$,我们可以计算某个轨迹$\tau$ 发生的概率为： $$ \begin{aligned ...

表格型方法

更新于2022-05-07|剑谱天下第一剑:机器学习Pytorch强化学习

表格型方法对于免模型的强化学习方法，agent多次尝试与environmet交互之后，就能对其不同状态做出判断，用状态动作价值来表达在某个状态下某个动作的好坏。如果Q表格是一张已经训练好的表格，这张表格就像是一本生活手册。通过查看这本手册，我们就知道在熊发怒的时候，装死的价值会高一点；在熊离开的时 ...

强化学习

更新于2022-05-05|剑谱天下第一剑:机器学习Pytorch强化学习

强化学习参考教材强化学习导论 — 强化学习导论 (qiwihui.com) 深度强化学习（全）_哔哩哔哩_bilibili 世界冠军带你从零实践强化学习_哔哩哔哩_bilibili 何为强化学习？其核心思想就是让智能体agent再环境environment中学习，根据环境的状态state， ...

生成对抗网络

更新于2022-05-07|剑谱天下第一剑:机器学习Pytorch生成对抗网络

生成对抗网络(GANs) 顾名思义，生成对抗网络由两部分组成，一是生成模型，就像之前介绍的自动编码器的解码部分。二是对抗模型：严格来说是一个判断真假图片的判别器。简单来说，生成对抗网络就是希望两个网络相互竞争，通过生成网络生成假的数据，对抗网络判别真伪，最后希望生成网络生成的数据能够以假乱真。生 ...

生成模型

更新于2022-04-27|剑谱天下第一剑:机器学习Pytorch生成对抗网络

生成模型生成模型的概念属于概率统计和机器学习，是指一系列用于随机生成可观测数据的模型。简而言之，我们就是要生成的样本和实际的样本尽可能的相似，其主要功能有两个：学习一个概率分布生成数据自动编码器自动编码器最开始是一种数据压缩的方法，其特点有：跟数据的相关程度很高：这意味着自动编码器 ...

RNN的pytorch实现

更新于2022-04-27|剑谱天下第一剑:机器学习Pytorch循环神经网络

标准RNN 可直接调用torch.nn.RNN() $$ h_t=tanh(w_{ih}*x_t+b_{ih}+w_{hh}*h_{h-1}+b_{hh}) $$ 参数： input_size：输入$x_t$的特征维度。 hidden_size：输出$h_t$的特征维度 layers：网络层数 no ...