序言
剑谱
序言
小生于壬寅年元月痛失所爱,数月以来郁郁寡欢,再不得昨日之愉,然偶见各路大神奉为顶上珍宝的格言:
剑谱第一页 无爱既是神
日思夜想之下竟真悟出了几番道理,称其为道理确些许有失偏颇,然实有些许感悟,故在此立此blog,欲决心 发奋学习 练剑,将些许 学习笔记 心得写于此剑谱之 ...
DQN
DQN
感慨一下,终于到DQN了,慢慢啃书看数学公式真让人难受,我也不知道我看懂没有,好像懂了,但是一合上书啥也不知道,薛定谔的学习。当我观测的时候我就坍塌成了我没懂0.0
相比之下我还是喜欢编代码跑跑gym里的小游戏,看看我训练的人工智障是否仍是个智障。好了,把这个基础知识搞了就去写个打砖块的人工 ...
蒙特卡洛搜索树
蒙特卡洛搜索树MCTS
Alpha Zero and Monte Carlo Tree Search (joshvarty.github.io)
Alpha zero中的蒙特卡洛搜索树每一个节点表示一个局面,子节点表示此局面下一步走法,每个节点参数W/N,W表示经过此节点的路径最终胜利次数,N ...
近端策略优化
近端策略优化
同策略与异策略
对于上篇文章所得的同策略优化算法
其中$E_{\tau\sim p_\theta(\tau)}$是对策略$\pi_\theta$采样的轨迹$\tau$求期望。一旦更新了参数,从$\theta$变成$\theta’$,概率$p_\theta(\tau)$就不再正确,之前 ...
策略梯度
策略梯度
策略梯度算法
假设我们在一场游戏里把换进的输出s和智能体的动作a全部组合起来,称作一个轨迹:
$$
\tau={s_1,a_1,s_2,a_2,…,s_t,a_t}
$$
假设智能体参数为$\theta$,我们可以计算某个轨迹$\tau$ 发生的概率为:
$$
\begin{aligned ...
表格型方法
表格型方法
对于免模型的强化学习方法,agent多次尝试与environmet交互之后,就能对其不同状态做出判断,用状态动作价值来表达在某个状态下某个动作的好坏。如果Q表格是一张已经训练好的表格,这张表格就像是一本生活手册。通过查看这本手册,我们就知道在熊发怒的时候,装死的价值会高一点;在熊离开的时 ...
强化学习
强化学习
参考教材
强化学习导论 — 强化学习导论 (qiwihui.com)
深度强化学习(全)_哔哩哔哩_bilibili
世界冠军带你从零实践强化学习_哔哩哔哩_bilibili
何为强化学习?其核心思想就是让智能体agent再环境environment中学习,根据环境的状态state, ...
生成对抗网络
生成对抗网络(GANs)
顾名思义,生成对抗网络由两部分组成,一是生成模型,就像之前介绍的自动编码器的解码部分。二是对抗模型:严格来说是一个判断真假图片的判别器。
简单来说,生成对抗网络就是希望两个网络相互竞争,通过生成网络生成假的数据,对抗网络判别真伪,最后希望生成网络生成的数据能够以假乱真。
生 ...
生成模型
生成模型
生成模型的概念属于概率统计和机器学习,是指一系列用于随机生成可观测数据的模型。简而言之,我们就是要生成的样本和实际的样本尽可能的相似,其主要功能有两个:
学习一个概率分布
生成数据
自动编码器
自动编码器最开始是一种数据压缩的方法,其特点有:
跟数据的相关程度很高:这意味着自动编码器 ...
RNN的pytorch实现
标准RNN
可直接调用torch.nn.RNN()
$$
h_t=tanh(w_{ih}*x_t+b_{ih}+w_{hh}*h_{h-1}+b_{hh})
$$
参数:
input_size:输入$x_t$的特征维度。
hidden_size:输出$h_t$的特征维度
layers:网络层数
no ...