RIKKA's Blog

2024-11-05 1.2k words 4 mins

[RL] 第六讲: 价值和策略近似逼近方法

基于上海交通大学强化学习课程系列课程学习RL的笔记.
SJTU RL Course (wnzhang.net)

前面我们基于格子世界, 讨论了离散状态和离散动作. 现在, 我们引入神经网络, 开始探索连续的使世界.

2024-11-04 1.5k words 6 mins

笔记本续航省电攻略 Ubuntu22.04

尝试增强游戏本续航的折腾记录.

2024-11-04 1.1k words 4 mins

[Complier] Ch3 词法分析

学习编译原理PPT的记录. 相关笔记会另开博客记录. 也可能不会开.

2024-11-04 873 words 3 mins

[misc] 11-04 折腾的一些杂项

11.04折腾的一些杂项

2024-11-04 718 words 2 mins

使用gnome-extensions 和 gnome-look, 把你的Ubuntu伪装成MacBook

在 Linux 中，可以使用多种方法进行屏幕截图.

2024-11-04 1.4k words 5 mins

Ubuntu22.04 安装fcitx5以及导入中文词库全过程 / ubuntu chinese input method

安装fcitx5以及导入中文词库的过程

2024-11-03 2.2k words 8 mins

[ControlSystem] Ch2 系统数学模型

学习控制理论课程PPT的记录. 相关笔记会另开博客记录. 也可能不会开.

2024-11-03 299 words 1 min

markdown to pdf obsidian Ubuntu22.04

尝试在obsidian上将md文件导出为pdf遇到的问题, 以及相关的解决方案.

2024-11-03 3.1k words 13 mins

[ControlSystem] Ch1, Ch2 系统数学模型

学习控制理论课程PPT的记录. 相关笔记会另开博客记录. 也可能不会开.

2024-11-02 141 words 1 min

Lutris is not you need: Lutris下载与卸载

下载和卸载lutris的过程.

2024-11-02 2k words 7 mins

apt-get 命令无法正常走代理

在配置好代理的情况下, apt-get命令无法正常使用代理.

解决方案是更改apt-get的配置文件. 理论上也可以配置环境变量来完成, 但是在我这里不work

2024-11-02 373 words 1 min

磁盘自动挂载

磁盘自动挂载下面这段回答来自GPT 在 Ubuntu 中将磁盘挂载到特定位置，你可以按照以下步骤操作：查找磁盘设备：打开终端并运行以下命令来查看所有可用的磁盘和分区： 1lsblk 找到你想要挂载的磁盘设备（如 /dev/sdb1）。创建挂载点：使用 mkdir 命令创建一个目录作为挂载点，例如： 1sudo mkdir /mnt/mydisk 挂载磁盘：使用 mount 命令将磁盘挂载到你创建的目录： 1sudo mount /dev/sdb1 /mnt/mydisk 查看挂载状态：运行 df -h 命令，可以查看挂载的磁盘及其使用情况。完成这些步

2024-11-02 1.4k words 5 mins

一次绝望的旅途: 在Ubuntu22.04 安装Gym以及mujoco python (以及mojoco_py)

配置Gym环境的血泪史.

2024-11-02 1.7k words 6 mins

AnaConda的安装与使用简介

官网的安装文档如下: https://docs.anaconda.com/anaconda/install/linux/ 此处安装的版本如下: Anaconda3-2024.10-1-Linux-x86_64.sh 以下内容来自GPT 在 Ubuntu 上部署 Conda 环境的步骤如下： 1. 安装 Miniconda 或 Anaconda Miniconda 是一个轻量级的 Conda 版本，适合需要自定义环境的用户。你也可以选择安装 Anaconda，它包含了更多预安装的库。安装 Miniconda：打开终端，执行以下命令： 12wget https://repo.anac

2024-11-02 881 words 3 mins

linux系统中, 关于环境变量的那些事

以下内容来自GPT 查看当前环境变量在 Linux 系统中，可以使用以下命令查看当前的环境变量： 1. 使用 printenv 命令 printenv 命令会列出所有的环境变量及其值： 1printenv 如果只想查看特定的环境变量，可以将变量名作为参数传递： 1printenv VARIABLE_NAME 将 VARIABLE_NAME 替换为你想要查看的变量名，例如： 1printenv PATH 2. 使用 env 命令 env 命令也可以用来显示当前的环境变量： 1env 3. 使用 set 命令 set 命令不仅会显示环境变量，还会显示所有的 shell 变量（包括函

2024-11-02 617 words 2 mins

Ubuntu22.04 截图与录屏

在 Linux 中，可以使用多种方法进行屏幕截图.

2024-11-02 1.2k words 4 mins

wine上使用微信时中文乱码

尝试解决wine上运行微信, 输入框里中文乱码的失败经历

2024-11-02 606 words 2 mins

Ubuntu / linux 常用命令行操作

linux 常用命令行操作的记录

2024-11-02 586 words 2 mins

Ubuntu, Terminal, edge常用快捷键

linux, edge, terminal 常用命令行操作的记录

2024-11-02 1.6k words 6 mins

Ubuntu22.04 配置 Wine

在Ubuntu22.04环境下配置Wine. 在Wine上运行程序终究还是有些良性bug, 同时较为复杂的软件游戏如steam, SC2等会遇到恶性bug. 所以只能用来登登微信什么的.

2024-11-02 1.6k words 6 mins

docker+Alist+rclone 将夸克网盘挂载至本地

将夸克网盘挂载为本地磁盘 [!todo] 还没配完. 由于夸克网盘好像不支持linux, 而我的文件备份是通过夸克网盘实现的, 因此在寻找使用夸克网盘的方法. 网页端几乎什么也干不了, 文件夹与稍微大一点的文件都无法下载. 于是试图通过网盘的挂载来完成. 下面是ChatGPT的回答: 在 Ubuntu 上挂载夸克网盘的步骤和 Windows 相似，不过需要将 RaiDrive 替换为 rclone，以下是具体操作步骤：步骤 1：安装 Docker 更新并安装 Docker： 12sudo apt updatesudo apt install docker.io -y

2024-11-02 1.3k words 5 mins

Ubuntu22.04 gnome-software explore失效之谜

试图解决gnome-software explore失效问题的失败尝试

2024-11-02 2.1k words 7 mins

配置Ubuntu22.04过程中的零散知识

ubuntu相关的一些杂项

2024-11-02 3.4k words 12 mins

华硕天选三从win11换系统到Ubuntu22.04记录

换系统配环境的折腾之旅

2024-11-02 1.6k words 7 mins

[RL] 第三讲: 值函数估计

基于上海交通大学强化学习课程系列课程学习RL的笔记.
SJTU RL Course (wnzhang.net)

此为第三讲的内容. 在第二讲中, 我们解释了MDP的概念, 并在MDP处于白盒环境的前提下, 给出了通过期望算子不断进行迭代, 最终得到最优策略的算法. 而在这一讲中, 我们考虑根据一批样本来估计出一个值函数的方法, 包括MC方法和TD方法.

2024-11-02 1k words 4 mins

[RL] 第五讲: 规划学习

基于上海交通大学强化学习课程系列课程学习RL的笔记.
SJTU RL Course (wnzhang.net)

前面我们讨论了许多黑盒的方法, 在那些方法中我们并不考虑环境, 而是直接从数据片段进行学习. 而现在, 我们将尝试获取一个模拟环境, 并通过模拟数据来学习.

2024-11-02 2.8k words 11 mins

[RL] 第一讲: 强化学习, 探索与利用

基于上海交通大学强化学习课程系列课程学习RL的笔记.
SJTU RL Course (wnzhang.net)

此为第一讲的内容, 主要对RL做了导论的内容, 同时以多臂老虎机作为例子, 讲述了探索与利用相关的内容.

2024-11-02 1.2k words 5 mins

[misc] RL第二讲的相关证明

基于上海交通大学强化学习课程系列课程学习RL的笔记.
SJTU RL Course (wnzhang.net)

此为第二讲内容的杂项. 由于两个动态规划算法: 策略迭代算法和价值迭代算法的严格证明内容比较多, 于是将其单独列为一篇Blog记叙于此.

主要参考的资料为
Mathematical Analysis of Reinforcement Learning — Bellman Optimality Equation | by Vaibhav Kumar | Towards Data Science

包含此定理在内的其他相关数学证明可以在
rl-proofs.pdf (wnzhang.net)
中找到.

2024-11-02 2.5k words 10 mins

[RL] 第四讲: 无模型控制方法

基于上海交通大学强化学习课程系列课程学习RL的笔记.
SJTU RL Course (wnzhang.net)

在第三讲中, 我们讲述了采样方法下, 对值函数进行估计的办法; 估计完毕值函数之后, 会作策略提升;
这一讲中, 我们讲直接作价值提升的算法.
可以理解为贪婪的值函数更新方法, 直接在每一步都对策略进行更新.
SARSA, Q-learing, 多步自助方法.

各种方法的三重维度:

取期望 vs 大数定理采样 (BFS vs DFS)
多步迭代拟合后提升 vs 一步后直接max作提升 (策略迭代 vs 价值迭代)
对T步数据进行学习(无偏) vs 对一步数据进行学习(有偏) (MC vs TD)

2024-11-02 196 words 1 min

[misc] 程序员脑子里的怪东西

零零散散记录了一些有意思的东西.

[RL] 第六讲: 价值和策略近似逼近方法

笔记本续航省电攻略 Ubuntu22.04

[Complier] Ch3 词法分析

[misc] 11-04 折腾的一些杂项

使用gnome-extensions 和 gnome-look, 把你的Ubuntu伪装成MacBook

Ubuntu22.04 安装fcitx5以及导入中文词库 全过程 / ubuntu chinese input method

[ControlSystem] Ch2 系统数学模型

markdown to pdf obsidian Ubuntu22.04

[ControlSystem] Ch1, Ch2 系统数学模型

Lutris is not you need: Lutris下载与卸载

apt-get 命令无法正常走代理

磁盘自动挂载

一次绝望的旅途: 在Ubuntu22.04 安装Gym以及mujoco python (以及mojoco_py)

AnaConda的安装与使用简介

linux系统中, 关于环境变量的那些事

Ubuntu22.04 截图与录屏

wine上使用微信时中文乱码

Ubuntu / linux 常用命令行操作

Ubuntu, Terminal, edge常用快捷键

Ubuntu22.04 配置 Wine

docker+Alist+rclone 将夸克网盘挂载至本地

Ubuntu22.04 gnome-software explore失效之谜

配置Ubuntu22.04过程中的零散知识

华硕天选三从win11换系统到Ubuntu22.04记录

[RL] 第三讲: 值函数估计

[RL] 第五讲: 规划学习

[RL] 第一讲: 强化学习, 探索与利用

[misc] RL第二讲的相关证明

[RL] 第四讲: 无模型控制方法

[misc] 程序员脑子里的怪东西

Ubuntu22.04 安装fcitx5以及导入中文词库全过程 / ubuntu chinese input method