Reinforcement Learning based Recommender System using Biclustering Technique

这篇文章是一篇用RL做RS的一个探索，思路也比较简单，但实验用的是movielens100k和movielens1m，所以可能实际效果不好，只能说是思路上的一个尝试。

这篇文章的主要思路是利用tabular的rl方法来从已经聚类过的用户评分中找到相似的推荐，算是一种启发式的方法（强化学习哪个算法不是启发式呢？：P）

如上图所示，将聚类后的user-item分为多个cluster，然后做成gridword的形式，然后利用Q-learning或者是Sarsa来学习转移得到的收益，从而达到推荐的效果

思路很简单，文章也很短，算是一种尝试，不过我看完还真有点启发，之前看的yahoo的embedding做news recommendation，也可以看成是MDP-based model，从这个角度看，的确有很多事情可以做。