Reinforcement Learning based Recommender System using Biclustering Technique

这篇文章是一篇用RL做RS的一个探索,思路也比较简单,但实验用的是movielens100k和movielens1m,所以可能实际效果不好,只能说是思路上的一个尝试。

这篇文章的主要思路是利用tabular的rl方法来从已经聚类过的用户评分中找到相似的推荐,算是一种启发式的方法(强化学习哪个算法不是启发式呢?:P) 1

如上图所示,将聚类后的user-item分为多个cluster,然后做成gridword的形式,然后利用Q-learning或者是Sarsa来学习转移得到的收益,从而达到推荐的效果 2

思路很简单,文章也很短,算是一种尝试,不过我看完还真有点启发,之前看的yahoo的embedding做news recommendation,也可以看成是MDP-based model,从这个角度看,的确有很多事情可以做。