Arvin's Blog

Poem & Algorithm


  • 首页

  • 分类

  • 关于

  • 归档

  • 标签

  • 搜索

Online Learning 2

发表于 2018-06-13
The Online Optimization Game 在线优化问题,具体指如下过程: The Online Optimization Game 在每回合中,玩家(palyer)选择\(\mathbf{w}_t\in\mathcal{W}\),其中\(\mathcal{W}\subseteq\mathbb{R}^n\)是操作的可行集合 对手(adversary)选择一个损失函数\(f_t ...
阅读全文 »

Online Learning 1

发表于 2018-06-13
最近在学习online learning相关的东西,刚好总结一下。 Introduction to Online Learning 我们以在线二分类预测问题为例,比如说,日常生活中,我们根据气温、温度等特征来试试判断是否会下雪,这就是一个在线的二分类问题。 二分类分类器(二分类假设,binary classifier或者说binary hypothesis),将特征\(\mathbf{x}\in\ ...
阅读全文 »

benders

发表于 2018-04-07 | 分类于 OperationResearch
Benders Decomposition 总结 这次主要来总结一下这段时间研究的benders算法,主要是在做一个规模不算大的MIP问题,但是公司没有商业求解器用,很蛋疼。我主要参考一篇17年的综述文章[1],翻译为主,而且仅写了最近浏览过和比较感兴趣的部分,并不全面,同时会写点自己的理解,但还是希望大家能去看一下原文。同时这次也是参考了QinHu老师之前的内容,在这放出链接,感觉他们写得比我的 ...
阅读全文 »

MP file format

发表于 2018-03-21
总结了一些常见的数学规划用到的文件格式,是cplex支持的,gurobi也支持很多,但是没写中文,也比较难查,就不列举了。 ALP 文件是包含每个变量的通用名称的 LP 文件,以每个变量的类型以及每个变量的界限来注解。 BAS 文件是数学规划系统 (MPS) 约定管理的文本文件(即,它们不是二进制)用于保存问题基础。它们记录在BAS 文件格式:高级基中。 BZ2 不是特定于 CPLEX 的文件格式 ...
阅读全文 »

variable selection and lasso

发表于 2018-03-02 | 分类于 BriefSummary
闲话Variable Selection和Lasso 最近在看变量选择(也叫subset selection),然后来总结一下,想到哪写到哪的随意风格(手动微笑)。[11,12,13]是主要参考的综述文章。 Boosting 和 Stagewise Regression 嗯,我也很惊讶为什么这个Lasso会跟Boosting挂着勾。Lasso这样的带罚项的regression最早的思想来自于lin ...
阅读全文 »

Online Learning for Collaborative Filtering

发表于 2018-01-30 | 分类于 PaperNote
这篇文章是做online learning的CF,用到了dual-averaging的方法,便于在线计算梯度、更新权重。 CF一直是非常经典的推荐算法,但经常考虑的都是静态的环境下做推荐,很少有考虑动态场景的,比如说: - 新的物品到达推荐系统中 - 新的用户加入到推荐系统中 - 新的评分出现 本文主要几点contribution包括提出了两种在线学习的方式,基于PMF和RMF做了在线学习的算法。 ...
阅读全文 »

List-wise learning to rank with matrix factorization for collaborative filtering

发表于 2018-01-30 | 分类于 PaperNote
这篇是之前看到的RMF模型,作者的主要contribution在于改进MF的方法,使它保持线性复杂度的同时同时适应于大规模的数据集。在进行Learning To Rank(LTR)任务时,CF之类的方法需要解决一下的问题: - 用户和物品并不容易被显示的特征所替代,IR中的LTR往往具有用户query信息和物品的特征,以此匹配排序,但在推荐系统中,往往并没有这样的显示特征可以使用 - 并不是所有的 ...
阅读全文 »

Playing Atari with Deep Reinforcement Learning

发表于 2018-01-29 | 分类于 PaperNote
看懂这几篇需要一些RL方面的基础知识,之后并不会涉及一些基础内容的讲解。 Playing Atari with Deep Reinforcement Learning 这篇是DQN的开山之作,先看这篇也是因为nature上那篇画的太乱了。 开篇作者先点出将DL应用在RL上的几个挑战: - 大多数深度学习的应用都需要大量的标注训练数据,而增强学习算法往往是从一串序列数据的反馈中学习,而这个反馈信号往 ...
阅读全文 »

Reinforcement Learning based Recommender System using Biclustering Technique

发表于 2018-01-27 | 分类于 PaperNote
这篇文章是一篇用RL做RS的一个探索,思路也比较简单,但实验用的是movielens100k和movielens1m,所以可能实际效果不好,只能说是思路上的一个尝试。 这篇文章的主要思路是利用tabular的rl方法来从已经聚类过的用户评分中找到相似的推荐,算是一种启发式的方法(强化学习哪个算法不是启发式呢?:P) 如上图所示,将聚类后的user-item分为多个cluster,然后做成grid ...
阅读全文 »

BPR analysis

发表于 2018-01-21 | 分类于 BriefSummary
今天来总结一下BPR吧,也是近几年非常热门的一个算法,原因有三,简单的计算迭代方式,关注implicit feedback问题,同时关注rank loss而不是传统的mse等等。 BPR的基本介绍发现以前自己写过,那就不在这多废话了,大家可以点过去看,这里主要写一下作者BPR发表几年后的一篇改进,以及BPR存在的问题。 BPR讲解的传送门 作者对于BPR的改进是14年的这盘文章 Rendle, ...
阅读全文 »
<i class="fa fa-angle-left"></i>1…678…12<i class="fa fa-angle-right"></i>

116 日志
10 分类
56 标签
RSS
Creative Commons
© 2025 YuyangZhangFTD
由 Hexo 强力驱动
主题 - NexT.Muse