Arvin's Blog

Poem & Algorithm


  • 首页

  • 分类

  • 关于

  • 归档

  • 标签

  • 搜索

Application of Dimensionality Reduction in Recommender System

发表于 2017-09-02 | 分类于 PaperNote
这篇论文应该是最早用SVD做推荐系统的文章,观点早已烂大街,前面篇幅的推荐方法分析也不是很适用现在的情况,本篇就记录一下算法细节。 Existing Recommender Systems Approaches and their Limitations 大部分协同过滤算法都是通过构造近似的近邻来达到推荐的目的,推荐算法分为: 预测用户对物品的打分 推荐用户最有可能买的物品Top-N 目前推荐 ...
阅读全文 »

Understanding Bias and Variance

发表于 2017-08-24 | 分类于 BriefSummary
今天读ESL,看到第二章中对LS(Least Square)和k-NN的bias和variance对比,突然有了些新的理解,在这里记录一下。 All we know 放一张经常可以看到的图,这张图来自机器学习中的Bias(偏差),Error(误差),和Variance(方差)有什么区别和联系? 中的[@修宇亮](https://www.zhihu.com/people/yuliangxiu/ans ...
阅读全文 »

Combination Methods

发表于 2017-08-17 | 分类于 BriefSummary
Benefits of Combination 当我们能够生成一堆基学习器后,与其尝试寻找最好的单个学习器,集成方法通过结合的方式产生更好的泛化性能,其中结合的方式是非常重要的一环。通过结合我们有以下的几个好处 statistical issue:当我们的假设空间过大,而数据量受限的时候,会有多种不同的假设能够达到相同的准确度,如果学习算法选择了其中之一,就会有一定风险在真实数据上犯错,而通过结 ...
阅读全文 »

Bagging

发表于 2017-08-17 | 分类于 BriefSummary
以下内容选自Ensemble Methods Foundations and Algorithms (Zhihua Zhou) 。 Two Ensemble Paradigms 与Boosting相对的,就是Bagging方法,Boosting属于一种串行的集成方式,而Bagging是一种并行的集成方式。集成学习方法都用到了基学习器的独立性,Boosting串行的方式是通过自助(boost)的方式 ...
阅读全文 »

Boosting

发表于 2017-08-16 | 分类于 BriefSummary
以下内容选自Ensemble Methods Foundations and Algorithms (Zhihua Zhou) 。 A General Boosting Procedure 总的来说Boosting是一种将多个弱分类器(仅比随机猜测好)进行组合,通过对弱分类器的boosted变成强的分类器。一个广义的自助过程(the general boosting procedure)非常简单, ...
阅读全文 »

Sampling From Distribution

发表于 2017-08-12 | 分类于 BriefSummary
Purpose 采样(Sampling)是统计学底下一个比较热门的分支,采样的目的主要有两个: 生成服从某个概率分布\(P(x)\) 的样本\(\{x^{(r)}\}^R_{r=1}\) 估计某个分布\(P(x)\) 的期望 其中概率分布\(P(x)\) 被称为目标密度(target density),我们假设我们已知分布的概率密度,记为 \[ P(x)=\frac{P^*(x)}{Z} \] ...
阅读全文 »

Ad Click Prediction: a View from the Trenches

发表于 2017-08-08 | 分类于 PaperNote
Introduction & Brief System Overview CTR预估是这样一个问题:给定一个查询\(q\) 和根据广告商选择的关键词来匹配查询\(q\) 相关的候选广告\(a\) ,也就是计算概率 \[ P(\text{click}|q,a) \] 通常系统中所用到的特征会涉及方面面,包括查询本身、广告的文本、与广告相关的各种信息等等,同时特征也会非常稀疏,往往只会有少数是 ...
阅读全文 »

Learning Piece-wise Linear Models from Large Scale Data for Ad ClickPrediction

发表于 2017-08-06 | 分类于 PaperNote
Introduction CTR预估(click-through-rate prediction)是广告行业比较常见的问题,根据用户的历史行为来判断用户对广告点击的可能性。该问题的输入往往是数以万计的稀疏特征向量,在进行特征交叉后会维数会更高,比较常见的就是采用对率回归模型加一些正则化,因为对率回归模型计算开销小且容易实现并行。之前facebook的一篇论文中先用树模型做分类之后再加一个对率回归模 ...
阅读全文 »

Collaborative Deep Embedding via Dual Networks

发表于 2017-08-06 | 分类于 PaperNote
Collaborative Deep Embedding ​ 这篇论文的模型跟DeepMatrixFactorizationModelsforRecommenderSystems 思路非常相近,所以前面的废话描述都不重复了,直接来看模型 1 作者的目的也是用非线性的神经网络结构去改进矩阵分解模型,但是作者做出几个变种,如上图的情况,最左边是基本模型,经过多层转换后,最后结果做点积;上图中间是一 ...
阅读全文 »

Deep Matrix Factorization Models for Recommender Systems

发表于 2017-08-05 | 分类于 PaperNote
Introduction ​ 矩阵分解的方法在推荐算法中是目前效果比较好的,本篇论文用深度学习的方法去做矩阵分解,因为矩阵分解是线性的分解关系,引入激活函数做多层计算后可以有非线性的特性,分解后的矩阵可能拟合程度更好。 本篇论文主要有以下几点: 提出了一种基于深度学习的矩阵分解方法,不仅使用了明确打分信息(explicit ratings),还用到了一些没有明确信息的反馈(non-prefere ...
阅读全文 »
<i class="fa fa-angle-left"></i>1…91011<i class="fa fa-angle-right"></i>

101 日志
10 分类
44 标签
RSS
Creative Commons
© 2022 YuyangZhangFTD
由 Hexo 强力驱动
主题 - NexT.Muse