Arvin's Blog

Poem & Algorithm


  • 首页

  • 分类

  • 关于

  • 归档

  • 标签

  • 搜索

Wide & Deep Learning for Recommender System

发表于 2017-10-13 | 分类于 PaperNote
最近都在读深度学习与推荐系统、CTR预估相关的内容,会带来一系列的分享。今天看的是谷歌的一篇深度学习“范文”。 论文中提出,一个推荐系统面临的挑战是memorization和generalization,memorization可以定义为学习共现物品或者特征的频率,并且在历史数据中探索可能出现的相关关系,generalization指的是基于相关关系,探索新的特征组合,简单来说就是,一个是抓住过去 ...
阅读全文 »

A Review for Boosting

发表于 2017-10-12 | 分类于 BriefSummary
A Review for Boosting 最近看GBDT,从头到尾好好地梳理了一下。 说到Boosting,总的思路是通过一些weak的base learner,不断累加的思想,你先学,你学的不好的我来学,我学的不好的他来学,这样来提升最后的效果,一种串行合作相互弥补的方式,相比于bagging,bagging则是一种通过不同角度来学习,最后结合提升效果的方法,一种并行分工的合作方式。今天重点来 ...
阅读全文 »

Deep & Cross Network for Ad Click Predictions

发表于 2017-10-05
特征工程一直是很多预测模型效果突出的关键,人工设计等影响因素往往决定这这一环节的好坏,深度学习可以自动学习特征,却很难学到一些交叉特征。本文提出了一种交叉的网络结构的深度学习模型DCN,Deep & Cross Network,可以有效的寻找交叉特征,在CTR预估方面可以取得较好的效果。 DCN模型可以有效学习大规模的稀疏和稠密特征,并且能够有效抓住特征间的交叉关系,并且只需要较低的计算开 ...
阅读全文 »

BDT- Gradient Boosted Decision Tables for High Accuracy and Scoring Efficiency

发表于 2017-10-03 | 分类于 PaperNote
这篇文章是Airbnb的一篇文章,发在KDD2017上,介绍了一篇叫梯度提升决策表(Gradient Boosted Decision Tables)的方法。本文的motivation idea有以下几点: 可以更好的理解梯度提升bias和variance的权衡,在降低bias的同时,会造成variance的增加,正则化可以在一定程度上解决这些问题,如shrinkage、subsampling等 ...
阅读全文 »

HoORaYs- High-order Optimization of Rating Distance for Recommender System

发表于 2017-10-02 | 分类于 PaperNote
今天来看一部南大的发在KDD2017上的推荐系统的论文,HoORaYs。传统的推荐系统,不管是基于显示反馈还是隐式反馈的模型,都是在建立在一阶评分距离原则,而本篇论文是一个高阶评分距离的探索,目标不仅是最小化同个用户同个物品的估计评分与真实评分的距离(也就是一阶评分距离),还最小化同一用户不同物品之间,估计值与评分值之间的差异(二阶评分距离),并将该问题作为一个正则优化问题,并提出了解决算法。 $ ...
阅读全文 »

Sparse Matrix in Scipy

发表于 2017-09-30 | 分类于 Python
spmatrix 基本类。 csc_matrix 最为常用的稀疏矩阵格式之一,对列运算支持较高,应该是按列存储稀疏结构,CSC格式优点: 高效支持运算符,CSC+CSC,CSC*CSC等等 高效列分割 快速矩阵向量乘积(可能不如CSR和BSR) 缺点: 相比如CSR行切割较慢 转换为其他稀疏结构较慢,如LIL和DOK csr_matrix 最为常用的稀疏矩阵格式之一,对行运算支持较高,应该 ...
阅读全文 »

A Boosting Algorithm for Item Recommendation with Implicit Feedback

发表于 2017-09-23
AdaBRP 今天这篇看的是一篇ensemble方法和推荐系统结合的文章,提出一个叫AdaBPR(Adaptive Boosting Personalized Ranking),这篇文章前面的Introduction和related work都写不错,还对我一直不太明白的point-wise、pair-wise和list-wise三种基于模型的方法做出了解释,并给出了一系列参考文献: point ...
阅读全文 »

something about SLIM in recommendation system

发表于 2017-09-17 | 分类于 PaperNote
看16年recsys的best paper,Local Item-Item Models for Top-N Recommendation 中提到的SLIM方法,最近抓着这个方法研究了一下。然后还发现了Xia Ning和George Karypis这两位,这两位一直是SLIM相关论文的主要作者,XiaNing应该是George Karypis的学生,从最早的SLIM方法开始,到后面也有两篇(好像是 ...
阅读全文 »

数据库的读写分离

发表于 2017-09-15
数据库读写分离及相关 什么是读写分离 将数据库分为主数据库和从数据库,主数据库来处理事务性增、删、改操作,让从数据库处理查操作,用数据库复制将事务性操作变更同步到集群的从数据库中。 为什么要读写分离 主要原因就在于数据量的增加,当单表数据量达到一定条数之后,数据库操作的性能下降,将读写分离后操作会快很多。 分库分表方式 可以根据主键散列分表,如一些订单号等等,或者是用户的内部一致的userid等等 ...
阅读全文 »

GC in Python

发表于 2017-09-15 | 分类于 Python
Python垃圾回收处理 引用计数 当一个对象被创建或者复制时,对象的引用计数加一,当对象的引用被销毁时,对象的引用计数减一,当引用计数为0时,会将该对象所占内存释放。 优点在于实时性,任何内存一旦没有指向它的引用,就会立即被回收,其它垃圾回收机制是建立在一些特殊条件下。 缺点在于维护计数所造成的计算开销。同时,引用计数会造成循环引用,如下所示 12345678a = []b = []a.appe ...
阅读全文 »
<i class="fa fa-angle-left"></i>1…9101112<i class="fa fa-angle-right"></i>

116 日志
10 分类
56 标签
RSS
Creative Commons
© 2025 YuyangZhangFTD
由 Hexo 强力驱动
主题 - NexT.Muse