Wide & Deep Learning for Recommender System

发表于 2017-10-13 | 分类于 PaperNote

最近都在读深度学习与推荐系统、CTR预估相关的内容，会带来一系列的分享。今天看的是谷歌的一篇深度学习“范文”。论文中提出，一个推荐系统面临的挑战是memorization和generalization，memorization可以定义为学习共现物品或者特征的频率，并且在历史数据中探索可能出现的相关关系，generalization指的是基于相关关系，探索新的特征组合，简单来说就是，一个是抓住过去 ...

阅读全文 »

A Review for Boosting

发表于 2017-10-12 | 分类于 BriefSummary

A Review for Boosting 最近看GBDT，从头到尾好好地梳理了一下。说到Boosting，总的思路是通过一些weak的base learner，不断累加的思想，你先学，你学的不好的我来学，我学的不好的他来学，这样来提升最后的效果，一种串行合作相互弥补的方式，相比于bagging，bagging则是一种通过不同角度来学习，最后结合提升效果的方法，一种并行分工的合作方式。今天重点来 ...

阅读全文 »

Deep & Cross Network for Ad Click Predictions

发表于 2017-10-05

特征工程一直是很多预测模型效果突出的关键，人工设计等影响因素往往决定这这一环节的好坏，深度学习可以自动学习特征，却很难学到一些交叉特征。本文提出了一种交叉的网络结构的深度学习模型DCN，Deep & Cross Network，可以有效的寻找交叉特征，在CTR预估方面可以取得较好的效果。 DCN模型可以有效学习大规模的稀疏和稠密特征，并且能够有效抓住特征间的交叉关系，并且只需要较低的计算开 ...

阅读全文 »

BDT- Gradient Boosted Decision Tables for High Accuracy and Scoring Efficiency

发表于 2017-10-03 | 分类于 PaperNote

这篇文章是Airbnb的一篇文章，发在KDD2017上，介绍了一篇叫梯度提升决策表（Gradient Boosted Decision Tables）的方法。本文的motivation idea有以下几点：可以更好的理解梯度提升bias和variance的权衡，在降低bias的同时，会造成variance的增加，正则化可以在一定程度上解决这些问题，如shrinkage、subsampling等 ...

阅读全文 »

HoORaYs- High-order Optimization of Rating Distance for Recommender System

发表于 2017-10-02 | 分类于 PaperNote

今天来看一部南大的发在KDD2017上的推荐系统的论文，HoORaYs。传统的推荐系统，不管是基于显示反馈还是隐式反馈的模型，都是在建立在一阶评分距离原则，而本篇论文是一个高阶评分距离的探索，目标不仅是最小化同个用户同个物品的估计评分与真实评分的距离（也就是一阶评分距离），还最小化同一用户不同物品之间，估计值与评分值之间的差异（二阶评分距离），并将该问题作为一个正则优化问题，并提出了解决算法。 $ ...

阅读全文 »

Sparse Matrix in Scipy

发表于 2017-09-30 | 分类于 Python

spmatrix 基本类。 csc_matrix 最为常用的稀疏矩阵格式之一，对列运算支持较高，应该是按列存储稀疏结构，CSC格式优点：高效支持运算符，CSC+CSC,CSC*CSC等等高效列分割快速矩阵向量乘积（可能不如CSR和BSR）缺点：相比如CSR行切割较慢转换为其他稀疏结构较慢，如LIL和DOK csr_matrix 最为常用的稀疏矩阵格式之一，对行运算支持较高，应该 ...

阅读全文 »

A Boosting Algorithm for Item Recommendation with Implicit Feedback

发表于 2017-09-23

AdaBRP 今天这篇看的是一篇ensemble方法和推荐系统结合的文章，提出一个叫AdaBPR（Adaptive Boosting Personalized Ranking），这篇文章前面的Introduction和related work都写不错，还对我一直不太明白的point-wise、pair-wise和list-wise三种基于模型的方法做出了解释，并给出了一系列参考文献： point ...

阅读全文 »

something about SLIM in recommendation system

发表于 2017-09-17 | 分类于 PaperNote

看16年recsys的best paper，Local Item-Item Models for Top-N Recommendation 中提到的SLIM方法，最近抓着这个方法研究了一下。然后还发现了Xia Ning和George Karypis这两位，这两位一直是SLIM相关论文的主要作者，XiaNing应该是George Karypis的学生，从最早的SLIM方法开始，到后面也有两篇（好像是 ...

阅读全文 »

数据库的读写分离

发表于 2017-09-15

数据库读写分离及相关什么是读写分离将数据库分为主数据库和从数据库，主数据库来处理事务性增、删、改操作，让从数据库处理查操作，用数据库复制将事务性操作变更同步到集群的从数据库中。为什么要读写分离主要原因就在于数据量的增加，当单表数据量达到一定条数之后，数据库操作的性能下降，将读写分离后操作会快很多。分库分表方式可以根据主键散列分表，如一些订单号等等，或者是用户的内部一致的userid等等 ...

阅读全文 »

GC in Python

发表于 2017-09-15 | 分类于 Python

Python垃圾回收处理引用计数当一个对象被创建或者复制时，对象的引用计数加一，当对象的引用被销毁时，对象的引用计数减一，当引用计数为0时，会将该对象所占内存释放。优点在于实时性，任何内存一旦没有指向它的引用，就会立即被回收，其它垃圾回收机制是建立在一些特殊条件下。缺点在于维护计数所造成的计算开销。同时，引用计数会造成循环引用，如下所示 12345678a = []b = []a.appe ...

阅读全文 »