GC in Python

发表于 2017-09-15 | 分类于 Python

Python垃圾回收处理引用计数当一个对象被创建或者复制时，对象的引用计数加一，当对象的引用被销毁时，对象的引用计数减一，当引用计数为0时，会将该对象所占内存释放。优点在于实时性，任何内存一旦没有指向它的引用，就会立即被回收，其它垃圾回收机制是建立在一些特殊条件下。缺点在于维护计数所造成的计算开销。同时，引用计数会造成循环引用，如下所示 12345678a = []b = []a.appe ...

阅读全文 »

python的dict源码解读

发表于 2017-09-15 | 分类于 Python

python的dict源码解读 PyDictEntry 12345typededf struct{ Py_ssize_t me_hash; PyObject *me_key; PyObject *me_value;} PyDictEntry 其中me_hash 用于存储hash值 PyDictObject 123456789101112typedef struct _di ...

阅读全文 »

Incremental Collaborative Filtering for Highly-Scalable Recommendation Algorithms

发表于 2017-09-14 | 分类于 PaperNote

因为最近在公司搞一个实时性要求比较高的推荐，所以最近会看一些新闻推荐、实时推荐相关的论文，今天这篇是一篇比较老的增量学习+协同过滤的论文，想法很简单，就是在计算相似度时分类讨论，不同情况选择不同的增量方式，尽最大的可能性减少计算量。传统的相似度计算方式为 \[ \text{sim}(u_x,u_y)=\frac {\sum^n_{h=1}(r_{u_x,i_h}-\overline{r_{u_x ...

阅读全文 »

Exploiting Music Play Sequence for Music Recommendation

发表于 2017-09-12 | 分类于 PaperNote

这篇文章发在IJCAI2017上，是一篇音乐推荐的文章，简单解读一下。用户在听歌的时候会留下很多数字信息，不仅可以反映出用户的喜好，还能够反映出歌曲之间的相似度，这在之前的音乐推荐中是不被重视的。本文提出了一种个性化的音乐推荐算法，能够有效地刻画出用户的喜好，作者先用word embedding方法估计歌曲之间的相似度，之后再将学习到的相似度嵌入矩阵分解模型中，来提升潜在特征的辨识度，一般选取\ ...

阅读全文 »

pytorch note 09.09

发表于 2017-09-09 | 分类于 Python

Pytorch note 09.09 求导机制每个变量的requires_grad 表明这个变量是否需要计算导数，在创建变量的时候进行设定 z = Variable(torch.randn(5, 5), requires_grad=True) 这个参数可以让我们动态的调整每个变量是否需要梯度和是否更新。 volatile 是干什么的暂时没有看懂，先留个坑。 torch pytorch的基本包to ...

阅读全文 »

Recommendation vs Sentiment Analysis- A Text-Driven Latent Factor Model for Rating Prediction with Cold-Start Awareness

发表于 2017-09-03 | 分类于 PaperNote

这篇论文核心思想是利用评论去解决冷启动问题同时增加预测的准确性，发表在IJCAI上，给我感觉稍微有点水的意味，文章中具体训练步骤说的不是很清楚，可能是我之前没有接触过，先挖个坑，以后填 TLFM 文中的主要思想是利用矩阵分解探究潜在影响因素，文中作者提出加入评论的个人因素作为补充： \[ \hat{y}_{ui}=g(base+(\sum_{w\in W(r_{ui})}\alpha_wv_w^T ...

阅读全文 »

Application of Dimensionality Reduction in Recommender System

发表于 2017-09-02 | 分类于 PaperNote

这篇论文应该是最早用SVD做推荐系统的文章，观点早已烂大街，前面篇幅的推荐方法分析也不是很适用现在的情况，本篇就记录一下算法细节。 Existing Recommender Systems Approaches and their Limitations 大部分协同过滤算法都是通过构造近似的近邻来达到推荐的目的，推荐算法分为：预测用户对物品的打分推荐用户最有可能买的物品Top-N 目前推荐 ...

阅读全文 »

Understanding Bias and Variance

发表于 2017-08-24 | 分类于 BriefSummary

今天读ESL，看到第二章中对LS(Least Square)和k-NN的bias和variance对比，突然有了些新的理解，在这里记录一下。 All we know 放一张经常可以看到的图，这张图来自机器学习中的Bias(偏差)，Error(误差)，和Variance(方差)有什么区别和联系？中的@修宇亮的回答。 1 原图应该是PRML里的图好像，记不清了。还有之前文章中写得 2 ...

阅读全文 »

Combination Methods

发表于 2017-08-17 | 分类于 BriefSummary

Benefits of Combination 当我们能够生成一堆基学习器后，与其尝试寻找最好的单个学习器，集成方法通过结合的方式产生更好的泛化性能，其中结合的方式是非常重要的一环。通过结合我们有以下的几个好处 statistical issue：当我们的假设空间过大，而数据量受限的时候，会有多种不同的假设能够达到相同的准确度，如果学习算法选择了其中之一，就会有一定风险在真实数据上犯错，而通过结 ...

阅读全文 »

Bagging

发表于 2017-08-17 | 分类于 BriefSummary

以下内容选自Ensemble Methods Foundations and Algorithms (Zhihua Zhou) 。 Two Ensemble Paradigms 与Boosting相对的，就是Bagging方法，Boosting属于一种串行的集成方式，而Bagging是一种并行的集成方式。集成学习方法都用到了基学习器的独立性，Boosting串行的方式是通过自助(boost)的方式 ...

阅读全文 »