ftrl 个人笔记

2017-02-23
阅读 3 分钟
5.5k
sgd 是 online learning 最基本的模式。因为 sgd 的训练出来的特征参数不具有稀疏性,从工程的角度占用内存过大。很多特征的权重其实很小,但因为是非0的也会占用内存空间。所以,需要更好的正则项来找到这些非0项。

auc vs logloss

2016-12-28
阅读 1 分钟
7k
auc 更多的关注的是排序的结果。logloss 则是越小越好。 auc 与 logloss 关系比如 1 1 0 1 预测值 为 0.5 0.5 0.3 0.5 那么 auc 是 1 我们提升预测值到 0.7 0.7 0.4 0.7那么 auc 依然是1 但是 logloss 有了很大的提升。

关于业余时间的信息摄入

2016-11-21
阅读 1 分钟
1.7k
最近半年时间在大量健身,而且有一个虎扑 app。业余时间大量的投入到了这两个业余爱好上。这样导致我业余时间看技术文章的习惯或者时间被大量压缩;也导致另外一个问题,我在周末启动有关机器学习爱好相关的工作的时候,启动能力都有很大的下降,我已经有超过两周周末没有有效的工作。

lr 学习

2016-10-17
阅读 1 分钟
1.7k
公式$$f(X_k + ad) = f(X_k) + ag_k^Td+ o(a) tag{1}$$这里解释下 $X_k$ 代表一个自变量, $a$ 代表你步长(实数), d是单位向量(|1|), $g_k^T = nabla f(X_k)$是在$X_k$这一点的梯度.$o(a)$是a的高阶无穷小. 参考下泰勒公式:$$f(x+h) = f(x) + f'(x)*h + o(h)$$是一样的.

local variable 'var1' referenced before assignment

2016-04-01
阅读 1 分钟
3.5k
起初是群里一个哥们这句话报错。后来之前的一个实习生,给出了链接来解释这个问题。 我竟然没看懂.... [链接] 代码如下: {代码...} 其实这个代码不能很好的反应问题。来看以下两个case {代码...} 我一开始没理解这个问题。看到assign variable 和access variable 粗略的理解成不能够在闭包函数中改变上层函数的变量。但...

如果你也google 过ei capitan ipython mac ...

2015-12-31
阅读 1 分钟
2.7k
事情是这样的。我在升级了ei capitan后,发现自带的python,安装ipython,怎么都无法在命令行调用。而且必须sudo pip,而在ei capitan 加了一种保护机制后,sudo 已经不被推荐。但是我不知道到问题在哪啊... 坑。

短文本(微博)分类

2015-11-02
阅读 1 分钟
7.7k
长文本分类方法。84%尝试用Word2vec对tfidf大的词汇进行扩展。 不可用。 尝试用lda来扩展特征。 86%. ------ 因为lda扩展的特征有限。一般一条微博只能扩到1到2个特征。尝试使用bigram来做特征扩展,效果最好。基于libshorttext。 95% 以上。 ------ 就是textgrocery。

协同过滤及user-cf,item-cf在新闻应用中的优缺点。

2015-10-29
阅读 2 分钟
6.3k
协同过滤 协同过滤分为memory based和model based。user cf 和 item cf 都是基于此的 user cf 列是user,行是item。目的是计算用户之间的相似度,来填补图中item5的评分。 找相似 用皮尔逊相关系数,cosine等来计算相似度。 计算物品评分,并排序。公式如下。$$p(u,i) = \overline{r_u} + \frac{\sum_{v \in N} sim(u,v)...

kafka设计与原理详解

2015-10-28
阅读 5 分钟
17k
Kafka 设计与原理详解 [TOC] kafka 应用场景 日志收集 消息系统 解耦生产者和消费者、缓存消息。 用户活动跟踪: 就是我们在做的。 运营指标:生产各种操作的集中反馈。 流式处理:比如spark steaming kafka的发布对象是topic。每类数据我们可以归为一个topic。向topic发送消息的我们称为生产者、从topic订阅消息的称为co...

mongodb 存储

2015-10-15
阅读 2 分钟
2.5k
storgaesize 是分类的存储来hold the doc 43438080 BYTE /1024/1024-- 41Mfilesize 是数据文件的大小。2666528768 -- 2.48g

凸优化

2015-09-17
阅读 1 分钟
3k
定义:通过集合C中任意两个不同点的直线仍然在集合C内,则称集合C为仿射集。$$\forall \theta \in R , \forall x_1,x_2 \in C, $ 则$ x = \theta x_1 + (1 - \theta)x_2$$

关于根据概率来随机sampling according to probability distribution

2015-07-30
阅读 2 分钟
2.3k
问题 基本问题是这样的:当我们扔一个骰子的时候是等概率的出现数字。那这个问题容易模拟。但我们能不能模拟不等概率的骰子呢。 思路 最简单 给定一组序列 l = [(4,0.4),(3,0.3),(2,0.2),(1,0.1)]。 对应数字:出现概率 基于此最简单的思路 看代码。 {代码...} 思路很明确了。随机一个数n(假定0-1之间),然后从0开始加l的...

python multiprocess 使用 yield

2015-07-19
阅读 1 分钟
6.5k
python在处理数据的时候,memory-heavy 的数据往往会导致程序没办反运行或者运行期间服务器其他程序效率受到影响。这种情况往往会把数据集合变为通过genertor来遍历。

linux 个人总结

2015-06-15
阅读 5 分钟
3.1k
title: "linux" date: 2015-03-27 16:46 shell && 基本语法 基础命令 if 语法 {代码...} cp {代码...} grep 参考链接 {代码...} du -Bcrontab 注意的地方: 默认root用户执行。 添加 python path。python 路径。 vim {代码...} AWK NF 妙用 在awk中大家都知道NF的作用,它是一个awk的内建变量,代表是每行的字段...

关于linux 前后台的相关命令。(总结别人)

2015-05-28
阅读 2 分钟
5.1k
首先是 fg、bg、jobs、&、nohup、ctrl+z、ctrl+c 命令 一、& {代码...} 二、ctrl + z {代码...} 三、jobs {代码...} 四、fg {代码...} 五、bg {代码...} 六、kill {代码...} 七、nohup {代码...} 以上了解完,对于将程序运行在后台还有几种方案。 Linux运行与控制后台进程的方法:nohup, setsid, &, disown,...

收藏一个python通过uft8 编码来提取中文的例子

2014-12-29
阅读 1 分钟
7.7k
打开txt文件 读取txt文件中的文本 用正则匹配获取中文 将其内容写入到另一个文本中 python实现: import imp import sys imp.reload(sys) sys.setdefaultencoding('utf-8') #设置默认编码,只能是utf-8,下面\u4e00-\u9fa5要求的 import re pchinese=re.compile('([\u4e00-\u9fa5]+)+?') #判断是否为中文的正则表达式 f=op...

转 python中包含UTF-8编码中文的列表或字典的输出

2014-12-27
阅读 1 分钟
24.4k
dict = {"asdf": "我们的python学习"} print dict {'asdf': '\xe6\x88\x91\xe4\xbb\xac\xe7\x9a\x84python\xe5\xad\xa6\xe4\xb9\xa0'} 在输出处理好的数据结构的时候很不方便,需要使用以下方法进行输出: import json print json.dumps(dict, encoding="UTF-8", ensure_ascii=False) {"asdf": "我们的python学习"} 注意...

关于 “和身边人” 比

2014-12-27
阅读 1 分钟
2.7k
上学的时候,学习上我们总是有一个目标, 超越李xx,搞定孙xx的。再比如,你看别人家的小孩又考了第一,你怎么搞的。每次,回忆这些,都会释然一笑,那时候也是蛮拼的。但,这些啊,”我要超越xx啊“ 很多时候是只能瞒在自己的内心的。说出来,很多人会告诉你,你现在考第一又怎么样?你在市里的排名呢? 省呢?不要把局限...

写django中遇到的基本问题。

2014-12-16
阅读 1 分钟
2.3k
重启apache: 一般修改template不需要重启。 修改views.py 这个是需要重启的,不过有时候你不重启也能看到一次效果,但是往后走就会出问题了。 修改urls.py 是必须重启的,因为需要重新载入wsgi.py

部署apache,使用virtualenv,遇到的no module named django.core.wsgi

2014-12-11
阅读 1 分钟
6.8k
第一种,就是你的virtualenv没有激活,且你的django 安装在了这个virtualenv中。这种情况下,你就把virtualenv激活就好了。