一只爬虫(一)

2019-11-30
阅读 3 分钟
2.4k
本篇无标题,都说爬虫写得好,牢饭吃到饱,本来不想写爬虫的,毕竟风险有点高,但是作为一个搞搜索的人,怎么能不了解一下爬虫呢,怎么能不自己深入了解一下爬虫的原理呢,而且,知道了爬虫的一般性原理和一些开源的爬虫框架以后,写出一个自己的小爬虫并不是一件很难的事情,而一个自己的小爬虫,有时候还是很有用的,...

Lucene系列(一)代码结构

2017-08-17
阅读 2 分钟
5.5k
最近一直在看Lucene的源码和文档,把看到的一些东西总结一下,整个Lucene的代码也大体的撸了一遍了,Lucene的代码写得真是不错,结构简单明了,扩展性也非常强,基本上所有的模块都是接口型的,几乎都有扩展的可能,并且可以以非侵入式的方式进行扩展,后来的在Lucene之上的Elasticsearch也很好的继承了这一点,扩展性也...

简单的流量控制系统

2017-07-03
阅读 4 分钟
9.5k
在一个后台系统中,流量控制属于基础组件的功能,其实,在很久之前的通讯时代,流量控制就已经非常成熟了,在路由器交换机上面几乎都有全面的流量控制的解决方案,像QoS这类流量整形的方案,都已经是在网络模型的各个层来进行流量的控制和分发了,可以按照通道,按照端口,IP,MAC,业务类型等各个维度对流量进行整形和...

你真的了解跳跃表吗

2017-05-24
阅读 3 分钟
11k
最近换了工作,因为工作的需要,也正好自己想好好研究一下Java这门牛逼的语言,看了一下ElasticSearch和Lucene的源码,之前从来没有写过也没有看过Java的东西,所以也算是恶补了一下Java吧,由于是从C程序员开始的,所以对这种带虚拟机的语言总有一些偏见,老觉得内存不好控制,所以一直以来都没有怎么碰过Java,最近静...

输入一个URL

2017-05-11
阅读 3 分钟
4.2k
前几天看到一个题目,问在浏览器中输入一个URL会发生神马,这好像是网上比较流行的面试题,而且也被回答烂了,仔细想下来,要是自己遇到这个题目能不能答上来,后来一想,这个题目要完全答出来可以把大学开始的几乎所有知识都用上。呵呵,为了模拟面试,所以都凭印象说的,没有查网络资料,所以估计很多地方都不对,欢迎...

我爬了价值1800亿的商品信息

2017-03-18
阅读 5 分钟
4k
好久没来了,今天来聊聊个有意思的吧,这些天由于一些原因,自己撸了个爬虫框架,因为要测试一下效果,于是到处爬东西,爬了不少有意思的数据,后面也会说一些别的数据,那天,连爬了四天绿中介的网站,说句实在的,绿中介反爬做得还行,阵亡好多代理ip,而且有些个代理还没用就已经被封了,当然,对于这种不需要登录的...

年度语言 golang 使用感受

2017-01-16
阅读 4 分钟
17.6k
2016年已经过去,16年的年度语言给了go语言,而正好这一年我都是用go用得比较多,而且版本从1.2一直用到了1.8,有一些感受,来说说我对这个年度编程语言的一些粗浅理解吧。之前也写过一篇go语言的文章,但是那时候用得还不是很多,有些特性没有用上,所以理解上和今天的有些不同。

流量和广告

2016-12-06
阅读 4 分钟
5.7k
今天来聊聊一个轻松点的话题,同时也是水很深的话题,那就是互联网的流量和广告,也就是目前为止,互联网最基础的赚钱方式,一旦你有了互联网的流量,把流量变成广告进行变现是最直接,也是最容易想到的赚钱方式。

机器学习中的模型和数据

2016-11-09
阅读 3 分钟
14k
很久很久没有更新了,并不是我自己不想,确实是最近太忙了,不管是工作上还是生活上都很忙,唉,之前希望自己能够坚持写博客,没有坚持下来,最近这段时间也是,其实时间吧,能挤还是能挤出来的,但是好不容易挤出来一点时间,不是用来刷手机,就是用来看书了,因为买了一大堆的书也没时间看,后来想想,自己也不是总理...

后端的轮子(四)--- 容器

2016-08-12
阅读 10 分钟
10k
容器,目前最火的话题了,在后端的开发中,容器的运用也已经是主流技术了,今天,我们就来说说容器技术,之前我对这一块的了解不是很多,但是最近有些特殊原因转成运维工程师了,而公司的全线服务都是docker的,以一个开发人员的习惯,转成运维以后,还是想对这种东西总想深入了解一下,于是看了不少相关资料并且看了一...

后端的轮子(三)--- 缓存

2016-07-30
阅读 8 分钟
11.3k
今天这一篇没想到会这么长,后面有一段是写网络模型的,和缓存本身的关系不大,只是写到那里就想到了这个问题,多写了一些,那一段是我自己的理解,肯定有不对的地方,欢迎讨论拍砖。

后端的轮子(二)--- 数据库

2016-07-18
阅读 4 分钟
6.1k
本篇趟个雷,把数据库纳入到轮子中了,前面说到了数据库其实不算轮子,也说到了其实我写不出来数据库,这里所说的数据库严格来说是关系型数据库,他比轮子复杂多了,是一个和操作系统差不多复杂度的东西,所以才能通过一个oralce养活一家全球50强的公司,其次,数据库太复杂了,要写出来实在是力所不能及,但是后来有想...

后端的轮子(一)

2016-07-07
阅读 2 分钟
7.9k
最近读了一下kafka的源码,真的是很蛋疼,本来准备写一篇长的关于消息队列的文章,结果看到某团的技术团队有一篇文章了,而且消息队列的东西基本上写全了,就不凑热闹了。

技术文章的正确打开方式

2016-06-30
阅读 3 分钟
3k
今天这篇文章是想起来随便扯的,大概花了一小时,没有营养别见怪。自觉关闭赞赏:)写了将近两个月的,最开始希望把自己懂的东西都写出来分享出来,毕竟也不是什么很高深的东西,写的这两个月时间中发现一些问题,自己觉得挺有意思的,分享出来给大家看看。这两个月写了不少文章,我发现有几篇文章点击率明显高于其他的...

相关搜索 --- 离线和在线的结合

2016-06-30
阅读 6 分钟
7.3k
在说正题之前还是先来闲扯一下,都说产品经理的想象和最后工程师的实现之间差了十万八千里,同样的,算法的模型和最后的工程化部分也是差了十万八千里。看到一个好的算法的论文,一看卧槽这么牛逼,感觉能解决一切问题,于是想尽一切办法想要用到系统中,发现实现的过程中坑无数,这样的例子数不胜数。

Trie树结构

2016-06-27
阅读 4 分钟
9.4k
在计算机科学中,trie,又称前缀树或字典树,是一种有序树,用于保存关联数组,其中的键通常是字符串。与二叉查找树不同,键不是直接保存在节点中,而是由节点在树中的位置决定。一个节点的所有子孙都有相同的前缀,也就是这个节点对应的字符串,而根节点对应空字符串。一般情况下,不是所有的节点都有对应的值,只有叶...

相关搜索 --- 搜索中的推荐

2016-06-20
阅读 6 分钟
12.3k
互联网从开始出现,如果就信息获取方面的话,到现在经历了三个大的时期,最开始是人工信息的分类时期,作为一个上了岁数的人,是经历过那个时期的,那个时期如何来找信息呢?我们来看看几张图,下面这张图是1999年1月的搜狐主页,中间那一片就是人工整理出来的分类。

坑系列 --- 时间和空间的平衡

2016-06-16
阅读 7 分钟
4.8k
这是坑系列的最后一弹了,这篇文章非常长,希望你能看完,要是看完有很酣畅的感觉就最好了。这一篇的坑主要来说说架构中时间和空间的平衡吧,这里的时间指代比较广,可能是开发时间,但大部分指的是执行时间,也就是算法的时间复杂度了,而空间就是算法中经常说的空间换时间中的空间了,一个好的系统,设计出来必然是各...

坑系列 —— 缓存+哈希=高并发?

2016-06-12
阅读 5 分钟
10.4k
今天继续坑系列,高可用已经讲过了,当前互联网时代,怎么少的了高并发呢?高并发和高可用一样, 已经变成各个系统的标配了,如果你的系统QPS没有个大几千上万,都不好意思跟人打招呼,虽然可能每天的调用量不超过100。

坑系列 --- 高可用架构的银弹

2016-06-07
阅读 3 分钟
6.8k
呵呵,题图是一队困在坑中的鸭子:)作为一个搬砖的,我经常被困着。今天高考,想起15年前的今天(哦,那时候是七月高考),恩,考完了,还不错,然而15年后还是搬砖:)

坑系列 --- 重构过程中的过度设计

2016-06-02
阅读 4 分钟
7.1k
这个系列是坑系列,会说一些在系统设计,系统架构上的坑,这些都是我想到哪说到哪,有像这篇一样比较宏观的坑,后面的文章也会有到具体技术细节的(比如某个函数,某个系统调用)坑,总之,到处都是坑,这些坑有些是我经历过的,有些是听说的,你也可以留言说说你遇到的坑。

推荐系统技术文本相似性计算(三)实战篇

2016-05-31
阅读 8 分钟
12.9k
前两篇可以直接看我的专栏或者文本相似性计算(一)文本相似性计算(二)前面说了两篇了,分别介绍了TFIDF和向量空间的相关东西,然后介绍了主题模型,这一篇我们就来试试这两个东西。词向量就不在这篇试了,词向量和这两个关系不大,不好对比,不过我最后也给出了代码。

推荐系统技术 --- 文本相似性计算(二)

2016-05-29
阅读 4 分钟
6.1k
第一篇地址:[链接]上一篇中我们的小明已经中学毕业了,今天这一篇继续文本相似性的计算。首先前一篇不能解决的问题是因为我们只是机械的计算了词的向量,并没有任何上下文的关系,所以思想还停留在机器层面,还没有到更高的层次上来,正因为这样才有了自然语言处理这门课程了。

搞机器学习要哪些技能

2016-05-27
阅读 5 分钟
16.4k
本来这篇标题我想的是算法工程师的技能,但是我觉得要是加上机器学习在标题上,估计点的人会多一点,所以标题成这样了,呵呵,而且被搜索引擎收录的时候多了一个时下的热门词,估计曝光也会更多点。不过放心,文章没有偏题,我们来说正经的。

分布式搜索引擎(二)

2016-05-25
阅读 3 分钟
5.1k
前面已经有一篇分布式搜索引擎了,主要介绍的是搜索引擎的索引分片和数据同步,实际上是解决的分布式的问题,最后我给出了一个图 这个图最后出来的是一个低可用的分布式搜索引擎,今天我们要解决的问题是把这个低变成高,今天这篇非常简单,没有任何高级技术,看完你就知道了。 1. 为什么会是低可用 我们得知道为什么这...

推荐系统技术之文本相似性计算(一)

2016-05-24
阅读 4 分钟
12.7k
推荐系统分为两种,一种是基于用户的,根据某个用户的特性推荐一些东西,还有一种是根据内容,推荐一些相似的内容,或者是两种的结合,任何推荐系统,仔细分析下来,都属于这两种情况的组合。

面壁人VS智子 --- 搜索排序的作弊和反作弊

2016-05-23
阅读 5 分钟
4k
搜索引擎已经是目前网络流量最大入口,在大搜上,基本上大家打开网页做的第一件事情就是打开一个搜索引擎,然后键入你感兴趣的内容,然后开始浏览。如果是个电商的网站,你打开以后,基本上也是直接键入你感兴趣的内容,然后开始浏览。

分布式搜索引擎设计

2016-05-19
阅读 6 分钟
9.2k
我个人感受啊,分布式和高可用是随着最近这些年阿里的双11活动火起来的,放眼全球,好像没有哪个公司的系统会在瞬间承接这么大的流量,并且还是绝对不能出错的交易流量,所以阿里确实积累了全球最丰富的高可用和分布式的经验,再加上各种技术大会一分享,这两个词就变成一个互联网公司技术系统的标配了。

用Golang写一个搜索引擎(0x0B)--- 第一部分结束

2016-05-18
阅读 3 分钟
5.1k
这一篇算给这一个系列告一个小的段落,之前开始写这些文章的时候,只是想把自己最近用Golang写的这个搜索引擎说一说,准备了大概3,4篇的量,但是一写下来,发现有点收不住,写到后面其实和Golang没什么关系了,主要在写搜索引擎的架构和一些数据结构了,我觉得这比写代码注释有用吧,而且通过这样写下来,我自己对这些...

搜索引擎(0xFD) --- 论长尾词

2016-05-16
阅读 4 分钟
4.9k
今天的标题是论长尾词,长尾词是什么?在百度百科上,长尾词解释是:非目标关键词但也可以带来搜索流量的关键词。这是一个明显的SEM的长尾词解释,简单来说,长尾词就是那些个每天搜索量不是很多,但是一直都有搜索量的词。