LinkRank

2014-07-31
阅读 1 分钟
2.6k
在 Nutch 中,网页的分数主要基于 TF-IDF 和 Nutch 自己的一套识别链接重要性的算法,如果纯按这个算法网页的排序效果不是很好,Nutch 新版本中有一个类 PageRank 的算法 LinkRank,能够根据网页的出链接,入链接来计算网页的重要性。下面是一个简单的示范。

Lucene索引升级

2014-06-24
阅读 3 分钟
3.9k
由于Lucene文件格式从2到3以及从3到4版本时都发生了重大的改变,造成了高版本无法读取低版本的数据,使用Lucene中的IndexUpgrader方法先将版本从2升到3,然后再从3升级到4。

LeetCode 4

2014-06-13
阅读 2 分钟
2.5k
Given n points on a 2D plane, find the maximum number of points that lie on the same straight line.

LeetCode 3

2014-06-13
阅读 2 分钟
2.3k
Evaluate the value of an arithmetic expression in Reverse Polish Notation.

LeetCode 2

2014-06-11
阅读 2 分钟
2.4k
Given an input string, reverse the string word by word. For example, Given s = "the sky is blue", return "blue is sky the".

LeetCode 1

2014-06-10
阅读 1 分钟
2k
Given an array of integers, every element appears twice except for one. Find that single one.Your algorithm should have a linear runtime complexity. Could you implement it without using extra memory?

编写Ansj的Solr插件

2014-02-25
阅读 4 分钟
6.2k
在一个基于Solr搜索的项目中之前使用的IKAnalyzer分词效果不是很好,师兄推荐我用Ansj,但是当时Ansj没有Solr的插件,在作者Github项目主页的issue中作者也说不准备支持Solr,当时就放弃了。前几天一个同学说Solr有第三方的Solr插件ansj4solr,下载使用发现该插件不支持1.1版本以上的Ansj,因为Ansj在1.1的时候修改了分...

消除失效链接

2014-02-21
阅读 1 分钟
3.6k
之前项目中涉及到一个爬虫来爬取数据,爬取的网页中存在两种失效网页的情况,一种是网页中的信息已经过期,对应网站已经将对应的网页删去,另一种情况是爬取的网页页面中包含错误的链接,这些链接由于地址的错误或者本身是相对链接而无法访问。