假设我有一个文件A包含一些词(大概有1000多个词),另外5个文件S包含的都是句子(大概有3-4亿个句子)。
现在我想统计出A文件中每个单词,在S文件中句子所包含数量,就是S文件中有几个句子包含指定单词。
那么我在编写mapper.py中应该怎样输入这两类文件呢?
下面这么写可以吗?
#! /usr/bin/env python
#encoding=utf-8
import sys
f = file("words.txt")
for word in f.readlines(): # 每行包含一个单词
for line in sys.stdin: # 从HDFS中读入包含句子的文件,每一行包含一个句子
if word in line.strip():
print '%s\t%s' % (word,1)
将文件A作为输入,Mapper中读文件。
下面是在Hadoop2下的代码(测试通过)。
mapper.py:
reducer.py:
运行任务:
关于Hadoop之前的版本,需要修改hadoop-streaming-x.x.x.jar的位置。