python 文件运行 scrapy

Question

python 文件运行 scrapy

发布于
2016-08-26

更新于
2016-08-26

写了一个scrapy，程序可以跑，没有任何问题。
爬下30个网站的body存入json文件，并且保存为test.json
如果test.json存在就保存到一个新建的test1.json
新建了一个python文件叫check.py，对比两个文件的hash值，如果有不一样，就发邮件到我邮箱。
在这个check.py内有一句os.system(scrapy crawl xxxx)
问题来了。。因为希望能定时运行，比如我在win上设置了定时执行计划，则每5分钟执行一次。这个是可以的。
有个问题和vps上一样，系统是centos 6。
比如随意在一个地方，用路径的方式打开这个check.py文件

python Documents/check_web/check.py
Scrapy 1.1.1 - no active project

Unknown command: crawl

Use "scrapy" to see available commands
0s
10s
Traceback (most recent call last):
  File "Documents/check_web/check.py", line 35, in <module>
    f1 = open("./test.json", "rb")
IOError: [Errno 2] No such file or directory: './test.json'

check.py大致如下

def getJson():
    os.system('scrapy crawl check_web_sprider')
    time.sleep(10)


def getHash(f):
    line = f.readline()
    hash = hashlib.md5()
    while (line):
        hash.update(line)
        line = f.readline()
    return hash.hexdigest()


def IsHashEqual(f1, f2):
    str1 = getHash(f1)
    str2 = getHash(f2)
    return str1 == str2


if __name__ == '__main__':
    f1 = open("./test.json", "rb")
    f2 = open("./test1.json", "rb")

    if (IsHashEqual(f1, f2) is False):
        def _format_addr(s):
            name, addr = parseaddr(s)
            return formataddr(( \
                Header(name, 'utf-8').encode(), \
                addr.encode('utf-8') if isinstance(addr, unicode) else addr))

求问为什么会这样。。路径的方式就会显示

Scrapy 1.1.1 - no active project

Unknown command: crawl

但是如果我进入到check.py的路径下然后

python check.py

就没有任何问题。。爬虫也能正常工作。。
非常抱歉文笔不太好希望有人能看懂。。并且又知道如何解决。
thx！

check.py是在scrapy的工程目录下的。。

centos linux

python scrapy

阅读 5.6k

1 个回答

citaret

路径问题，crawl 命令需要在工程目录中使用，同时，在其它路径中运行脚本，./test.json会保存在当前的工作目录中。

先得到绝对路径：

app_path = os.path.dirname(os.path.realpath(__file__))

打开文件用：

f1 = open(os.path.join(app_path, "test.json"), "rb")

运行 scapy 建议用 subprocess，试试加上 cwd=app_path，指定工作路径。

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

python 文件运行 scrapy

你尚未登录，登录后可以

求救，我现在想批量给500多台线上linux服务器下发脚本有什么好用的图形化工具推荐嘛？

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

为什么在 aws 新开 ec2 机器不显示价格？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

如何使用 python 代码实现迅雷磁力链接资源的下载？

如何实现一个深拷贝函数？

请问，FastAPI如何获取到前端上传的二进制文件并且返回？

python 文件 运行 scrapy

你尚未登录，登录后可以

求救，我现在想批量给500多台线上linux服务器下发脚本有什么好用的图形化工具推荐嘛？

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

为什么在 aws 新开 ec2 机器不显示价格？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

如何使用 python 代码实现迅雷磁力链接资源的下载？

如何实现一个深拷贝函数？

请问，FastAPI如何获取到前端上传的二进制文件并且返回？

python 文件运行 scrapy