使用 python 读取 github 文件返回 HTML 标签

新手上路,请多包涵

我正在尝试使用请求包读取保存在 github 中的文本文件。这是我正在使用的 python 代码:

     import requests
    url = 'https://github.com/...../filename'
    page = requests.get(url)
    print page.text

我没有获取文本,而是阅读 HTML 标签。如何从文件中读取文本而不是 HTML 标签?

原文由 Sandy 发布,翻译遵循 CC BY-SA 4.0 许可协议

阅读 668
2 个回答

已经有一些好的解决方案,但如果您使用 requests 只需遵循 Github 的 API 即可。

所有内容的端点是

GET /repos/:owner/:repo/contents/:path

但请记住,Github API 的默认行为是使用 base64 对内容进行编码。

在您的情况下,您将执行以下操作:

 #!/usr/bin/env python3
import base64
import requests

url = 'https://api.github.com/repos/{user}/{repo_name}/contents/{path_to_file}'
req = requests.get(url)
if req.status_code == requests.codes.ok:
    req = req.json()  # the response is a JSON
    # req is now a dict with keys: name, encoding, url, size ...
    # and content. But it is encoded with base64.
    content = base64.decodestring(req['content'])
else:
    print('Content was not found.')

原文由 dasdachs 发布,翻译遵循 CC BY-SA 3.0 许可协议

您可以通过将链接的开头更改为来访问文本版本

https://raw.githubusercontent.com/

原文由 patrick 发布,翻译遵循 CC BY-SA 3.0 许可协议

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题
logo
Stack Overflow 翻译
子站问答
访问
宣传栏