Python如何提取复制文本中的超链接?

比如我复制了一段文字 ,里面包含有几个超链接,比如像下面这样。如何把其中的超链接提取出来,作为一个list?个人想法是是利用剪贴板模块,但是貌似pyperclip模块只能处理纯文本来着。

图片描述

利用pyperclip无法获取富文本

阅读 5.5k
2 个回答

mac环境的话,可以用richxerox,配合BeautifulSoup模块,代码如下

from richxerox import *
from bs4 import BeautifulSoup

soup = BeautifulSoup(pasteboard.get_contents(format='html'),'lxml')
links = [i.attrs['href'] for i in soup.find_all('a')]
print(links)

网页的话,你需要了解一下网页前端的语言。浏览器界面按F12就会调出调试窗口。你看一下代码结构,如果是360浏览器的话,页面上右击超链接文本审查元素,或者是检查,或者是什么的,就能定位到你需要的连接。然后你再看怎么获取和解析网页的源码吧,其实不复杂,有很多现成的库,比如BeautifulSoup。

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题