比如下面的百度文库网页,内容都在canvas里。
https://wenku.baidu.com/view/...
最简单的方式应该就是充值了,如果那篇文章对你有价值的话,充一点钱也不是不可以啊,要不然就在有权限阅读的情况下,把所有页面都打开,然后截图吧。😆
然后可以通过搜索引擎,加上 ""
的方式来指定搜索,比如问题中提到的链接地址,可以在谷歌里找到很多 https://www.google.com/search...
对于百度文库中的免费文档,可以用这个网站实现
http://www.html22.com/zh/
简单的说,网站的原理是将网页转为图片或者文档
如果是付费文档,个人建议还是支付会员费用获取,“偷”很可能构成对平台和创作者的侵权
已参与了 SegmentFault 思否社区 10 周年「问答」打卡 ,欢迎正在阅读的你也加入。
我是装了一个浏览器插件截图的 FireShot
。然后就用 ocr 识别即可。
如果你只有少量的内容并且有 iOS 手机的话,手机自带拍照提取文字。
当然,还有淘宝、以及各类公众号会有一些更便宜、甚至免费获取的办法。
当然,也可以去搜索一下,看看有没有同样的资源在其他网站上。比如说我之前看到了 QCon 上的一个分享,但是找了好几个网站发现都是付费下载,最后我发现官网居然是免费的。
其实都是需要付出的。有钱的花钱买时间,没钱的花时间咯。 本质上这也是聚合类的生存方式,我平台替你把你想要的东西收集起来,你只需要付出少量的金钱即可。
如果你愿意付出时间,也可以自己在互联网上找到你想要的资源,但是一般来说需要的时间都会很多。
已参与了 SegmentFault 思否社区 10 周年「问答」打卡 ,欢迎正在阅读的你也加入。
这个问题还涉及你具体想获取到什么形式的文档数据。
最简单的,就用截图软件去截图,就可以获取到文件内容图片。
其次用orc软件对截图识别,也可以进一步获取文本化内容。
更高级的,就是hook代码,把写入canvas的内容转换到其他地方,不过这个要求很高的,对获取数据来是,成本很高。
已参与了 SegmentFault 思否社区 10 周年「问答」打卡 ,欢迎正在阅读的你也加入。
大部分百度的文章其他平台也有,只需要搜索标题或者文章中的关键字,再用百度搜索可能就会发现一个免费的网站
目前各大app的会员也可能会赠送百度文库的会员,例如京东Plus
已参与 「极客观点」 ,欢迎正在阅读的你也加入。
使用油猴脚本 , 或者有个冰点文库下载器, 可以下载到百度文库的文档
如果你要使用程序来获取的话, 只有用 headless 将 canvas 转图片, 然后使用 ocr 识别了
已参与 「极客观点」 ,欢迎正在阅读的你也加入。
油猴脚本:文本选中复制,不仅百度文科可以复制,大部分例如 道客巴巴 腾讯文档 豆丁网 无忧考网 学习啦 蓬勃范文 思否社区 力扣 知乎 语雀 等都能复制。
2023年02月27日11:09:30 亲测可用。
另外一种方法就是图片转文字,如果你是 macos 13,转文字准确率很高,并且不用联网,如果不是那么使用微信转文字,准确率也不错。
10 回答11.3k 阅读
5 回答4.9k 阅读✓ 已解决
4 回答3.2k 阅读✓ 已解决
2 回答2.8k 阅读✓ 已解决
3 回答5.2k 阅读✓ 已解决
1 回答3.4k 阅读✓ 已解决
3 回答2.4k 阅读✓ 已解决
转图片,调用图片文字识别得到结果
这是我的思路