找到约 10000 条结果
  • python爬虫--小白篇【selenium自动爬取文件】
    from selenium import webdriverfrom selenium.webdriver.chrome.service import Servicefrom selenium.webdriver.common.by import Byfrom selenium.webdriver.edge.options import Optionsfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECi...
    2025-01-14
  • 太逼真!豆包·播客模型来了:一句话生成「苏超联赛」播客,很懂13太保的梗
    家人们,又有好玩儿的AI出现了——火山引擎发布豆包·播客模型!来来来,我们直接听一段:音频地址:[链接]如何?是不是有亿点点被惊艳到了?两个AI的对话不论是语气、停顿、口语化,简直跟真人没有差别。男生AI在讲解故事的过程中,女生AI会时不时穿插“嗯”、“没错”、“对”这样的词儿来应和。我们甚至拿着这个demo问了一圈身...
    2025-06-09
  • fopen(): remote host file access not supported, file://
    tp5 使用 TCPD 扩展 将 html 转换为 pdf ,并且保存 pdf 文件报错 : fpen(): remote host file access not supported, file://./parame.pdf
    2019-03-28
  • vue+pdf.js + canvas 踩坑心得
    20210204 补充:后来回显的PDF中加入了文字(pdf中的文本域),因此产生了字体问题,在原有代码的基础上增加了 cMaps 的引入;
    2021-01-15
  • fn1.call.call(fn2);
    文 / 景朝霞公号 / 朝霞的光影笔记ID / zhaoxiajingjing 描述 {代码...} 问题 看到这个题目,第一反应是蒙圈的。 fn1.call(fn2); 这个是理解的。fn1.call.call(fn2);这个蒙圈了。 理解 有些绕,需要多念叨念叨琢磨琢磨。 call 方法是Function.prototype原型上天生自带的方法,所有的函数都可以调用的。 我觉得 call方法...
    2019-07-03
  • PDF 字体和图片抽取:从文本中提取信息的新方法
    随着信息技术的飞速发展,我们已经进入了数字化时代。在数字化时代,我们可以通过各种形式的电子文档来传达信息。PDF文件作为一种常见的电子文档格式,因其便捷的操作、高度的可定制性和广泛的应用而备受青睐。然而,PDF文件的一个主要缺点是它的可读性较差,这使得一些有价值的信息难以被人们轻松地从PDF文件中提取出来。
    2023-05-04
  • 数据分析遇到PDF文本,怎么用Python批量提取内容
    本文为你展示,如何用Python把许多PDF文件的文本内容批量提取出来,并且整理存储到数据框中,以便于后续的数据分析。 问题 最近,读者们在后台的留言,愈发五花八门了。 写了几篇关于自然语言处理的文章后,一种呼声渐强: pdf中的文本内容,有没有什么方便的方法提取出来呢? 我能体会到读者的心情。 我展示的例子中,...
    2018-10-31
  • 办公自动化:几行代码将PDF文档转换为WORD文档(代码实战)
    看了四五个PDF文件对象相关的插件库,比如:pdfminer.six、PyPDF2、pikepdf、pdfplumber、PyMuPDF之类的有很多,最后发现pdf2docx比较简单,只需要几行代码便可以实现。本着使用最简单的方法来解决实际问题的至高境界,我们就使用它来演示。
    2021-11-04
  • 第17期 | GPTSecurity周报
    GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练 Transformer(GPT)、人工智能生成内容(AIGC)以及大型语言模型(LLM)等安全领域应用的知识。在这里,您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令(Prompts)。现为了更好地知悉近一周的贡献内容,现总结...
    2023-10-30
  • 第23期 | GPTSecurity周报
    GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练 Transformer(GPT)、人工智能生成内容(AIGC)以及大型语言模型(LLM)等安全领域应用的知识。在这里,您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令(Prompts)。现为了更好地知悉近一周的贡献内容,现总结...
    2023-11-02
  • 建立一个PDF转docx的在线服务
    首先,构建一个typeScript的express应用:package.json {代码...} tsconfig.json {代码...} srcindex.ts {代码...} 此时可以启动了: {代码...} 接下来,安装 multer(一个上传的中间件),以便可以上传PDF文件。 {代码...} 然后,安装 winax,以便操作 activex 。 {代码...} 现在,package.json如下: {代码...} srcind...
    2020-10-14
  • 第30期 | GPTSecurity周报
    GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大型语言模型(LLM)等安全领域应用的知识。在这里,您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令(Prompts)。现为了更好地知悉近一周的贡献内容,现总结如...
    2023-12-05
  • 第47期 | GPTSecurity周报
    GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大语言模型(LLM)等安全领域应用的知识。在这里,您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令(Prompts)。现为了更好地知悉近一周的贡献内容,现总结如下。
    2024-04-16
  • 【专题】2022中国新能源汽车内容生态趋势洞察报告PDF合集分享(附原数据表)
    《报告》以关注新能源汽车内容的网络用户和中国新能源汽车企业为研究对象,选择了与新能源汽车有关的网络内容(图片,直播,视频,用户评价),并与中国新能源汽车产业的生产和销售数据相结合,展开了一项调查。
    2023-11-01
  • 【专题】2022中国新能源汽车内容生态趋势洞察报告PDF合集分享(附原数据表)
    《报告》以关注新能源汽车内容的网络用户和中国新能源汽车企业为研究对象,选择了与新能源汽车有关的网络内容(图片,直播,视频,用户评价),并与中国新能源汽车产业的生产和销售数据相结合,展开了一项调查。
    2023-12-20
  • 爬取html生成pdf
    首先看了这篇文章前端使用puppeteer 爬虫生成《React.js 小书》PDF并合并,发现最后的pdf没有书签,很难受,所以主要在此基础上加了加书签的功能。 爬去的示例网站为React.js 小书,仅做学习交流 针对网页生成pdf 使用puppeteer爬取网页并生成pdf puppeteer中文文档 {代码...} 合成pdf pdf-merge:合并pdf 依赖于pdftk ...
    2019-01-07
  • 批量截取pdf文件
    现在我们有大量的pdf文件,我们想要截取每个文件中感兴趣的一部分,比如,我们下载了3500份上市公司的年度报告,我们想要找到包含“关键审计事项”部分内容,将pdf相关页保存为新的pdf文件。python环境:
    2019-02-14