在 python 中使用 tika,runtimeerror: unable to start tika server

新手上路,请多包涵

我正在尝试使用 tika 包来解析文件。 Tika 已成功安装, tika-server-1.18.jar 使用 cmd 中的代码 Java -jar tika-server-1.18.jar

我在 Jupyter 中的代码是:

 Import tika
from tika Import parser
parsed = parser.from_file('')

但是,我收到以下错误:

2018-07-25 10:20:13,325 [MainThread] [WARNI] 无法查看启动日志消息;重试… 2018-07-25 10:20:18,329 [MainThread] [WARNI] 无法查看启动日志消息;重试… 2018-07-25 10:20:23,332 [MainThread] [WARNI] 无法查看启动日志消息;重试… 2018-07-25 10:20:28,340 [MainThread] [错误] 3 次尝试后未收到 Tika 启动日志消息。 2018-07-25 10:20:28,340 [MainThread] [错误] 无法从 startServer 接收启动确认。

运行时错误:无法启动 Tika 服务器。

原文由 Sha Li 发布,翻译遵循 CC BY-SA 4.0 许可协议

阅读 1.6k
1 个回答

根据 Apache Tika 的网站,所有新版本的 tika-server.jar 都需要 Java 8。

2018 年 4 月 24 日:Apache Tika 发布 Apache Tika 1.18 已经发布!此版本包括错误修复(例如从 PPT 中的分组形状中提取)、安全修复和对依赖项的升级。请注意:下一个版本将需要 Java 8。请参阅 CHANGES.txt 文件以获取该版本的完整更改列表,并查看下载页面以获取有关如何获取 Apache Tika 1.18 的更多信息。

tika Python 库的当前过时文档声称需要 Java 7,但现在必须安装 Java 8。这是因为如果在临时文件中找不到当前版本的 tika-server.jar,则会在运行时自动下载。

安装 Java 8 后,我的基本测试代码启动了服务器并正常运行。

原文由 autry.richard 发布,翻译遵循 CC BY-SA 4.0 许可协议

推荐问题
logo
Stack Overflow 翻译
子站问答
访问
宣传栏