如何从shell脚本中的html表中提取数据？

我正在尝试创建一个 BASH 脚本，该脚本将从 HTML 表中提取数据。下面是我需要从中提取数据的表格示例：

 <table border=1>
<tr>
<td><b>Component</b></td>
<td><b>Status</b></td>
<td><b>Time / Error</b></td>
</tr>
<tr><td>SAVE_DOCUMENT</td><td>OK</td><td>0.406 s</td></tr>
<tr><td>GET_DOCUMENT</td><td>OK</td><td>0.332 s</td></tr>
<tr><td>DVK_SEND</td><td>OK</td><td>0.001 s</td></tr>
<tr><td>DVK_RECEIVE</td><td>OK</td><td>0.001 s</td></tr>
<tr><td>GET_USER_INFO</td><td>OK</td><td>0.143 s</td></tr>
<tr><td>NOTIFICATIONS</td><td>OK</td><td>0.001 s</td></tr>
<tr><td>ERROR_LOG</td><td>OK</td><td>0.001 s</td></tr>
<tr><td>SUMMARY_STATUS</td><td>OK</td><td>0.888 s</td></tr>
</table>

我希望 BASH 脚本像这样输出它：

 SAVE_DOCUMENT OK 0.475 s
GET_DOCUMENT OK 0.345 s
DVK_SEND OK 0.002 s
DVK_RECEIVE OK 0.001 s
GET_USER_INFO OK 4.465 s
NOTIFICATIONS OK 0.001 s
ERROR_LOG OK 0.002 s
SUMMARY_STATUS OK 5.294 s

怎么做？

到目前为止，我已经尝试使用 sed，但我不知道如何很好地使用它。我使用 grep "<tr><td> 用 grep 排除的表的标题（组件、状态、时间/错误），因此只有以 <tr><td> 开头的行将被选择用于下一次解析 (sed)。这就是我使用的： sed 's@<\([^<>][^<>]*\)>\([^<>]*\)</\1>@\2@g' 但是之后 <tr> 标签仍然存在并且它不会分隔字符串。换句话说，这个脚本的结果是：

 <tr>SAVE_DOCUMENTOK0.406 s</tr>

我正在处理的脚本的完整命令是：

 cat $FILENAME | grep "<tr><td>" | sed 's@<\([^<>][^<>]*\)>\([^<>]*\)</\1>@\2@g'

原文由 Marko 发布，翻译遵循 CC BY-SA 4.0 许可协议

阅读 1.1k

如何从shell脚本中的html表中提取数据？

你尚未登录，登录后可以

问一个鼠标滚动事件，这种是怎么实现的？

form对象根据表单dom元素的name属性获取元素对象是基于什么标准的？兼容性如何？

threejs用octree实现房间内第三人称漫游并且添加了碰撞，人物在碰撞到墙壁的时候不停的弹回，应该怎么修改才能不会疯狂的弹回？

Vue为什么说textarea标签不支持插值表达式的？

为什么下面的代码内部的 div 其 100% 高度可以跳过上层元素?

单页应用网站缓存不是由于index.html文件被缓存导致的吗？

election嵌套了一个web项目通信为什么会中断?

Stack Overflow 翻译