爬虫获取的数据处理

问题描述

clipboard.png
爬虫获取数据构建知识图谱,但数据不是结构化的,每条数据长度不一,怎么从其中得到有用的结构化数据?我只想要"name","industry"等数据,但整个表格不是对齐的,不在同一列。
以及转义字符如何去除

问题出现的环境背景及自己尝试过哪些方法

将csv文件读入python的pandas中但数据不是对齐的,想要的数据不在同一列
以及“无法直接解析成“

你期待的结果是什么?实际看到的错误信息又是什么?

希望将文件转换成结构化数据,能直接使用,构建知识图谱

阅读 1.7k
1 个回答

这个只能用正则进行整理了

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题