python 将word的内容导入数据库

没数据库基础,求大神给个思路

需求:打算做行业内的深度学习,现有大量数据需要处理。具体是大量由章节组成的大量word文件,会有章节拆分需求,章节中又含有大量的图表,包括流程图等,打算将这些内容按章节分拆存入数据库,然后对这些内容进行多维标记,包括需要修改的部分也予以标记,便于提取时使用和加工

目前稍有拙见,觉得文字部分相对好处理,但这图和表似乎无法完美的存入数据库并完好的提取出来

阅读 5.6k
1 个回答

表内容和图片流能获取到吗?我试了下还没找到合适的读取方法。对于保存图片我做过,直接保存图片流,不要进行编码和解码操作就行了,表内容可以搞成DataFrame的格式然后to_sql,一般的表格都能搞成pandas的DataFrame格式。这样做的好处是还可以用pandas进行read_sql操作,而且在组织DataFrame内容的时候,你还可以做一些标准化的东西,或者加一些分类标记,这样筛选数据也方便。http://pandas.pydata.org/pand...

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题