2 个回答

虽然没做过 但是以我很水的想法 大概是这样的
首先,我们保证几个前提:
(1)没人会在乎那种特别商品的比价,比如你不会在意在5173上买张点卡是比淘宝上便宜还是贵,换句话说越是热门商品,比如服装、电器越惹人关注
(2)电商网站,热门的就那么几个,这使得我们可以针对每个网站做特殊的抓取和处理
(3)考虑到seo,一个商品在一段时间内会被静态化为一个页面,这样只要拿到url就不需要分析他是什么商品(云的功劳~服务器存所有数据)
(4)你的工程师能力足够写出爬虫抓取所有的数据并分析出关键字段,这个就不讲了

说这么多废话,你认为真的可以通过比较页面来筛选同样的商品么,当然不能,但是有一些特征可以用:

(1)标题,最重要的,里面有商品名称和型号,当然你得写出一些算法来去掉宣传的语句,比如惊爆价,之类
(2)对于图书其实更简单,去找ISBN就是了,境内合法出版的图书只要比这个就行了

接下来就是对标题的一些处理,通过分词、命名实体识别,拿到商品型号之类,最后和页面URL关联起来就完了,当然,如果你认为标题的内容足够纯净,直接比编辑距离也未尝不可。

以上纯脑补,各位大哥大姐手下留情。

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题