segmentfaultsegmentfault
注册登录
产品
社群
使用“Bing”搜本站使用“Google”搜本站使用“百度”搜本站✓站内搜索
注册登录
问答博客资讯标签用户活动

logo极客观点logo项目管理logoHarmonyOS
开发者社区

javascript
前端
python
node.js
react
vue.js
php
laravel
go
人工智能
mysql
linux
ios
java
android
css
typescript
spring
程序员

logoONES 研发管理logo思否企业问答logo安谋科技 XPU
问答博客资讯标签用户活动

logo极客观点logo项目管理logoHarmonyOS
开发者社区

javascript
前端
python
node.js
react
vue.js
php
laravel
go
人工智能
mysql
linux
ios
java
android
css
typescript
spring
程序员

logoONES 研发管理logo思否企业问答logo安谋科技 XPU

对大约35g的数据去重.

头像
Field
    11
    发布于
    2020-02-04
    新手上路,请多包涵

    数据占了35g左右存储,有标识每条数据的id,还剩大约7g空闲空间,需要对这35g的数据去重,内存是8g的.

    mongodb网页爬虫数据处理
    阅读 1.7k
    1 个回答
    得票最新
    头像
    asseek
      9.4k53148
      发布于
      2020-02-04

      分片对比啊,时间换空间

      撰写回答
      你尚未登录,登录后可以
      • 和开发者交流问题的细节
      • 关注并接收问题和回答的更新提醒
      • 参与内容的编辑和改进,让解决方法与时俱进
      推荐问题
      • mongodb两个表联查字段不显示?
        用thinkphp5操作mongodb数据,在做联合查询的时候,第二个表中的字段获取老是不显示出来?请教高手如何获取出来?

        1 回答728 阅读

      • 如何从根目录拉取docs.spring.io的所有文档?
        如题,这是Spring的文档列表。我想从根目录拉取资料,但是点击“Parent Directory”,返回的却是网页,如下图:感觉这也不是ftp协议。所以到底该如何才能从根目录获取完整的目录和文件呢?

        1 回答1.8k 阅读

      相似问题
      • 爬虫的多进程插入数据到mongodb, 数据对不上

        1.7k 阅读

      • python数据处理,数据入库问题

        1 回答3.2k 阅读

      • scrapy 如何高效的避免采集到重复数据?

        1 回答13.5k 阅读✓ 已解决

      • python拼接嵌套json数据存到mongoDB

        1.7k 阅读

      • mongoDB数据去重

        1 回答3.9k 阅读✓ 已解决

      找不到问题?创建新问题
      宣传栏
      思否旗下产品
      SegmentFault
      思否企业服务
      思否公开课
      思否企业问答
      ONES 旗下产品
      ONES
      Tower
      为知笔记
      企业问答
      ONES.com
      项目管理百科
      资源
      每周精选
      用户排行榜
      帮助中心
      建议反馈
      声望
      勋章
      合作
      关于我们
      广告投放
      联系我们
      合作伙伴
      关注
      产品技术日志
      社区运营日志
      市场运营日志
      社区访谈
      条款
      服务协议
      隐私政策
      下载 App

      Copyright © 2011-2025 SegmentFault. 当前呈现版本 25.05.29

      浙ICP备15005796号-2浙公网安备33010602002000号ICP 经营许可 浙B2-20201554

      杭州堆栈科技有限公司版权所有

      思否 - 凝聚集体智慧,推动技术进步