segmentfaultsegmentfault
注册登录
产品
社群
使用“Bing”搜本站使用“Google”搜本站使用“百度”搜本站✓站内搜索
注册登录
问答博客资讯标签用户活动

logo极客观点logo项目管理logoHarmonyOS
开发者社区

javascript
前端
python
node.js
react
vue.js
php
laravel
go
人工智能
mysql
linux
ios
java
android
css
typescript
spring
程序员

logoONES 研发管理logo思否企业问答logo安谋科技 XPU
问答博客资讯标签用户活动

logo极客观点logo项目管理logoHarmonyOS
开发者社区

javascript
前端
python
node.js
react
vue.js
php
laravel
go
人工智能
mysql
linux
ios
java
android
css
typescript
spring
程序员

logoONES 研发管理logo思否企业问答logo安谋科技 XPU

如何实现中文的wordcount?比如说提取一些关键词。进行计数。

头像
叁公子_KCN
    58332936
    发布于
    2016-01-06

    比如说淘宝的商品评论。有一些关键词的提取,如何实现的?

    mapreducehadoop流计算
    阅读 5k
    3 个回答
    得票最新
    头像
    NSSimacer
      171
      发布于
      2016-01-06

      推荐 jieba 中文分词,也可以用它抽取中文关键词。

      头像
      忙碌的松鼠
        2763
        发布于
        2016-01-06
        更新于
        2016-01-06

        这个就比较复杂了,中文分词,词性,语义。不知道你具体想做什么

        头像
        leeq哒_never
          122
          发布于
          2016-04-20

          大部分的分词库都可以完成,分词API可以将你的输入变成一个string数组等,然后自己根据这个数组做后续的统计就可以了

          查看全部 3 个回答
          推荐问题
          • hive需要在配置文件中指定hadoop集群namenode的ip和端口吗,如果不需要,那他们是如何建立连接的呢?
            hive需要在配置文件中指定hadoop集群namenode的ip和端口吗,如果不需要,那他们是如何建立连接的呢?hadoop:3.3.2hive:3.1.3

            852 阅读

          • Shuffle错误对MapReduce数据处理结果是否会有影响?
            发现在特定天的数据存在两种问题:1、表中部分记录重复2、表中部分记录缺失,同逻辑重跑后表的数据恢复以下为mr写的etl,正常情况下只有一个stage,最近一年也只发现这一次shuffle errors

            746 阅读

          相似问题
          • MapReduce的wordcount,如果输入是一个1G的大文件,里面只有一个长单词,它该怎么做呢?

            1 回答2.9k 阅读

          找不到问题?创建新问题
          宣传栏
          思否旗下产品
          SegmentFault
          思否企业服务
          思否公开课
          思否企业问答
          ONES 旗下产品
          ONES
          Tower
          为知笔记
          企业问答
          ONES.com
          项目管理百科
          资源
          每周精选
          用户排行榜
          帮助中心
          建议反馈
          声望
          勋章
          合作
          关于我们
          广告投放
          联系我们
          合作伙伴
          关注
          产品技术日志
          社区运营日志
          市场运营日志
          社区访谈
          条款
          服务协议
          隐私政策
          下载 App

          Copyright © 2011-2025 SegmentFault. 当前呈现版本 25.06.09

          浙ICP备15005796号-2浙公网安备33010602002000号ICP 经营许可 浙B2-20201554

          杭州堆栈科技有限公司版权所有

          思否 - 凝聚集体智慧,推动技术进步