罗远飞:自动特征工程在推荐系统中的研究

2019-12-18
阅读 5 分钟
1.6k
在先荐推荐系统学院 | 第1期的分享中,第四范式资深研究员罗远飞针对推荐系统中的高维稀疏数据,介绍了如何在指数级搜索空间中,高效地自动生成特征和选择算法;以及如何结合大规模分布式机器学习系统,在显著降低计算、存储和通信代价的情况下,从数据中快速筛选出有效的组合特征。

大数据流式计算存在的挑战

2019-09-16
阅读 3 分钟
1.2k
大数据流式计算系统存在诸多挑战,如资源调度、系统容错、动态时间窗口、高效索引策略等诸多方面。本文将从大数据流式计算系统架构的角度,针对当前大数据流式计算环境中存在的两个方面的典型问题进行系统化的分析,即在线环境下的资源调度问题和节点依赖环境下的容错策略问题,并原则性地分别给出了两类问题的解决策略。