你这个问题有点模糊,机器学习就是大数据处理的一个环节。我猜你说的大数据处理是数据预处理。模型训练前要先进行数据清洗和特征工程。几千万的数据,必然包含大量的数据缺失、错误、重复,必须进行删除、填充等工作进行纠正。否者混乱的数据只能训练处混乱的模型。然后你要进行降维和特征提取,不然几千万的数据,计算量相当大,不先降维一般机器根本吃不消,不做特征提取效果也不会好。
你这个问题有点模糊,机器学习就是大数据处理的一个环节。
我猜你说的大数据处理是数据预处理。
模型训练前要先进行数据清洗和特征工程。
几千万的数据,必然包含大量的数据缺失、错误、重复,必须进行删除、填充等工作进行纠正。否者混乱的数据只能训练处混乱的模型。
然后你要进行降维和特征提取,不然几千万的数据,计算量相当大,不先降维一般机器根本吃不消,不做特征提取效果也不会好。