preprocessing.scale() 做什么?它是如何工作的?

新手上路,请多包涵

Python 3.5,来自 sklearn 的预处理

df = quandl.get('WIKI/GOOGL')
X = np.array(df)
X = preprocessing.scale(X)

原文由 0x Tps 发布,翻译遵循 CC BY-SA 4.0 许可协议

阅读 829
2 个回答

preprocessing.scale() 算法将您的数据放在一个尺度上。这对于大量稀疏的数据集很有帮助。简而言之,您的数据分布广泛。例如 X 的值可能是这样的:

X = [1, 4, 400, 10000, 100000]

稀疏性的问题在于它非常有偏见或在统计术语中存在偏差。因此,因此,缩放数据会将您的所有值都集中在一个尺度上,从而消除了稀疏性。关于了解它在数学细节上的工作原理,这遵循相同的规范化和标准化概念。您可以对这些进行研究,以详细了解其工作原理。但为了让生活更简单,sklearn 算法会为你做一切!

原文由 Deepak M 发布,翻译遵循 CC BY-SA 3.0 许可协议

缩放数据将所有值都放在一个尺度上,消除了稀疏性,它遵循相同的规范化和标准化概念。要查看效果,可以在处理前后对dataframe调用describe:

 df.describe()

#with X is already pre-proccessed
df2 = pandas.DataFrame(X)
df2.describe()

您会看到 df2 在每个字段中 均值为 0 ,标准 差为 1

原文由 T D Nguyen 发布,翻译遵循 CC BY-SA 4.0 许可协议

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题