新手上路，请多包涵

Python 3.5，来自 sklearn 的预处理

df = quandl.get('WIKI/GOOGL')
X = np.array(df)
X = preprocessing.scale(X)

原文由 0x Tps 发布，翻译遵循 CC BY-SA 4.0 许可协议

阅读 905

2 个回答

得票最新

✓ 已被采纳

preprocessing.scale() 算法将您的数据放在一个尺度上。这对于大量稀疏的数据集很有帮助。简而言之，您的数据分布广泛。例如 X 的值可能是这样的：

X = [1, 4, 400, 10000, 100000]

稀疏性的问题在于它非常有偏见或在统计术语中存在偏差。因此，因此，缩放数据会将您的所有值都集中在一个尺度上，从而消除了稀疏性。关于了解它在数学细节上的工作原理，这遵循相同的规范化和标准化概念。您可以对这些进行研究，以详细了解其工作原理。但为了让生活更简单，sklearn 算法会为你做一切！

原文由 Deepak M 发布，翻译遵循 CC BY-SA 3.0 许可协议

缩放数据将所有值都放在一个尺度上，消除了稀疏性，它遵循相同的规范化和标准化概念。要查看效果，可以在处理前后对dataframe调用describe：

 df.describe()

#with X is already pre-proccessed
df2 = pandas.DataFrame(X)
df2.describe()

您会看到 df2 在每个字段中 均值为 0 ，标准 差为 1 。

原文由 T D Nguyen 发布，翻译遵循 CC BY-SA 4.0 许可协议

撰写回答

推荐问题

子站问答

本篇内容翻译自 Stack Overflow，如果你觉得翻译结果值得改进，欢迎直接编辑修改，感谢你为社区贡献。

相似问题

找不到问题？创建新问题

preprocessing.scale() 做什么？它是如何工作的？