新手上路，请多包涵

在这里。我刚开始用一个简单的例子来学习机器学习。因此，我想使用分类器根据文件类型对磁盘中的文件进行分类。我写的代码是，

 import sklearn
import numpy as np

#Importing a local data set from the desktop
import pandas as pd
mydata = pd.read_csv('file_format.csv',skipinitialspace=True)
print mydata

x_train = mydata.script
y_train = mydata.label

#print x_train
#print y_train
x_test = mydata.script

from sklearn import tree
classi = tree.DecisionTreeClassifier()

classi.fit(x_train, y_train)

predictions = classi.predict(x_test)
print predictions

我得到的错误是，

   script  class  div   label
0       5      6    7    html
1       0      0    0  python
2       1      1    1     csv
Traceback (most recent call last):
  File "newtest.py", line 21, in <module>
  classi.fit(x_train, y_train)
  File "/home/initiouser2/.local/lib/python2.7/site-
packages/sklearn/tree/tree.py", line 790, in fit
    X_idx_sorted=X_idx_sorted)
  File "/home/initiouser2/.local/lib/python2.7/site-
packages/sklearn/tree/tree.py", line 116, in fit
    X = check_array(X, dtype=DTYPE, accept_sparse="csc")
  File "/home/initiouser2/.local/lib/python2.7/site-
packages/sklearn/utils/validation.py", line 410, in check_array
    "if it contains a single sample.".format(array))
ValueError: Expected 2D array, got 1D array instead:
array=[ 5.  0.  1.].
Reshape your data either using array.reshape(-1, 1) if your data has a
single feature or array.reshape(1, -1) if it contains a single sample.

如果有人可以帮助我编写代码，那将对我很有帮助！！

原文由 Karthik Bhojaraj 发布，翻译遵循 CC BY-SA 4.0 许可协议

python arrays numpy scikit-learn

阅读 1.1k

2 个回答

得票最新

社区维基

发布于
2023-01-04

✓ 已被采纳

将输入传递给分类器时，传递二维数组（形状为 (M, N) 其中 N >= 1） ，而不是一维数组（形状 (N,) ）。错误信息很清楚，

如果您的数据具有单个特征，则使用 array.reshape(-1, 1) 或 array.reshape(1, -1) 如果它包含单个样本，则重塑您的数据。

 from sklearn.model_selection import train_test_split

# X.shape should be (N, M) where M >= 1
X = mydata[['script']]
# y.shape should be (N, 1)
y = mydata['label']
# perform label encoding if "label" contains strings
# y = pd.factorize(mydata['label'])[0].reshape(-1, 1)
X_train, X_test, y_train, y_test = train_test_split(
                      X, y, test_size=0.33, random_state=42)
...

clf.fit(X_train, y_train)
print(clf.score(X_test, y_test))

其他一些有用的提示 -

将您的数据分成有效的训练和测试部分。不要使用您的训练数据进行测试 - 这会导致对分类器强度的估计不准确
我建议分解你的标签，所以你要处理整数。它只是更容易。

原文由 cs95 发布，翻译遵循 CC BY-SA 4.0 许可协议

社区维基

发布于
2023-01-04

X=dataset.iloc[:, 0].values
y=dataset.iloc[:, 1].values

regressor=LinearRegression()
X=X.reshape(-1,1)
regressor.fit(X,y)

我有以下代码。重塑运算符不是就地运算符。所以我们必须用上面给出的重塑后的值替换它的值。

原文由 Ameya Marathe 发布，翻译遵循 CC BY-SA 4.0 许可协议

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

如何修复 sklearn/python 中的“ValueError: Expected 2D array, got 1D array”？

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

分解质因素的算法很难，理解不了。请问有哪位大佬可以进行解释一下呢？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Stack Overflow 翻译

如何修复 sklearn/python 中的“ValueError: Expected 2D array, got 1D array”？

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

分解质因素的算法很难，理解不了。 请问有哪位大佬可以进行解释一下呢？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Stack Overflow 翻译

分解质因素的算法很难，理解不了。请问有哪位大佬可以进行解释一下呢？