ValueError:当 n_samples=0,test_size=0.2 且 train_size=None 时,生成的训练集将为空。调整任何上述参数

新手上路,请多包涵

我写了一个文本分类程序。当我运行该程序时,它崩溃并出现错误,如以下屏幕截图所示:

如此屏幕截图所示

ValueError:当 n_samples=0,test_size=0.2 且 train_size=None 时,生成的训练集将为空。调整上述任何参数。

这是我的代码:

 from sklearn.model_selection import train_test_split
from gensim.models.word2vec import Word2Vec
from sklearn.preprocessing import scale
from sklearn.linear_model import SGDClassifier
import nltk, string, json
import numpy as np

def cleanText(corpus):
    reviews = []
    for dd in corpus:
        #for d in dd:
        try:
            words = nltk.word_tokenize(dd['description'])
            words = [w.lower() for w in words]
            reviews.append(words)
            #break
        except:
            pass
    return reviews

with open('C:\\NLP\\bad.json') as fin:
    text = json.load(fin)
    neg_rev = cleanText(text)

with open('C:\\NLP\\good.json') as fin:
    text = json.load(fin)
    pos_rev = cleanText(text)

#1 for positive sentiment, 0 for negative
y = np.concatenate((np.ones(len(pos_rev)), np.zeros(len(neg_rev))))

x_train, x_test, y_train, y_test = train_test_split(np.concatenate((pos_rev, neg_rev)), y, test_size=0.2)

我正在使用的数据可在此处获得:

  1. 不好

  2. 好的

我将如何解决这个错误?

原文由 Silver 发布,翻译遵循 CC BY-SA 4.0 许可协议

阅读 2.3k
1 个回答

遇到同样的错误: ValueError: With n_samples=0, test_size=0.2 and train_size=None, the resulting train set will be empty. Adjust any of the aforementioned parameters. 在我的例子中,数据路径无效。检查加载文件的路径是否存在,或者读取文件的变量是否包含任何数据。

原文由 Rex Mudanya 发布,翻译遵循 CC BY-SA 4.0 许可协议

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题
logo
Stack Overflow 翻译
子站问答
访问
宣传栏