“数据库article表中字段content存有文章的文本内容,大约有2W多篇文章,每篇文章大约5000词"
我的想法是 首先爬网站,下载2w篇5000字的文章...(这里如何过滤标签呢?)
然后用jdbc:
PreparedStatement pstmt = conn.prepareStatement("insert into article values(?)");
pstmt.setString(1,s);
pstmt.executeUpdate();
这里的s就是文章内容,我想用IO流来读
byte[] buf = new byte[100];
while((n=fis.read(buf,0,100) != -1) {
s += new String(buf,0,n);
}
大家看看我思路有问题么。。在此谢过!