全文链接:https://tecdat.cn/?p=34319
原文出处:拓端数据部落公众号
作为中国古典文学的瑰宝,《红楼梦》具有极高的文学价值和丰富的主题内涵。近年来,随着大数据和文本挖掘技术的发展,对《红楼梦》等古典文学作品的深度分析成为可能。本研究采用R语言作为分析工具,对《红楼梦》全文进行文本挖掘,通过词频统计、词云可视化以及前后对比分析,以期深入探索这部经典小说的主题演变和人物塑造。
读入数据
将需要分析的文本放入记事本中,保存到相应路径,并在R中打开。这儿我导入的是《红楼梦》的文本。
先导入rJava和Rwordseg两个包
library(Rwordseg)
分词+统计词频
words=unistlapplyX=lecture, UN=sgmntCN))
#unlist将list类型的数据,转化为vector
#lapply()返回一个长度与X一致的列表,每个元素为FUN计算出的结果,且分别对应到X中的每个元素。
table统计数据的频数
降序排序
v=rev(sort(v))
过滤掉1个字的结果和词频小于100的结果
d1=subset(d, nchr(ascharctr(d$词汇))>1 & d$词频.Freq>=100)
画出标签云
wordcloud(d1$词
性格分析: 宝玉
xinggefenxi("宝玉")
从关键词“丫头”“出去”“姐姐”这些来看,贾宝玉是一个又奇又俗的人物。自幼深受祖母贾母疼爱,住贾母院。因此娇生惯养,构成他性格的主要特征是叛逆。他行为“偏僻而乖张”,是封建社会的叛逆者。他鄙视功名利禄,不愿走“学而优则仕”的仕途。他痛恨“八股”,辱骂读书做官的人是“国贼禄蠹”,懒于与他们接触拜会。
红楼梦前八十回与后四十回是否同一个人写的?
lecture<-read.csv("红楼梦前80回.txt", tringAsFactorsALSEheade=FALSE)
words=ulit(lppl
#unlist将list类型的数,转化为vector
#lapply()返回一个长度与X一致的列表,每个元素为FUN计算出的结果,且分别对应到X中的每个元素。
word=lapply()
画出标签云
lecture<-read.csv("红楼梦后40回.txt", stringsAFacors=FLSE,header=FALSE)
前后红楼梦词频对比
qianword=qiwor[which(qiaword[ ,1] %in% gongtngword), ]
houword=uword[whih(houod[ ,1] %in% gongtonword), ]
前红楼梦:
后红楼梦:
t检验
t检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。用于比较前后红楼梦的关键词出现频率的区别差异。
t.test(qianod[,3],huord[,3])
从结果来看,t检验的p值显著小于0.05,因此拒绝原假设。有95%的把握可以认为前后的红楼梦不是一个人所做。
最受欢迎的见解
1.[](https://tecdat.cn/r%e8%af%ad%e8%a8%80%e7%bb%98%e5%88%b6%e7%94...)R语言多元Logistic逻辑回归 应用案例
2.[](https://tecdat.cn/r%e8%af%ad%e8%a8%80%e7%94%9f%e5%ad%98%e5%88...)面板平滑转移回归(PSTR)分析案例实现
3.[](https://tecdat.cn/r%e8%af%ad%e8%a8%80%e5%a6%82%e4%bd%95%e5%9c...)matlab中的偏最小二乘回归(PLSR)和主成分回归(PCR)
4.[](https://tecdat.cn/r%e8%af%ad%e8%a8%80%e4%b8%ad%e4%bd%bf%e7%94...)R语言泊松Poisson回归模型分析案例
5.[](https://tecdat.cn/r%e8%af%ad%e8%a8%80%e7%94%9f%e5%ad%98%e5%88...)R语言回归中的Hosmer-Lemeshow拟合优度检验
6.[](https://tecdat.cn/r%e8%af%ad%e8%a8%80ggplot2%e8%af%af%e5%b7%a...)r语言中对LASSO回归,Ridge岭回归和Elastic Net模型实现
7.[](https://tecdat.cn/r-%e8%af%ad%e8%a8%80%e7%bb%98%e5%88%b6%e5%8...)在R语言中实现Logistic逻辑回归
8.[](https://tecdat.cn/r%e8%af%ad%e8%a8%80%e5%a6%82%e4%bd%95%e6%89...)python用线性回归预测股票价格
9.[](https://tecdat.cn/r%e8%af%ad%e8%a8%80%e4%b8%ad%e7%9a%84%e7%94...)R语言如何在生存分析与Cox回归中计算IDI,NRI指标
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。