利用Stata基础命令快速完成论文实证

Stata 是一套提供其使用者数据分析、数据管理以及绘制专业图表的完整及整合性统计软件。它拥有很多功能，包含线性混合模型、均衡重复反复及多项式普罗比模式。用Stata绘制的统计图形相当精美。一般在理工科研究生论文阶段很受欢迎。本文作者曾是一位很普通的文科生，在毕业论文写作时候部分参考类似命令，这在写作速度上得到一定提高，也体现了差异化。

文件路径

命令1：

pwd //显示当前工作路径

命令2：

dir //显示当前路径下所有文件/文件夹

命令3：

cd "文件夹路径" //更改工作文件路径

use "文件名.dta" //从当前文件路径读入数据

use "文件名.dta",clear //删除当前数据，并从当前工作路径下读入数据

示例

use auto.dta,clear

注：引号均为英文版，打成中文版本会报错

命令4：

global 全局暂元名称\文件夹路径

use "$全局暂元名称\文件名.dta",clear

//global为全局暂元，用来存储数据的文件地址，可以有效简化命令。

示例：

use $data\auto.dta,clear

命令5：

clear //删除当前数据

变量名称

特征：_variables，均已“_”开头。如：_n表示数据集观察值的序号_N表示当前数据集观察值总数_pi包含pi值以表示精度示例：gen price2=price[ _n-1] //生成新变量price2，取值是序号为n-1的样本的price变量取值

生成新变量

命令1：gen 新变量名注意：变量名由英文字母、数字以及下划线“_”组成，并且首字母必须为英文字母或者下划线“_”。否则将出现类似以下情形报错：

注意：不建议变量以下划线“_”开头，因为stata内置变量格式为_variables，易混淆出错。

变量重命名

命令1：

rename old new

//单一变量重命名（old指老变量名，new指新变量名，下同）

命令2：

rename (old1 old2...) (new1 new2 ...)

//多个变量重命名

命令3：

rename old1 old2 ..., upper

//变量名转换成大写

命令4：

rename old1 old2 ...,lower

//变量名转换成小写

命令5：

rename old1 old2 ...,proper

//首字母大写，并且紧接着非字母字符后的字母大写，其他字母小写

示例：

rename foreign , upper

rename DISPLACEMENT ,lower

rename gear_ratio ,proper

变量标签命令

命令1：

label variable 变量名标签名

//解释变量的含义。因为变量名大多是英文缩写，妨碍理解。

示例：label variable rep “Repair Record 1978”

05、变量值标签

含义：变量值与含义的映射，主要应用于分类变量。包含两个步骤。

命令1：

label define 值标签名称值标签内容

// 定义标签内容

label value 变量名称值标签名称

//将变量值转换为对应的标签内容

示例：

label define repair78 1 "好" 2 "较好" 3 "中" 4 "较差” 5 "差"

label values rep78 repair78

//注意对应。容易混淆的话可以将值标签名称和变量名改成一致的：

label define rep78 1 "好" 2 "较好" 3 "中" 4 "较差" 5 "差"

label value rep78 rep78
图片.png

值标签的增改：

命令2：

label define 值标签名称值标签内容，add

//给扩充变量值增加值标签

命令3：

label define 值标签名称值标签内容,modify

//修改原有变量值的值标签

命令4：

label drop _all

//删去所有变量的值标签

命令5：

label drop 指定值标签名称

//删去指定变量的值标签

查看标签结果

命令1：label list//查看所有变量的变量标签（variable label）和变量值标签（value label）示例：

命令2：label list 指定变量//查看指定一至多个变量的变量标签（variable label）和变量值标签（value label）示例：label list origin

查看数据

命令1：describe//查看数据存储类型、格式、值标签、变量标签。导入数据后了解数据特征的关键一步。示例：

命令2：summarize （描述）针对所有变量的描述性统计，均值方差su price age也可以在后面加上变量名只显示特定变量的统计结果su price age，detail更详细的结果，如偏度峰度这种su price age if age>=30命令3：format 设定数据类型命令4：生成统计表格tabstat price length, stats(mean min max)tabstat price length, stats(mean min max) by(foreign)///按照foreign变量分类描述price和length

命令5：详细列出来变量 listlist pricelist price in 2/10列举第二个到第十个命令6：累积分布函数 tabulateta price

图表命令

直方图 histogram

histogram price

histogram price, frequency

纵坐标为对应样本数而非比例

histogram grade, discrete

散点图 scatter

twoway scatter price wei

twoway代表二维

散点图+回归线

twoway (scatter price wei) (lfit price wei)

lfit 一次线性拟合

qfit 二次拟合

折线图 twoway line le year

graph

函数图 function

条形图 bar

饼状图 pie

矩阵图 matrix

其他常见命令

单等号命令= 和双等号赋值==

gen dec=(month==12)

生成变量 generate

注意新生成的变量名字要和以前的不同

gen age1 = age+1

gen lnprice = ln(price)

替换变量 replace

replace age = age +1

重命名 rename

rename price p

批量重命名 renvars

renvars price age / p ag

删除 drop

drop price

drop if (price == . ) 删除price为空的

保留 keep （反向的drop）

keep if (price > 100)

合并 merge

把两个dta里面的数据合并到一个

merge 1:1 data using merge1

计数 count

比较大小 compare

ttest t检验

ttest var = 2

检验样本的均值是否显著不同于2

ttest var1 = var2

检验同一观察值的两个变量均值是否显著不同

回归命令

声明时间序列 tsset

声明面板数据 xtset

平行面板 xtbalance

滞后一阶 L.price

滞后二阶 L2.price

往前一阶 F.price

差分 D.price

线性OLS回归 reg

reg y x1 x2

predict 存回归命令中产生的变量

一般是存拟合值和残差，保存残差，并保存为e变量

predict e, residual

残差自相关 BG检验 estat bgodfrey

OLS回归完DW检验自相关 estat dwatson

rvfplot 画出残差与拟合值散点图

estat imtest，white 怀特检验

hettest BP检验

多重共线性 vif

test 检验显著性

test price = 1

检验price变量的系数等于1（F检验）

outreg 线性结果导出

xtwest 协整检验

xtreg 固定效应

hausman Hausman豪斯曼检验

利用Stata基础命令快速完成论文实证

文件路径

变量名称

生成新变量

变量重命名

变量标签命令

05、变量值标签

查看标签结果

查看数据

图表命令

其他常见命令

回归命令

瞿小凯

引用和评论

【简报】关于CVE-2023-36884漏洞威胁与防范建议

53 倍性能提升！TiDB 全局索引如何优化分区表查询？

分布式数据库解析

Easysearch 证书：Windows 上创建自签名证书的 7 种方法

做到真正0丢失、0重复：Apache SeaTunnel 实现万亿级数据一致性全解密

在 Kubernetes 上用 KubeBlocks + Dify 快速构建生产级 AIGC 应用

入选AAAI 2025！解决医学图像分割软边界与共现难题，中国地质大学等提出图像分割模型ConDSeg