你可能听说过“实证研究”,但不一定清楚它的确切意思。
简单来说,实证论文就是基于数据的论文。
它不是坐在桌旁,毫无根据地想“我觉得应该是这样”,而是实实在在地去收集数据、设定变量、运行模型,让数据来说明问题。
举个例子,理论论文就像律师在法庭上讲道理,实证论文则像律师直接拿出大量证据,说“你看,数据都在这里,你不得不信”。
写论文时,你要做以下这些事:
查阅文献:了解其他人的研究成果,找到可以借鉴的研究基础;
收集数据:确定要研究的结果(被解释变量Y)、你认为影响结果的主要因素(核心解释变量X),以及其他可能影响结果的因素(控制变量);
进行回归分析:用Stata等软件计算变量之间的关系;
解读结果:系数是正还是负?是否显著?这在现实中意味着什么?
和纯理论分析相比,实证论文更注重以下三点:数据来源、变量设定、结果解释。强调“用证据支持判断”,而不是“凭直觉判断”。
对于本科论文和课程论文来说,实证论文的最大好处是:能让你的观点有数据支持,分析过程清晰,论文结构更容易规范。
好了,接下来我会一步一步指导你从零开始写一篇合格的实证论文。

写实证论文的第一步,不是打开Stata,而是访问知网。
你要先弄清楚:在这个研究方向上,前人已经取得了哪些成果?还有哪些领域需要探索?你的研究切入点在哪里?
很多人一开始就搜索“企业创新”,结果搜出几千篇文章,让人眼花缭乱。
正确的做法是组合关键词,就像搭积木一样,把不同类型的词汇拼在一起:
关键词类型 | 作用 | 示例 |
|---|---|---|
研究对象 | 明确研究内容 | 企业创新、居民消费、产业升级 |
核心变量 | 确定关注的关键因素 | 数字普惠金融、融资约束、绿色信贷 |
方法词 | 筛选实证类文章 | 实证分析、回归分析、影响机制 |
机制词 | 探寻中间传导路径 | 融资约束、研发投入、资源配置 |
以“数字普惠金融与企业创新”为例,你可以这样搜索:
数字普惠金融 + 企业创新(最直接的搜索方式)
数字金融 + 研发投入(更换变量名称)
融资约束 + 企业创新(更换机制词)
企业创新 + 回归分析(更换方法词)
数字普惠金融 + 影响机制(转换视角)
对每个组合进行搜索,你就能大致了解这个方向的相关文献。
文献不用一篇一篇地逐字读。高效的阅读方法是只关注五个部分:
位置 | 关注点 | 原因 |
|---|---|---|
摘要 | 研究问题 | 30秒就能判断文章和你的研究是否相关 |
结论 | 研究发现 | 直接得到研究结果,不用自己猜测 |
变量表 | Y和X的设定方式 | 可以直接借鉴他们的变量设计 |
模型公式 | 回归方程的写法 | 参考他们的模型,修改后使用 |
回归表 | 结果的解释方式 | 学习他们的解释方法,用到自己的论文里 |
要记住,读文献不是为了“读完”,而是为了“借鉴”。遇到好的变量设计和解释方法,要记下来。
读完文献后,不要把它们扔在文件夹里。做一个整理表,写文献综述的时候直接用:
作者 | 年份 | 研究对象 | 数据来源 | Y变量 | X变量 | 方法 | 结论 |
|---|---|---|---|---|---|---|---|
张三 | 2024 | 企业创新 | CSMAR | 专利数 | 数字金融 | 固定效应 | 正向显著 |
李四 | 2023 | 融资约束 | Wind | SA指数 | 绿色信贷 | OLS | 负向显著 |
整理好这个表,你的文献综述就有了大概的框架。
不要把文献综述写成“流水账”,罗列张三、李四、王五的观点,这样写没什么用。
正确的写法是按主题分类:
数字普惠金融研究:目前学术界主要关注哪些方面?
企业创新研究:常用的衡量指标有哪些?
融资约束机制研究:中介效应的证据充分吗?
实证方法相关研究:别人用了哪些模型?有什么不足?
最后总结:“综上,现有研究在XX方面存在不足,本文计划在此基础上进行补充。”——这就是你的研究切入点。
完成文献检索后,接下来就是非常重要的部分——数据与变量。
变量设计得好不好,直接影响论文的质量。
一篇标准的实证论文,变量一般分为三类:
变量类型 | 含义 | 通俗解释 | 示例 |
|---|---|---|---|
被解释变量Y | 要研究的结果 | “我想知道什么发生了变化” | 企业创新、盈利能力、消费水平 |
核心解释变量X | 你认为影响Y的主要因素 | “我觉得是什么导致了这个结果” | 数字金融、绿色信贷、政府补贴 |
控制变量 | 可能影响Y的其他因素 | “为了排除干扰,要考虑这些因素” | 企业规模、资产负债率、年龄 |
比如说,你想研究“吃火锅(X)会不会让人开心(Y)”。但是,开心还可能受天气、工资、有没有伴侣等因素影响——这些就是控制变量。你要把它们放进模型,才能弄清楚“吃火锅”和“开心”之间的关系。
数据类型 | 常用来源 | 适用研究领域 |
|---|---|---|
地区经济数据 | 国家统计局数据库 | 宏观层面研究 |
经济金融数据 | EPS数据库、Wind | 金融、财务类研究 |
上市公司数据 | 年报、CSMAR、Wind | 企业层面研究 |
国际比较数据 | 世界银行公开数据 | 跨国比较研究 |
行业背景资料 | 统计公报、行业报告、企业公告 | 用于补充说明 |
最常用的组合:CSMAR(企业数据)+ 北大数字金融研究中心(数字普惠金融指数)+ 国家统计局(宏观数据)。
这个表就像实证论文的“身份证”,一定要详细准确:
变量名称 | 变量符号 | 衡量方式 | 数据来源 |
|---|---|---|---|
企业创新 | innovation | 专利申请数量(取对数) | CSMAR |
数字普惠金融 | digital | 北大数字普惠金融指数 | 北大数字金融研究中心 |
企业规模 | size | 总资产取自然对数 | 企业年报 |
资产负债率 | lev | 总负债 / 总资产 | 企业年报 |
盈利能力 | roa | 净利润 / 总资产 | 企业年报 |
每个变量都要清楚说明:名称、计算方法、数据来源。审稿人看到这个表,就能判断数据的可靠性。
这一点经常被忽略,但非常重要:
数据表 | 用途 | 注意事项 |
|---|---|---|
原始数据表 | 保存数据来源,方便以后核查 | 不要改动任何数据 |
处理后数据表 | 用于Stata分析 | 记录每一步操作 |
处理记录要详细:
样本年份:2015 - 2023年
样本地区:全国A股上市公司
缺失值处理:删除关键变量缺失的样本
单位换算:万元→元
变量取对数:innovation取ln
这些记录不是给别人看的,是给自己留着的。如果审稿人问“样本是怎么筛选的”,你能马上回答。
变量准备好了,接下来就是“跑回归”——这是实证论文最有技术含量的部分,但没你想的那么难。
最简单的回归模型公式是:
Y = α + βX + 控制变量 + ε
用大白话解释就是:
“我觉得Y的变化主要是X引起的,同时也考虑了其他可能的影响因素(控制变量),剩下的就是随机误差。”
论文里可以这样写:
“本文以企业创新(专利申请数量的对数)为被解释变量,以数字普惠金融指数为核心解释变量,并加入企业规模、资产负债率、盈利能力等控制变量,构建基础回归模型。”
把数据导入Stata之前,Excel数据表应该是这样的:
id | year | innovation | digital | size | lev | roa |
|---|---|---|---|---|---|---|
000001 | 2020 | 2.35 | 5.12 | 22.1 | 0.45 | 0.08 |
000001 | 2021 | 2.48 | 5.31 | 22.5 | 0.43 | 0.09 |
000002 | 2020 | 1.89 | 4.87 | 21.3 | 0.52 | 0.06 |
每行代表一个“样本 - 年份”的观测值,每列代表一个变量。
不用害怕Stata。写一篇合格的实证论文,掌握下面几个命令就可以:
① 描述性统计(了解数据特征):
summarize innovation digital size lev roa age
② 相关性分析(判断变量之间的关系):
pwcorr innovation digital size lev roa age, sig
③ 基础回归(核心命令):
reg innovation digital size lev roa age
④ 面板数据设定(适用于多年多企业的数据):
xtset id year
⑤ 固定效应模型(面板数据常用):
xtreg innovation digital size lev roa age i.year, fe
掌握这几个命令,写本科实证论文就够了。
得出回归结果后,不能直接把表格贴上去。你要进行解释,重点说明以下三项:
重点 | 查看方法 | 撰写方式 |
|---|---|---|
系数方向 | 正或负 | “数字普惠金融的系数为正,说明……” |
显著性水平 | 有没有星号?* / / * | “在1%的水平上显著,说明结果非常可靠” |
现实含义 | 这个数字在现实中的意义 | “数字金融每提高1个单位,企业创新产出大约增加X%” |
结果解释模板(可以直接用):
“数字普惠金融变量的回归系数为0.15,且在1%的水平上显著为正,表明数字普惠金融水平的提高与企业创新产出的增加之间存在显著的正向关系。结合企业研发活动来看,数字金融的发展降低了融资门槛、提高了信息流通效率,为企业持续开展研发活动提供了有力支持。”
这样,三句话就能把结果解释清楚:系数大小→是否显著→现实意义。
审稿人经常问的问题是:“你的结果稳定吗?”
怎么证明结果稳定呢?做稳健性检验。常用的四种方法如下:
方法 | 操作方式 | 有效性原因 |
|---|---|---|
替换被解释变量 | 把“专利数”换成“研发投入”,再重新运行回归 | 换了指标结果还一样,说明不是指标选得好的问题 |
增加控制变量 | 增加几个控制变量,再重新运行回归 | 排除遗漏变量的干扰 |
调整样本范围 | 去掉异常年份或特殊行业,再重新运行回归 | 排除特殊样本的影响 |
更换模型方法 | 从固定效应模型换成随机效应模型,再重新运行回归 | 换了模型结果还一样,说明不是模型选得好的问题 |
选两到三种方法进行检验,结果就更有说服力了。
内容写完后,最后一步是把它整理成一篇规范的论文。
部分 | 内容 | 大致篇幅占比 |
|---|---|---|
引言 | 研究背景、提出问题、说明意义 | 10% |
文献综述 | 前人研究成果、存在的不足 | 15% |
研究假设 | 理论逻辑、变量之间的关系 | 10% |
模型与数据 | 模型公式、变量说明、数据来源 | 15% |
实证分析 | 描述性统计、回归结果、稳健性检验 | 40% |
结论建议 | 研究发现、提出建议 | 10% |
可以看出,实证分析部分是重点,占了将近一半的篇幅。这也是实证论文比纯理论论文好写的原因——大部分内容是“展示数据、解释数据”,不用绞尽脑汁去论证。
很多人内容写得很好,但格式很乱,直接就被扣分了。要记住下面这些规则:
规则 | 具体要求 |
|---|---|
表格要编号 | 表1、表2、表3…… |
表题放在表上方 | “表1 描述性统计结果” |
图题放在图下方 | “图1 数字普惠金融与企业创新的散点图” |
数据来源标在表下方 | “数据来源:作者根据CSMAR数据库整理” |
公式用公式编辑器 | 别用截图或者Word自带的公式 |
参考文献和正文引用要对应 | 正文引用了[1],参考文献里必须有[1] |
这些虽然是细节,但审稿人很看重这些细节。格式规范,审稿人会觉得你态度认真;格式乱,会让人觉得你很敷衍。
文献类型 | 格式 |
|---|---|
期刊文献 | 作者. 题名[J]. 刊名, 年份, 卷(期): 页码. |
著作文献 | 作者. 书名[M]. 出版地: 出版社, 年份: 页码. |
学位论文 | 作者. 题名[D]. 学校, 年份. |
说了这么多,其实核心可以用四句话概括:
核心要求 | 对应环节 |
|---|---|
文献能说明研究基础 | 你的研究不是凭空来的,是在前人研究的基础上进行的 |
数据能支撑变量设计 | 你的变量有明确的来源和依据,可以清楚地解释 |
模型能回应研究问题 | 回归结果能回答你提出的问题 |
正文能把分析过程写清楚 | 别人看了你的论文,能跟着你的思路思考 |
做到这四点,你的实证论文就合格了。
要是想写得更优秀,就要在合格的基础上再努力——多读文献、多做稳健性检验、深入思考结果的含义。
但对于本科论文和课程论文来说,先保证合格,再追求优秀。别一开始就想着发顶级期刊,做好这四件事,你就超过80%的人了。
加油,赶紧开始写吧。