科学网—AI时代，论文究竟是什么，同时给未来的科研基金资助制度提个建议

速读：AI时代，论文究竟是什么，同时给未来的科研基金资助制度提个建议AI时代，论文究竟是什么，同时给未来的科研基金资助制度提个建议精选。这是一场在旧范式内部的军备竞赛，所有参与者都在用AI优化"写论文-查重"这个旧博弈，而没有人问：在AI时代，写论文究竟还在验证什么？传统论文验证的是"你会不会执行"，而AI正在让"执行"贬值。而关键就在于：不要再问AI能帮我们写多少论文，而要问：当AI可以写论文的时候，论文本身还应该是什么。评审专家问题：核心是改评审表格，不是改人。

AI时代，论文究竟是什么，同时给未来的科研基金资助制度提个建议

精选

已有 290 次阅读

2026-7-3 11:29

| 个人分类: 学术生态 | 系统分类: 观点评述

马车夫思维

马车夫第一次看到汽车时，他的第一反应可能是：如果用这东西运送大量粮草，那就可以用来养更多的马，然后我就可以维护更多的马车了。可惜的是，他没有意识到，有了汽车，还要那么多马车干啥？他不理解运输的本质是把东西从A点移动到B点，而不是用马把东西从A点移动到B点。在他看来，马和运输是同一个东西。马车夫的这种思维我们看起来很怪异，但在马车时代，似乎天经地义。这个隐喻也精确地描述了当下许多人对人工智能（AI）的态度：想用AI来挽救一个很快将被AI本身淘汰的事情。

马车夫看到了一辆运送粮草的大卡车，想到了更多的马车。

很显然，马车夫思维是认知结构问题，而非利益动机问题。马车夫不是不敢看到，而是真的看不到，问题出在三个递进的环节中：

（1）类比惯性（入口）：第一次接触新事物时，大脑自动调用最熟悉的框架去理解它。汽车被理解为"能运送更多东西的工具"——只看到增量改进，看不到替代性颠覆。

（2）手段-目的倒置（过程）：一旦套上旧框架，当前的手段就被焊死为事情的本质组成部分。马匹从当前不得已的运力手段变成了运输的本质要素。当手段变成目的，养更多马就成了理所当然的终极追求。

（3）目标固化（终局）：目标被锁定在旧范式内部，永远无法指向范式之外。他不会问运输的本质是什么，因为在他的世界里，运输和马就是同一个东西。

这三者是递进关系：类比惯性是入口，一旦启动，手段-目的倒置和目标固化就是必然展开。

谁是今天的"马车夫"？

目前的一个典型场景：

学生用AI写论文

→ 学校用AI检测

→ 学生用AI反检测

→ 学校升级检测

→ ……

这是一场在旧范式内部的军备竞赛，所有参与者都在用AI优化"写论文-查重"这个旧博弈，而没有人问：在AI时代，写论文究竟还在验证什么？

在AI出现之前，写论文承载了多重功能：知识掌握度验证、思维组织能力验证、信息检索与整合能力、表达能力、诚信与自律。这五个功能被打包在一篇论文里，天经地义——就像马车夫认为运输和马是同一个东西。

AI究竟击穿了什么？——DIKW金字塔的视角

理解AI对学术的根本冲击，我们首先需要澄清"知识"的层次结构：

数据（Data）：能放进二维表、多维表里的结构化内容，本身不产生价值，只是原始素材。

信息（Information）：对数据加工汇总后，有上下文、有意义的内容。

知识（Knowledge）：信息结合前因后果、和已有认知碰撞后形成的体系，是能解释现象的规律。

智慧（Wisdom）：加入人文思考、价值判断后，能指导行动和改造世界的认知。

我们现在可以看到，AI已经碾压式地完成了"数据→信息"这一层。在"信息→知识"这一层，AI可以模拟，它能给出看起来像"规律"的总结，但没有真正的因果理解。问题在于，对大多数学生来说，AI的模拟已经足以以假乱真，他们不需要自己去和已有认知碰撞，就能产出一个"看起来是知识"的东西。

这带来的深层危机不是学生升不到知识层面，而是 AI让升到知识层面这件事变得可以绕过去。而一旦绕过去成为习惯，他们就连什么叫升到知识层面都感知不到了。就像马车夫不是不想理解汽车，而是他的认知框架里根本没有"无马运输"这个类别。

登记报告（Registered Reports）：AI时代的新范式传统论文为什么是"马车"

传统学术论文把"提出好问题"和"执行验证过程"打包在一起评审，且评审重心落在"执行过程是否严谨"上。当AI可以伪装这个执行过程时，传统论文就丧失了区分"真知识"和"AI模拟的知识"的能力。

在传统模式下，研究者面对的激励结构是：

好问题 + 漂亮数据 → 发表 ✅

好问题 + 不漂亮数据 → 拒稿 ❌

坏问题 + 漂亮数据 → 也可能发表 ✅

数据漂亮程度 > 问题好坏程度。这逼出了一条黑暗路径：先收集数据，再倒推一个"看起来能解释这些数据"的问题。造假是这种倒推模式的必然副产品。

登记报告的结构性优势

登记报告把评审重心前移到AI最不擅长的环节：在没有数据之前，你能不能提出一个真正有价值的问题，并设计一个能检验它的逻辑结构？这一步需要因果直觉、理论洞见、对领域空白的判断——恰恰是DIKW中"信息→知识"那一步里，人类独占的部分。其核心流程是：

第一阶段：研究者提出研究问题和检验方案 → 同行评审（评审问题和方案的质量）→ 通过后，论文原则上被接受。

第二阶段：研究者按注册方案执行研究 → 如实报告结果 → 同行评审（评审执行是否忠实、报告是否完整）→ 发表。

传统论文验证的是"你会不会执行"，而AI正在让"执行"贬值。登记报告验证的是"你会不会提问"，而"提问"正是AI时代人类学术价值的最后高地。

登记报告杜绝了造假

这不是因为道德水平提高了，而是因为造假不再带来任何发表优势：

好问题 + 合理方案 → 第一阶段发表 ✅

按方案执行 + 如实报告结果 → 第二阶段发表 ✅

数据不支持假设 → 仍然发表，因为是"诚实汇报" ✅

数据造假 → 无意义，因为结果好不好都不影响发表 ✅

这就像汽车消灭了"马会受惊"的问题，不是因为马变得更勇敢了，而是因为根本不需要马了。造假动机被销毁，出于激励结构的釜底抽薪。

零结果也能发表的时候，科学才更真实

目前我们在学术文献中看到的几乎全是正向结果。但实际上数据是有偏的——大量的零结果因为"数据不够漂亮"被塞进抽屉永不发表。这就是p-hacking和文件抽屉效应（file drawer problem），我们今天不展开说。

零结果的公开，将带来三个层次的深远影响：

第一层：校正文献生态的真相。元分析不再需要花70%的精力去"猜"文件抽屉里有多少未发表的零结果——它从一个"侦探工作"变成"会计工作"。

第二层：提高科学的进步速度。当零结果进入公共记录，整个领域可以从他人的失败中学习，而不是每个实验室都独立重复踩同样的坑。科学进步速度不取决于聪明人多快找到正确路径，而取决于所有人多快排除错误路径。

第三层：重新定义研究者的信用。一个研究者的履历里，10篇正向结果+15篇零结果——这说明这个人专注、诚实、在持续深耕一个难题。而20篇全是正向结果的履历，在新范式下反而可能变为一个需要被审视的信号。

提问者与执行者

当"提出问题"和"用数据证实问题"的评审被分开，一个根本问题就浮现出来：这两种贡献是否由同一批人完成？三种可能的模式：

模式A（上下游协作）：提问者设计方案 → 执行者施工。这里有个潜在的问题，就是执行者很可能丧失学术判断力，沦为流水线工人。

模式B（双向循环）：同一批人既提问也执行，上一轮执行的"意外发现"成为下一轮提问的种子，零结果中藏着新问题的线索，只有亲手执行过的人才能捕捉到。

模式C（AI执行，人提问）：极端的劳动分工。人类研究者的唯一价值是提问。

显然，模式B是最优的，它承认"提问"和"执行"不是分离的工种，而是同一个研究者认知循环的两个阶段。意外发现的捕捉能力不是碰运气，而是需要系统训练的核心学术能力。

然而，我们今天的博士训练体系与模式B有结构性冲突：

旧范式训练

模式B需要的训练

怎么把数据讲成漂亮的故事

怎么从失败数据里读出新问题的线索

怎么在前人文献里找到"gap"填上

怎么在自己的零结果里找到前人从未意识到的问题

怎么捍卫结论不被审稿人驳倒

怎么自己推翻自己的假设，并记录推翻过程

一套方法吃一辈子

方法服务于问题，问题变则方法变

这需要更根本的制度变革——远超出发表制度本身。制度变革的连环锁：从哪一环节启动？

学术制度的各环节是连环绑定的：

发表制度 → 基金分配制度 → 博士培养制度 → 导师激励机制 → 大学排名与资源配置。

我们从哪个环节起步，而且改一个就得改全部。这套锁链需要同时松动，但基金分配制度是最佳的杠杆支点。钱流到哪里，行为就流向哪里。重新定义"什么研究值得资助"，是撬动整个系统的阿基米德点。

新范式的基金评审

维度

旧范式（马车）

新范式（汽车）

申请书核心

"我猜测X会导致Y，我有初步证据"

"我有一个值得检验的问题，这是我的检验方案"

前期基础

已发表的漂亮正向结果

已发表的"提问记录"——包括零结果和由此衍生的新问题

可行性论证

"我预实验成功了，所以能做成"

"我的方案逻辑自洽，无论结果正负都有学术价值"

评审标准

"这个假说成立的可能性大吗？"

"这个问题重要吗？这个方案能干净地检验它吗？"

结题标准

是否发表了正向发现的论文

是否按注册方案完成了检验，并公开了完整数据与结果

基金预算的执行情况与数据真实性、以及被资助问题获得社区支持的程度，构成新范式下对基金执行的核心考察维度。

评审专家问题：核心是改评审表格，不是改人

有人可能会有疑问，规则改这么大，去哪儿找那么多评审专家？但是，大家不要忘了，任何范式转移都不是突然换了一波新人。量子力学刚出来的时候，评审它的也是经典物理学训练出来的老专家。关键不是评审专家的年龄和出身，而是评审标准是否被重新定义。

如果一个老专家拿到一份申请书，表格上不是让他判断"这个假说成立的可能性大吗"，而是问"这个问题如果被干净地检验了，无论结果正负，你会关注结果吗"——他回答这个问题时，调用的就不是"我看不看好这个猜测"，而是"这个领域是否真的缺这一块"。前者是赌，后者是判。老专家完全有能力做后者。所以，基金申请书和评审表格的格式设计本身就定义了什么是"好研究"。改评审表格，比改人更有效。

那么，现在有个需要博弈的点是，优先资助什么样的项目？是选最好的问题？还是选最不该继续被忽视的问题？

新范式基金评审的最大难点在于："这个问题重要吗"怎么判断？旧范式有一个偷懒的办法——看申请人过去的正向发现来判断他眼光好不好。新范式失去了这个拐杖。一个大胆的替代方案是：研究社群对"最不该继续被忽视的问题"进行公开评分，高票问题进入基金优先支持池。核心逻辑是反转——不是正向评选最好的问题，而是负面筛选被长期忽略但应该被检验的问题。

入选问题需要满足双重过滤：客观上被忽视 + 主观上被社区认为不该继续被忽视。

其实，AI是可以自动检测被忽视的三类信号的：

信号A：引文网络的断头路（dead-end citation chains）。一篇高被引论文提出了一个假说，所有后续引用都在引用这个假说当作"已被证实的背景"，但没有一篇论文直接检验了它。引文网络的拓扑结构可以自动检测——这个节点被大量指向，但它的"证据基础"节点是空的，像一个地基悬空的摩天大楼。

信号B：系统性综述里的证据缺口声明（evidence gap statements）。每篇系统性综述在结尾都有现有文献的局限性和未来研究方向。这些声明本身就是被忽视问题的索引。如果被系统性地提取并汇总，就构成了一张由作者自己认领的空白地图。

信号C：Meta-analysis的异质性残差。当元分析发现不同研究的效应量差异巨大（高I²），但没有任何调节变量能解释这种差异——这就是一个"被忽视的调节变量"的信号。数据告诉你有什么东西在起作用，但没有人研究过它是什么。

这三类信号的共同特点：每个人都默认这不是空白，这是正常的。

资金分配机制：Pull认领 + Push悬赏

Pull模式（研究者认领空白）：基金机构在"空白地图"上标注已认证的高票问题。研究者自行选择认领："我认领问题 #347 ，这是我的检验方案。"基金按登记报告逻辑评审方案，通过即拨款。

Push模式（基金悬赏空白）：对于被社区高票选出但无人认领的空白，基金机构主动设"悬赏"——加大资助额度，放宽时间限制，降低前期基础要求。信号越强（被忽视程度越高+社区认为越不该继续忽视），悬赏金额越高。

两者可在同一个基金池中并存：先开放认领，一定期限内无人认领的高票空白自动转为悬赏。这样能同时发挥研究者自驱力和资金价格信号的导向作用。

谁先动？——国家级科研基金会

候选推动者包括私人基金会、开放科学社区、顶尖大学，但国家级科研基金会是最有力的第一推动者：资金体量够大，制度合法性天然，一旦跑通可以快速放大。

具体路径：拿出基金总额的3%-5%设立类似登记报告的专项子基金，完全按新规则运行——空白地图自动检测、社区投票排序、先注册方案后拨款、零结果照样结题。两条线并行，让结果说话。

凭什么新范式更值，可以在五年后用硬指标回答。五年后，新范式需要用可对比的硬指标证明自己：

可复现率：新范式资助的研究，可复现率能否从旧范式的~30%显著提升？

资金效率：每万元投入产出的"被干净检验的明确问题数" vs. 旧范式每万元产出的"正向发现论文数"。

下游衍生研究：零结果是否真的引发了新问题的跟进，而非发表后沉没。

数据真实性：基金预算使用的规范性、研究数据的完整公开度。

旧范式在有效的新范式面前没有竞争力

当上述指标清晰地展示出新范式的优越性时，旧范式自然落败——不需要制度强制，只需要公平竞争。真正的制度设计要求不是"如何打败旧范式"，而是防止新范式被旧范式吸收成一块遮羞布 ——即防止其核心逻辑（注册方案、零结果结题、社区投票）被一项项妥协掉，最后只剩下一个"登记报告"标签贴在旧评审流程上。这需要试点基金保持机构独立性和规则自治。

我现在就可以想到旧范式的捍卫者会有什么样的质疑，我这里也准备好了答案。

旧范式的捍卫者会有一个看似有力的反驳：可复现率高了，但新范式产出的都是小型检验。旧范式虽然有噪音，但我们产出的是突破性发现。我的回应是： "突破性发现"里有多少是真正经得起复现的？30%的可复现率意味着70%的所谓"大发现"可能是噪音。拿噪音当突破，这不叫产出。大规模复现项目（Open Science Collaboration, Many Labs, SCORE等）正在为这个数字提供不断增长的弹药。更根本的是，"突破性发现"这个概念本身就是旧范式的叙事框架。在新范式里，科学进步不来自某个天才的灵光一现，而来自社区系统性地缩小未知空间的速度。"缩小未知空间的速度"才是新范式的核心度量，不是"突破性发现的数量"。

所以，新范式下的伟大科学家画像也随之改写：一位伟大的科学家，不是那个找到正确答案的人，而是那个让这个领域再也无法假装某个问题不存在的人。他可能一辈子没有提出过一个正确答案，但他提出的正确问题被后来者不断检验，他登记的方案成了社区的公共基础设施。

有人会问：如果"找到答案的终局性爽感"没有了，最优秀的年轻人会不会觉得新范式"不过瘾"？

答案是：荣誉感和审美感受是范式塑造的产物，不是人性常量。中世纪骑士的最高荣誉是马上比武的胜利，今天没人觉得那比一个诺贝尔奖更荣耀。找到答案的爽感被旧范式神圣化了，不是因为它天然更爽，而是因为旧范式把它供奉在荣誉体系的顶点。当新范式把提出不可忽视的问题供奉在新顶点上，年轻人自然会开始品味提问的爽感。荣誉会迁移。叙事会改写。教科书会把"第一个提出这个问题的人"印成黑体字。

马车和马车夫现在还有，可能永远不会消失，但它们的主流地位已经变了。看清未来的主流是什么——这就是"马车夫思维"反向训练的终点。在AI时代，学术的主流价值不在执行而在提问，不在发现答案而在定义问题，不在产出正向结果而在系统性地缩小未知空间。

所以，登记报告不是论文格式的微调，它是这个新主流的最早的合法港口。从发表制度到基金分配，从博士训练到荣誉体系——整个学术制度的连锁变革，需要从这座港口起航。

而关键就在于：不要再问AI能帮我们写多少论文，而要问：当AI可以写论文的时候，论文本身还应该是什么。

转载本文请联系原作者获取授权，同时请注明本文来自赵斌科学网博客。链接地址： https://blog.sciencenet.cn/blog-502444-1542059.html

上一篇： AI时代，你和导师的差距消失了！真的吗？然后呢？欢迎参加科学网十佳博文评选活动！主办单位：支持单位：

主题：马车夫|东西|论文究竟|马车夫思维|同时给未来