登录

科学网—AI时代,论文究竟是什么,同时给未来的科研基金资助制度提个建议


速读:AI时代,论文究竟是什么,同时给未来的科研基金资助制度提个建议AI时代,论文究竟是什么,同时给未来的科研基金资助制度提个建议精选。 这是一场在旧范式内部的军备竞赛,所有参与者都在用AI优化"写论文-查重"这个旧博弈,而没有人问:在AI时代,写论文究竟还在验证什么? 传统论文验证的是"你会不会执行",而AI正在让"执行"贬值。 而关键就在于:不要再问AI能帮我们写多少论文,而要问:当AI可以写论文的时候,论文本身还应该是什么。 评审专家问题:核心是改评审表格,不是改人。
AI时代,论文究竟是什么,同时给未来的科研基金资助制度提个建议 精选

已有 290 次阅读

2026-7-3 11:29

| 个人分类: 学术生态 | 系统分类: 观点评述

马车夫思维

马车夫第一次看到汽车时,他的第一反应可能是:如果用这东西运送大量粮草,那就可以用来养更多的马,然后我就可以维护更多的马车了。可惜的是,他没有意识到,有了汽车,还要那么多马车干啥?他不理解运输的本质是把东西从A点移动到B点,而不是用马把东西从A点移动到B点。在他看来,马和运输是同一个东西。马车夫的这种思维我们看起来很怪异,但在马车时代,似乎天经地义。这个隐喻也精确地描述了当下许多人对人工智能(AI)的态度:想用AI来挽救一个很快将被AI本身淘汰的事情。

马车夫看到了一辆运送粮草的大卡车,想到了更多的马车。

很显然,马车夫思维是认知结构问题,而非利益动机问题。马车夫不是不敢看到,而是真的看不到,问题出在三个递进的环节中:

(1)类比惯性(入口): 第一次接触新事物时,大脑自动调用最熟悉的框架去理解它。汽车被理解为"能运送更多东西的工具"——只看到增量改进,看不到替代性颠覆。

(2)手段-目的倒置(过程): 一旦套上旧框架,当前的手段就被焊死为事情的本质组成部分。马匹从当前不得已的运力手段变成了运输的本质要素。当手段变成目的,养更多马就成了理所当然的终极追求。

(3)目标固化(终局): 目标被锁定在旧范式内部,永远无法指向范式之外。他不会问运输的本质是什么,因为在他的世界里,运输和马就是同一个东西。

这三者是递进关系:类比惯性是入口,一旦启动,手段-目的倒置和目标固化就是必然展开。

谁是今天的"马车夫"?

目前的一个典型场景:

学生用AI写论文

→ 学校用AI检测

→ 学生用AI反检测

→ 学校升级检测

→ ……

这是一场在旧范式内部的军备竞赛,所有参与者都在用AI优化"写论文-查重"这个旧博弈,而没有人问:在AI时代,写论文究竟还在验证什么?

在AI出现之前,写论文承载了多重功能:知识掌握度验证、思维组织能力验证、信息检索与整合能力、表达能力、诚信与自律。这五个功能被打包在一篇论文里,天经地义——就像马车夫认为运输和马是同一个东西。

AI究竟击穿了什么?——DIKW金字塔的视角

理解AI对学术的根本冲击,我们首先需要澄清"知识"的层次结构:

数据(Data): 能放进二维表、多维表里的结构化内容,本身不产生价值,只是原始素材。

信息(Information): 对数据加工汇总后,有上下文、有意义的内容。

知识(Knowledge): 信息结合前因后果、和已有认知碰撞后形成的体系,是能解释现象的规律。

智慧(Wisdom): 加入人文思考、价值判断后,能指导行动和改造世界的认知。

我们现在可以看到,AI已经碾压式地完成了"数据→信息"这一层。在"信息→知识"这一层,AI可以模拟,它能给出看起来像"规律"的总结,但没有真正的因果理解。问题在于,对大多数学生来说,AI的模拟已经足以以假乱真,他们不需要自己去和已有认知碰撞,就能产出一个"看起来是知识"的东西。

这带来的深层危机不是学生升不到知识层面,而是 AI让升到知识层面这件事变得可以绕过去。而一旦绕过去成为习惯,他们就连什么叫升到知识层面都感知不到了。 就像马车夫不是不想理解汽车,而是他的认知框架里根本没有"无马运输"这个类别。

登记报告(Registered Reports):AI时代的新范式 传统论文为什么是"马车"

传统学术论文把"提出好问题"和"执行验证过程"打包在一起评审,且评审重心落在"执行过程是否严谨"上。当AI可以伪装这个执行过程时,传统论文就丧失了区分"真知识"和"AI模拟的知识"的能力。

在传统模式下,研究者面对的激励结构是:

好问题 + 漂亮数据 → 发表 ✅

好问题 + 不漂亮数据 → 拒稿 ❌

坏问题 + 漂亮数据 → 也可能发表 ✅

数据漂亮程度 > 问题好坏程度。 这逼出了一条黑暗路径:先收集数据,再倒推一个"看起来能解释这些数据"的问题。造假是这种倒推模式的必然副产品。

登记报告的结构性优势

登记报告把评审重心前移到AI最不擅长的环节: 在没有数据之前,你能不能提出一个真正有价值的问题,并设计一个能检验它的逻辑结构? 这一步需要因果直觉、理论洞见、对领域空白的判断——恰恰是DIKW中"信息→知识"那一步里,人类独占的部分。其核心流程是:

第一阶段: 研究者提出研究问题和检验方案 → 同行评审(评审问题和方案的质量)→ 通过后,论文原则上被接受。

第二阶段: 研究者按注册方案执行研究 → 如实报告结果 → 同行评审(评审执行是否忠实、报告是否完整)→ 发表 。

传统论文验证的是"你会不会执行",而AI正在让"执行"贬值。登记报告验证的是"你会不会提问",而"提问"正是AI时代人类学术价值的最后高地。

登记报告杜绝了造假

这不是因为道德水平提高了,而是因为造假不再带来任何发表优势:

好问题 + 合理方案 → 第一阶段发表 ✅

按方案执行 + 如实报告结果 → 第二阶段发表 ✅

数据不支持假设 → 仍然发表,因为是"诚实汇报" ✅

数据造假 → 无意义,因为结果好不好都不影响发表 ✅

这就像汽车消灭了"马会受惊"的问题,不是因为马变得更勇敢了,而是因为根本不需要马了。造假动机被销毁,出于激励结构的釜底抽薪。

零结果也能发表的时候,科学才更真实

目前我们在学术文献中看到的几乎全是正向结果。但实际上数据是有偏的——大量的零结果因为"数据不够漂亮"被塞进抽屉永不发表。这就是p-hacking和文件抽屉效应(file drawer problem),我们今天不展开说。

零结果的公开,将带来三个层次的深远影响:

第一层:校正文献生态的真相。 元分析不再需要花70%的精力去"猜"文件抽屉里有多少未发表的零结果——它从一个"侦探工作"变成"会计工作"。

第二层:提高科学的进步速度。 当零结果进入公共记录,整个领域可以从他人的失败中学习,而不是每个实验室都独立重复踩同样的坑。科学进步速度不取决于聪明人多快找到正确路径,而取决于所有人多快排除错误路径。

第三层:重新定义研究者的信用。 一个研究者的履历里,10篇正向结果+15篇零结果——这说明这个人专注、诚实、在持续深耕一个难题。而20篇全是正向结果的履历,在新范式下反而可能变为一个需要被审视的信号。

提问者与执行者

当"提出问题"和"用数据证实问题"的评审被分开,一个根本问题就浮现出来:这两种贡献是否由同一批人完成?三种可能的模式:

模式A(上下游协作): 提问者设计方案 → 执行者施工。这里有个潜在的问题,就是执行者很可能丧失学术判断力,沦为流水线工人。

模式B(双向循环): 同一批人既提问也执行,上一轮执行的"意外发现"成为下一轮提问的种子,零结果中藏着新问题的线索,只有亲手执行过的人才能捕捉到。

模式C(AI执行,人提问): 极端的劳动分工。人类研究者的唯一价值是提问。

显然,模式B是最优的 ,它承认"提问"和"执行"不是分离的工种,而是同一个研究者认知循环的两个阶段。意外发现的捕捉能力不是碰运气,而是需要系统训练的核心学术能力。

然而,我们今天的博士训练体系与模式B有结构性冲突:

旧范式训练

模式B需要的训练

怎么把数据讲成漂亮的故事

怎么从失败数据里读出新问题的线索

怎么在前人文献里找到"gap"填上

怎么在自己的零结果里找到前人从未意识到的问题

怎么捍卫结论不被审稿人驳倒

怎么自己推翻自己的假设,并记录推翻过程

一套方法吃一辈子

方法服务于问题,问题变则方法变

这需要更根本的制度变革——远超出发表制度本身。 制度变革的连环锁:从哪一环节启动?

学术制度的各环节是连环绑定的:

发表制度 → 基金分配制度 → 博士培养制度 → 导师激励机制 → 大学排名与资源配置。

我们从哪个环节起步,而且改一个就得改全部。这套锁链需要同时松动,但 基金分配制度是最佳的杠杆支点 。钱流到哪里,行为就流向哪里。重新定义"什么研究值得资助",是撬动整个系统的阿基米德点。

新范式的基金评审

维度

旧范式(马车)

新范式(汽车)

申请书核心

"我猜测X会导致Y,我有初步证据"

"我有一个值得检验的问题,这是我的检验方案"

前期基础

已发表的漂亮正向结果

已发表的"提问记录"——包括零结果和由此衍生的新问题

可行性论证

"我预实验成功了,所以能做成"

"我的方案逻辑自洽,无论结果正负都有学术价值"

评审标准

"这个假说成立的可能性大吗?"

"这个问题重要吗?这个方案能干净地检验它吗?"

结题标准

是否发表了正向发现的论文

是否按注册方案完成了检验,并公开了完整数据与结果

基金预算的执行情况与数据真实性、以及被资助问题获得社区支持的程度,构成新范式下对基金执行的核心考察维度。

评审专家问题:核心是改评审表格,不是改人

有人可能会有疑问,规则改这么大,去哪儿找那么多评审专家?但是,大家不要忘了,任何范式转移都不是突然换了一波新人。量子力学刚出来的时候,评审它的也是经典物理学训练出来的老专家。关键不是评审专家的年龄和出身,而是 评审标准是否被重新定义 。

如果一个老专家拿到一份申请书,表格上不是让他判断"这个假说成立的可能性大吗",而是问"这个问题如果被干净地检验了,无论结果正负,你会关注结果吗"——他回答这个问题时,调用的就不是"我看不看好这个猜测",而是"这个领域是否真的缺这一块"。前者是赌,后者是判。老专家完全有能力做后者。所以, 基金申请书和评审表格的格式设计本身就定义了什么是"好研究"。改评审表格,比改人更有效。

那么,现在有个需要博弈的点是,优先资助什么样的项目?是选最好的问题?还是选最不该继续被忽视的问题?

新范式基金评审的最大难点在于:"这个问题重要吗"怎么判断?旧范式有一个偷懒的办法——看申请人过去的正向发现来判断他眼光好不好。新范式失去了这个拐杖。一个大胆的替代方案是: 研究社群对"最不该继续被忽视的问题"进行公开评分,高票问题进入基金优先支持池。 核心逻辑是反转——不是正向评选最好的问题,而是负面筛选被长期忽略但应该被检验的问题。

入选问题需要满足双重过滤: 客观上被忽视 + 主观上被社区认为不该继续被忽视。

其实,AI是可以自动检测被忽视的三类信号的:

信号A:引文网络的断头路(dead-end citation chains)。 一篇高被引论文提出了一个假说,所有后续引用都在引用这个假说当作"已被证实的背景",但没有一篇论文直接检验了它。引文网络的拓扑结构可以自动检测——这个节点被大量指向,但它的"证据基础"节点是空的,像一个地基悬空的摩天大楼。

信号B:系统性综述里的证据缺口声明(evidence gap statements)。 每篇系统性综述在结尾都有现有文献的局限性和未来研究方向。这些声明本身就是被忽视问题的索引。如果被系统性地提取并汇总,就构成了一张由作者自己认领的空白地图。

信号C:Meta-analysis的异质性残差。 当元分析发现不同研究的效应量差异巨大(高I²),但没有任何调节变量能解释这种差异——这就是一个"被忽视的调节变量"的信号。数据告诉你有什么东西在起作用,但没有人研究过它是什么。

这三类信号的共同特点: 每个人都默认这不是空白,这是正常的。

资金分配机制:Pull认领 + Push悬赏

Pull模式(研究者认领空白): 基金机构在"空白地图"上标注已认证的高票问题。研究者自行选择认领:"我认领问题 #347 ,这是我的检验方案。"基金按登记报告逻辑评审方案,通过即拨款。

Push模式(基金悬赏空白): 对于被社区高票选出但无人认领的空白,基金机构主动设"悬赏"——加大资助额度,放宽时间限制,降低前期基础要求。信号越强(被忽视程度越高+社区认为越不该继续忽视),悬赏金额越高。

两者可在同一个基金池中并存:先开放认领,一定期限内无人认领的高票空白自动转为悬赏。这样能同时发挥研究者自驱力和资金价格信号的导向作用。

谁先动?——国家级科研基金会

候选推动者包括私人基金会、开放科学社区、顶尖大学,但 国家级科研基金会 是最有力的第一推动者:资金体量够大,制度合法性天然,一旦跑通可以快速放大。

具体路径:拿出基金总额的3%-5%设立类似登记报告的专项子基金,完全按新规则运行——空白地图自动检测、社区投票排序、先注册方案后拨款、零结果照样结题。两条线并行,让结果说话。

凭什么新范式更值,可以在五年后用硬指标回答。五年后,新范式需要用可对比的硬指标证明自己:

可复现率: 新范式资助的研究,可复现率能否从旧范式的~30%显著提升?

资金效率: 每万元投入产出的"被干净检验的明确问题数" vs. 旧范式每万元产出的"正向发现论文数"。

下游衍生研究: 零结果是否真的引发了新问题的跟进,而非发表后沉没。

数据真实性: 基金预算使用的规范性、研究数据的完整公开度。

旧范式在有效的新范式面前没有竞争力

当上述指标清晰地展示出新范式的优越性时,旧范式自然落败——不需要制度强制,只需要公平竞争。真正的制度设计要求不是"如何打败旧范式",而是 防止新范式被旧范式吸收成一块遮羞布 ——即防止其核心逻辑(注册方案、零结果结题、社区投票)被一项项妥协掉,最后只剩下一个"登记报告"标签贴在旧评审流程上。这需要试点基金保持机构独立性和规则自治。

我现在就可以想到旧范式的捍卫者会有什么样的质疑,我这里也准备好了答案。

旧范式的捍卫者会有一个看似有力的反驳:可复现率高了,但新范式产出的都是小型检验。旧范式虽然有噪音,但我们产出的是突破性发现。我的回应是: "突破性发现"里有多少是真正经得起复现的?30%的可复现率意味着70%的所谓"大发现"可能是噪音。拿噪音当突破,这不叫产出。大规模复现项目(Open Science Collaboration, Many Labs, SCORE等)正在为这个数字提供不断增长的弹药。 更根本的是,"突破性发现"这个概念本身就是旧范式的叙事框架。在新范式里,科学进步不来自某个天才的灵光一现,而来自 社区系统性地缩小未知空间的速度 。"缩小未知空间的速度"才是新范式的核心度量,不是"突破性发现的数量"。

所以,新范式下的伟大科学家画像也随之改写:一位伟大的科学家,不是那个找到正确答案的人,而是那个 让这个领域再也无法假装某个问题不存在 的人。他可能一辈子没有提出过一个正确答案,但他提出的正确问题被后来者不断检验,他登记的方案成了社区的公共基础设施。

有人会问:如果"找到答案的终局性爽感"没有了,最优秀的年轻人会不会觉得新范式"不过瘾"?

答案是: 荣誉感和审美感受是范式塑造的产物,不是人性常量。 中世纪骑士的最高荣誉是马上比武的胜利,今天没人觉得那比一个诺贝尔奖更荣耀。找到答案的爽感被旧范式神圣化了,不是因为它天然更爽,而是因为旧范式把它供奉在荣誉体系的顶点。当新范式把提出不可忽视的问题供奉在新顶点上,年轻人自然会开始品味提问的爽感。荣誉会迁移。叙事会改写。教科书会把"第一个提出这个问题的人"印成黑体字。

马车和马车夫现在还有,可能永远不会消失,但它们的主流地位已经变了。看清未来的主流是什么——这就是"马车夫思维"反向训练的终点。在AI时代,学术的主流价值不在执行而在提问,不在发现答案而在定义问题,不在产出正向结果而在系统性地缩小未知空间。

所以,登记报告不是论文格式的微调,它是这个新主流的最早的合法港口。从发表制度到基金分配,从博士训练到荣誉体系——整个学术制度的连锁变革,需要从这座港口起航。

而关键就在于: 不要再问AI能帮我们写多少论文,而要问:当AI可以写论文的时候,论文本身还应该是什么。

转载本文请联系原作者获取授权,同时请注明本文来自赵斌科学网博客。 链接地址: https://blog.sciencenet.cn/blog-502444-1542059.html

上一篇: AI时代,你和导师的差距消失了!真的吗?然后呢? 欢迎参加科学网十佳博文评选活动! 主办单位: 支持单位:

主题:马车夫|东西|论文究竟|马车夫思维|同时给未来