张田勘：假如训练AI的数据是虚假的

今天，全世界既在为人工智能（AI）的狂飙推进而欢呼震惊，也在担忧AI的负面作用，但理由并不一样。

美国AI公司Anthropic呼吁各国的前沿AI公司，合作设置一个刹车，在必要时一致放缓或暂停尖端AI的发展。因为，当AI可以实现自我演化时，人类的监管可能跟不上技术的发展速度，诸多威胁将随之而至。

5月25日，教宗良十四世发表首份通谕——《伟大的人类》，也呼吁人们对AI警惕，原因在于AI创造的技术权力不再属于人民，算法成了看不见的“立法者”以及“数据殖民”造成的数码剥削等。

AI的本质是通过大数据训练，获得比人工更强大和更有效率的工作能力，这也是人们相信AI和使用AI的根本原因。但是，AI的能力是通过大数据训练而获得，人们训练它的大数据又是靠几种方式获得，一是AI模型的研发者挑选出一些大数据来训练；二是AI在网络空间自动抓取所有开放和半开放，甚至以黑客行为窃取任何国家官方、民间和研究机构的各种信息和数据；三是有人故意投喂给AI一些特定的数据和信息。

在这些情况下，AI都会得到一些半真半假的数据，由此造成AI产出虚假的产品和结论。其中，故意投喂给AI特定信息数据的，也称为“AI数据投毒”，是有人故意通过更改训练数据，来操纵AI或机器学习模型的输出，目的是让它在推理过程中，产生有偏见或危险的结果。相对而言，这种情况还比较容易被人们警觉和防范。

但是，AI模型研发者给予AI的数据，和AI自动抓取的全球开放信息和数据的行为，极容易让AI偏离客观、中立和准确轨道，但又难以为人们察觉，从而导致AI结论出错，人们在使用后产生不良后果，甚至导致灾难的产生。正如人们吃了变质、劣质或有毒的食物，必然会扰乱新陈代谢和生理功能，从而损害健康甚至中毒、生病。对于AI来说，如果采用的大数据是不真实的，必然会让它胡说八道，给人们提供的产品也错误百出。

比较而言，全球的学术和科技论文，是比较能反映客观世界规律和本质的信息，也反映人类相对准确的知识和成果。但是，这些论文也有相当部分是虚假的，因此发表后被撤销。自1980年代撤销论文制度逐渐确立后，撤销论文数量从最初每年不到10篇逐年上升，最近几年，论文撤销数量呈指数级增长。

根据Web of Science平台的数据，全球科技论文数量在2000年有106万7000篇，在2022年就增加至280万8000篇，论文撤销率（一年发表论文中被撤回的论文比率）从0.08%上升至0.55%。

《自然》杂志统计的撤稿更多，仅2023年，全球撤稿量就超过1万篇。截至2023年12月31日的近10年中，全球发表的超过5000万篇论文中，有5万余篇撤稿，其中，中国作者撤稿约2万5000篇，几乎占全球撤稿的一半。尽管撤回的论文不足0.1%，但这只是冰山一角，还有大量文章是引文和参考文献有问题，但未撤掉文章。

AI可能采用虚假数据进行训练

然而，引文和参考文献有误，表明文章内容和结论也不靠谱。问题更在于，撤稿后的文章还在被引用。法国图卢兹大学计算机科学家卡巴纳克创建一个检测问题论文的工具“泥足探测器”（Feet of Clay Detector），从各个出版商、Crossref数据库（维护着全球最大的DOI元数据数据库，截至2026年，收录来自2万多家出版商超过1亿5000万篇学术著作的元数据，包括Retraction Watch数据库和生物医学数据库PubMed的文章）查找发现，目前大约有6万2000篇被撤回或者删除的文章仍被引用，总引用量超过83万6000次。同时，“泥足探测器”还发现1700多篇问题论文引用了已撤稿的研究。

既然被撤回的文章还被引用，也意味着任何公司开发的AI软件，都可能采用这些被撤销的虚假数据进行训练，它们能为人们提供什么样的产品也令人担忧。问题还在于，学术论文（包括科技、人文和社会）尽管严谨，但也只是人类认知世界产生的少部分信息和知识，大量的信息是其他文章、图书、图片，甚至是很多网站的贴文，AI也会抓取，用来充实数据库并训练以生成AI产品。这其中必然有很多信息更不靠谱。

除了数据不真实，AI本身的运作也令人担心，其中极为重要的是“AI幻觉”，这是指AI模型生成不存在的文献、不存在的数据、不存在的结论、错误的引用关系。当数据和信息并不严谨、客观和准确时，也为AI幻觉创造了更好的温床，让AI幻觉以乘积甚至指数增长的方式扩大。这也意味着它产生的结果有相当一些并不可靠。

训练AI的数据和信息不完全由AI抓取，而是设计和开发的研究者所选择。目前，任何公司的AI模型很少是开源的，这就意味着AI模型选择的信息库，以及研发者灌输的训练数据，具有某些趋向性、局限性，而对于使用者，尤其是科研人员来说，AI模型究竟依据什么标准筛选文献和信息并得出结论，并不知晓，这也让使用AI工具的人，难以判断AI给出的结果或答案是否客观正确。

卡巴纳克将检测工具命名为“泥足探测器”，是源于《圣经》的一个比喻，指的是雕像或建筑物表面雄伟华丽，用的却是脆弱的粘土地基，随时可能因为不牢固而倒塌。

这与良十四世所见略同。教宗对AI的警告是，人类正在用一种看似进步的方式，建造一座新的巴别塔，建塔砖石是数据；它的砂浆是算法；它的蓝图，无人知晓。

如果训练AI的数据是虚假的，它的基础就是脆弱的，依据虚假数据提供的经营之道、治理方式、产品设计和生产、结果和结论，及最后的产品等，也都会不可靠。这体现为一些产品本来就不堪使用，另一些产品虽表面光鲜，实则给人们埋下许多陷阱，随时间推移，翻车和灾难不可避免。

我们当然要迎接、使用并拥抱AI，因为在实用性上，AI结合既有的工程技术，如机械制造、通讯、电子学等，已经产生巨大实用价值，如无人机的应用，把机器学习算法结合其中，并保证机器学习的数据是真实的，就能在感知层、认知层、控制层和通信层操控无人机，广泛应用于军事和民用。但是，无论在理论还是实用上，必须对AI保持警惕并检测、验证。

作者是北京学者