AI生成文本“套路深”?新研究找到识别新方法
你有没有在阅读一篇文章时,突然感觉有些不对劲,但又说不出具体哪里不对?可能是形容词堆砌得太多,也可能是句子结构过于重复,让你不禁怀疑:“这到底是人写的,还是人工智能(AI)生成的?”
为了解答这个疑惑,位于美国马萨诸塞州的东北大学的研究人员最近发表了一篇新论文,通过分析AI生成文本的语法结构,试图让我们更容易辨别文本的作者是AI还是人类。
此项研究发现,AI模型在生成文本时,往往会比人类更为频繁的使用特定形式的名词、动词和形容词,就像是在遵循一套公式。目前,这项研究已经发表在了arXiv论文预印本网站上。
美国东北大学数据科学项目的负责人拜伦·华莱士(Byron Wallace)教授表示,:“这从经验验证了我们的直觉,很多AI生成的文本都显得公式化,真的是千篇一律。”
AI文本的句法“套路”
通常,AI模型倾向重复使用某些词语,比如ChatGPT就曾一度热衷于用“深入探讨”这个词组。但华莱士教授指出,仅仅关注AI使用了哪些词语,并不能完全揭示AI文本的真相。于是,他和他的团队,包括博士生香塔尔·沙伊布(Chantal Shaib),决定深入探究AI生成文本的语法结构层面。
研究人员让各种AI模型生成不同类型的文本,比如电影评论摘要、新闻报道或生物医学研究论文的摘要。接着,他们分析了所有AI生成的文本,并确定了所谓的“句法模板”,即AI模型会重复使用的特定词类序列。
这些句法模板就像每个AI模型的“签名”,各不相同。在某些情况下,它们看起来像是一组双重形容词。比如,在描述电影《旧金山最后一个黑人》的评论摘要中,AI在短短两段话里,就用“独特而激烈的观影体验”、“高度原创且令人印象深刻的处女作”和“魔幻且引人深思”这样的双形容词组合来形容电影和导演,让人不禁感叹AI的“套路”之深。
AI使用句法模式频率高
难道人类不会使用类似模板的句式吗?研究人员沙伊布称,人类也能写出这样的模板,但使用频率远低于AI模型。
研究还发现,AI模型的大小并不影响它产生这些模板的可能性。他们分析的所有模型,都倾向于以高于人类的频率使用此类重复句法模板。
不过,对于不同的写作题材,AI和人类使用句法模板的频率差异也有所不同。在生物医学写作中,由于有特定的风格指南,AI和人类之间的差异相对较小。而在电影评论和新闻报道等允许更多创意发挥的题材中,AI模型在产生相同模式方面远远超过了人类。
那么,这些模板是从哪里来的呢?研究人员发现,这些模板并不是模型在生成过程中凭空编造出来的,大约75%的模板可以在训练数据中找到。
当然,这项研究并不是为了创造一种万无一失的方法来判断文本是否由AI生成。但它确实为我们提供了一种新的视角来讨论AI生成的文本,让我们不再仅仅关注特定的词语,而是关注整个写作风格。
沙伊布说:“这项研究最重要的收获是,它提供了一个工具,让我们能够准确地分析为什么某些文本会让我们感觉不对劲,尤其是当我们连续看到很多这样的文本时。它给了我们一种方法来分析这里到底发生了什么,而不是仅仅依靠直觉。”
所以,下次当你再遇到那些“公式化”的文本时,不妨想一想,这背后可能隐藏着AI的“小秘密”。