AI生成文本“套路深”？新研究找到识别新方法

canis1

编译

2024-12-20 14:07

你有没有在阅读一篇文章时，突然感觉有些不对劲，但又说不出具体哪里不对？可能是形容词堆砌得太多，也可能是句子结构过于重复，让你不禁怀疑：“这到底是人写的，还是人工智能（AI）生成的？”为了解答这个疑惑，位于美国马萨诸塞州的东北大学的研究人员最近发表了一篇新论文，通过分析AI生成文本的语法结构，试图让我们更容易辨别文本的作者是AI还是人类。此项研究发现，AI模型在生成文本时，往往会比人类更为频繁的使用特定形式的名词、动词和形容词，就像是在遵循一套公式。

你有没有在阅读一篇文章时，突然感觉有些不对劲，但又说不出具体哪里不对？可能是形容词堆砌得太多，也可能是句子结构过于重复，让你不禁怀疑：“这到底是人写的，还是人工智能（AI）生成的？”

为了解答这个疑惑，位于美国马萨诸塞州的东北大学的研究人员最近发表了一篇新论文，通过分析AI生成文本的语法结构，试图让我们更容易辨别文本的作者是AI还是人类。

Image title

此项研究发现，AI模型在生成文本时，往往会比人类更为频繁的使用特定形式的名词、动词和形容词，就像是在遵循一套公式。目前，这项研究已经发表在了arXiv论文预印本网站上。

美国东北大学数据科学项目的负责人拜伦·华莱士（Byron Wallace）教授表示，：“这从经验验证了我们的直觉，很多AI生成的文本都显得公式化，真的是千篇一律。”

AI文本的句法“套路”

通常，AI模型倾向重复使用某些词语，比如ChatGPT就曾一度热衷于用“深入探讨”这个词组。但华莱士教授指出，仅仅关注AI使用了哪些词语，并不能完全揭示AI文本的真相。于是，他和他的团队，包括博士生香塔尔·沙伊布（Chantal Shaib），决定深入探究AI生成文本的语法结构层面。

研究人员让各种AI模型生成不同类型的文本，比如电影评论摘要、新闻报道或生物医学研究论文的摘要。接着，他们分析了所有AI生成的文本，并确定了所谓的“句法模板”，即AI模型会重复使用的特定词类序列。

这些句法模板就像每个AI模型的“签名”，各不相同。在某些情况下，它们看起来像是一组双重形容词。比如，在描述电影《旧金山最后一个黑人》的评论摘要中，AI在短短两段话里，就用“独特而激烈的观影体验”、“高度原创且令人印象深刻的处女作”和“魔幻且引人深思”这样的双形容词组合来形容电影和导演，让人不禁感叹AI的“套路”之深。

AI使用句法模式频率高

难道人类不会使用类似模板的句式吗？研究人员沙伊布称，人类也能写出这样的模板，但使用频率远低于AI模型。

研究还发现，AI模型的大小并不影响它产生这些模板的可能性。他们分析的所有模型，都倾向于以高于人类的频率使用此类重复句法模板。

不过，对于不同的写作题材，AI和人类使用句法模板的频率差异也有所不同。在生物医学写作中，由于有特定的风格指南，AI和人类之间的差异相对较小。而在电影评论和新闻报道等允许更多创意发挥的题材中，AI模型在产生相同模式方面远远超过了人类。

那么，这些模板是从哪里来的呢？研究人员发现，这些模板并不是模型在生成过程中凭空编造出来的，大约75%的模板可以在训练数据中找到。

当然，这项研究并不是为了创造一种万无一失的方法来判断文本是否由AI生成。但它确实为我们提供了一种新的视角来讨论AI生成的文本，让我们不再仅仅关注特定的词语，而是关注整个写作风格。

沙伊布说：“这项研究最重要的收获是，它提供了一个工具，让我们能够准确地分析为什么某些文本会让我们感觉不对劲，尤其是当我们连续看到很多这样的文本时。它给了我们一种方法来分析这里到底发生了什么，而不是仅仅依靠直觉。”

所以，下次当你再遇到那些“公式化”的文本时，不妨想一想，这背后可能隐藏着AI的“小秘密”。

本篇文章编译自 Techxplore ，更多详情参考原文出处，原文标题：《How can you tell if text is AI generated? Researchers have figured out a new method》

赞赏

专题：#AIGC能骗过人类吗#

人工智能（AI） | +