虚伪新闻、歹意产物评论、抄袭……ChatGPT、 GPT-4等AI年夜言语模子的运用带来便当,但其误用也带来一系列问题。西湖年夜学工学院张岳传授的“文本智能试验室”日前发布的一项研究提出一种高正确率、高速、低成本、通用的新文本检测要领——Fast-DetectGPT,无需练习便可辨认各类AI年夜言语模子天生的文本内容。
?
Fast-DetectGPT演示网页
据相识,该研究的论文5月揭晓于2024年国际表征进修年夜会上。第一作者、西湖年夜学文本智能试验室玻士鲍光胜6月28日告诉彭湃新闻(www.thepaper.cn),Fast-DetectGPT针对于GPT3.5天生的文本辨认率可达96%,对于GPT4天生的文章的辨认率达90%。与斯坦福年夜学2023年提出的DetectGPT检测要领比拟,Fast-DetectGPT 的检测速率提高340倍,检测正确率相对于晋升75%,于对于今朝被广泛使用的ChatGPT 以及GPT-4 天生文本的检测上,正确率均跨越商用体系 GPTZero。
“我的研究标的目的是天然言语处置惩罚,留意到AI年夜言语模子的运用于多个范畴晋升了出产力,但其误用也带来了诸如虚伪新闻、歹意产物评论、学术不端等问题,去年启动了这项研究,用时约半年完成。” 鲍光胜先容,AI天生的文本内容流利联贯,每每难以鉴别,这项研究则引入了能区别呆板天生文本以及人类撰写文本特性差异的统计量——前提几率曲率。
“Fast-DetectGPT的操作基在一个条件:人类以及呆板于文本天生历程中偏向在选择差别的辞汇,人类的选择比力多样,呆板则更偏向在选择有更高模子几率的辞汇,由于于年夜范围语料库上预练习的AI模子反应的是人类的团体写作举动,而非个别举动。” 鲍光胜注释,“详细而言,两种文本于辞汇使用、句子布局、语法繁杂度、语义联贯性等方面有所不异,咱们提取笼罩这些区分特性的统计量,阐发它们于两种差别文本的漫衍,当某个文本的统计特性值重要落于呆板天生文本的漫衍中,模子就会判定为AI年夜言语模子天生的。”
鲍光胜同时暗示,Fast-DetectGPT不克不及彻底正确地辨认文本是否由呆板天生,只是提供几率,于Fast-DetectGPT演示网页的对于话框输入一段文本,成果会显示“文本有2%的几率是呆板天生”。“当被测文本混淆了呆板天生文本以及人工撰写文本,检测会更难。” 他说,“构建一个更好的内容情况还需要各方的起劲。”
出格声明:本文转载仅仅是出在流传信息的需要,其实不象征着代表本消息网不雅点或者证明其内容的真实性;如其他媒���体、消息网或者小我私家从本消息网转载使用,须保留本消息网注明的“来历”,并自大版权等法令义务;作者假如不但愿被转载或者者接洽转载稿费等事宜,请与咱们联系。/开云