一項針對學(xué)術(shù)文獻(xiàn)的大規(guī)模分析顯示,去年發(fā)表的生物醫(yī)學(xué)論文摘要中,約1/7可能借助人工智能(AI)完成撰寫。2024年,醫(yī)學(xué)數(shù)據(jù)庫PubMed收錄的150萬篇摘要中,超過20萬篇包含大型語言模型(LLM)常推薦使用的詞匯。

相關(guān)研究于2024年6月以預(yù)印本形式在線公布,當(dāng)時預(yù)計上半年約1/9的摘要由AI輔助完成。上述最新分析結(jié)果則在今年7月2日發(fā)表于《科學(xué)進(jìn)展》。

1/7生物醫(yī)學(xué)論文摘要由AI撰寫-肽度TIMEDOO圖片來源:Nicolas Economou/NurPhoto via Getty

英國倫敦大學(xué)學(xué)院的Andrew Gray表示:“由LLM編輯的論文數(shù)量一直‘不可阻擋地增長’?!彼J(rèn)為,研究人員尚未充分認(rèn)識到這些工具被用于產(chǎn)出學(xué)術(shù)成果的規(guī)模,“希望這篇論文能推動人們關(guān)注這一問題”。

許多團(tuán)隊試圖評估LLM對學(xué)術(shù)產(chǎn)出的影響,但這一過程頗具挑戰(zhàn)性,因為大多數(shù)使用者并未披露這種行為。常見方法是訓(xùn)練模型識別人類與LLM生成文本的差異,再將其應(yīng)用于文獻(xiàn)評估。然而,目前尚不清楚此類模型如何區(qū)分兩種文本,且訓(xùn)練數(shù)據(jù)集未必能反映LLM生成文本的最新趨勢。

德國圖賓根大學(xué)的Dmitry Kobak及同事采用了更開放的研究方法。他們在摘要中搜索2022年11月ChatGPT普及后出現(xiàn)頻率異常升高的“冗余詞匯”。

研究發(fā)現(xiàn),2024年有454個詞匯的出現(xiàn)頻率遠(yuǎn)高于2010年以來的任何年份。它們多為與研究內(nèi)容無關(guān)的“風(fēng)格詞”,且以動詞和形容詞為主。其中既有常見詞匯“發(fā)現(xiàn)”“潛力”,也有較生僻的詞匯“探究”“展現(xiàn)”。Kobak指出,2024年下半年新增的冗余詞匯包括“顯著增強(qiáng)”“妨礙”,以及“無與倫比”“極有用”等最高級形容詞。

科學(xué)詞匯的演變是長期過程。2021年有190個“冗余詞匯”,多為與研究內(nèi)容相關(guān)的名詞。但自LLM普及以來的詞匯變化更為顯著,且主要體現(xiàn)在風(fēng)格層面。

此外,在計算科學(xué)和生物信息學(xué)等領(lǐng)域,超過1/5的摘要由LLM輔助撰寫?!敖衲甑恼w數(shù)據(jù)可能進(jìn)一步上升,LLM的使用仍在持續(xù)增加。”Kobak表示。AI實際使用率可能比最新研究顯示的更高。

2月,法國巴黎高等師范學(xué)院的Mingmeng Geng及同事在預(yù)印本平臺arXiv公布的研究中指出,部分標(biāo)志性詞匯和短語,如“探究”在2024年底的出現(xiàn)頻率有所下降。他認(rèn)為,這可能是由于相關(guān)研究將其標(biāo)記為“使用AI”,促使作者刪除此類詞匯,或調(diào)整LLM請求以規(guī)避檢測。

隨著作者不斷調(diào)整策略,評估AI對學(xué)術(shù)文獻(xiàn)影響的研究變得越發(fā)困難。另一大挑戰(zhàn)在于,包括Kobak團(tuán)隊在內(nèi)的研究均無法確定AI工具的具體使用方式。作者可能將其用于合理場景,如潤色文本或輔助翻譯,也可能涉及更具爭議的做法,如在缺乏適當(dāng)監(jiān)督的情況下生成大段文本?!斑@其中存在真正的科研誠信隱患。”Gray說。

相關(guān)論文信息:https://doi.org/10.48550/arXiv.2406.07016

來源:中國科學(xué)報