1/7生物醫(yī)學(xué)論文摘要由AI撰寫

5小時前發(fā)布在 7X24h 資訊

一項針對學(xué)術(shù)文獻(xiàn)的大規(guī)模分析顯示，去年發(fā)表的生物醫(yī)學(xué)論文摘要中，約1/7可能借助人工智能（AI）完成撰寫。2024年，醫(yī)學(xué)數(shù)據(jù)庫PubMed收錄的150萬篇摘要中，超過20萬篇包含大型語言模型（LLM）常推薦使用的詞匯。

相關(guān)研究于2024年6月以預(yù)印本形式在線公布，當(dāng)時預(yù)計上半年約1/9的摘要由AI輔助完成。上述最新分析結(jié)果則在今年7月2日發(fā)表于《科學(xué)進(jìn)展》。

圖片來源：Nicolas Economou/NurPhoto via Getty

英國倫敦大學(xué)學(xué)院的Andrew Gray表示：“由LLM編輯的論文數(shù)量一直‘不可阻擋地增長’?！彼J(rèn)為，研究人員尚未充分認(rèn)識到這些工具被用于產(chǎn)出學(xué)術(shù)成果的規(guī)模，“希望這篇論文能推動人們關(guān)注這一問題”。

許多團(tuán)隊試圖評估LLM對學(xué)術(shù)產(chǎn)出的影響，但這一過程頗具挑戰(zhàn)性，因為大多數(shù)使用者并未披露這種行為。常見方法是訓(xùn)練模型識別人類與LLM生成文本的差異，再將其應(yīng)用于文獻(xiàn)評估。然而，目前尚不清楚此類模型如何區(qū)分兩種文本，且訓(xùn)練數(shù)據(jù)集未必能反映LLM生成文本的最新趨勢。

德國圖賓根大學(xué)的Dmitry Kobak及同事采用了更開放的研究方法。他們在摘要中搜索2022年11月ChatGPT普及后出現(xiàn)頻率異常升高的“冗余詞匯”。

研究發(fā)現(xiàn)，2024年有454個詞匯的出現(xiàn)頻率遠(yuǎn)高于2010年以來的任何年份。它們多為與研究內(nèi)容無關(guān)的“風(fēng)格詞”，且以動詞和形容詞為主。其中既有常見詞匯“發(fā)現(xiàn)”“潛力”，也有較生僻的詞匯“探究”“展現(xiàn)”。Kobak指出，2024年下半年新增的冗余詞匯包括“顯著增強(qiáng)”“妨礙”，以及“無與倫比”“極有用”等最高級形容詞。

科學(xué)詞匯的演變是長期過程。2021年有190個“冗余詞匯”，多為與研究內(nèi)容相關(guān)的名詞。但自LLM普及以來的詞匯變化更為顯著，且主要體現(xiàn)在風(fēng)格層面。

此外，在計算科學(xué)和生物信息學(xué)等領(lǐng)域，超過1/5的摘要由LLM輔助撰寫?！敖衲甑恼w數(shù)據(jù)可能進(jìn)一步上升，LLM的使用仍在持續(xù)增加。”Kobak表示。AI實際使用率可能比最新研究顯示的更高。

2月，法國巴黎高等師范學(xué)院的Mingmeng Geng及同事在預(yù)印本平臺arXiv公布的研究中指出，部分標(biāo)志性詞匯和短語，如“探究”在2024年底的出現(xiàn)頻率有所下降。他認(rèn)為，這可能是由于相關(guān)研究將其標(biāo)記為“使用AI”，促使作者刪除此類詞匯，或調(diào)整LLM請求以規(guī)避檢測。

隨著作者不斷調(diào)整策略，評估AI對學(xué)術(shù)文獻(xiàn)影響的研究變得越發(fā)困難。另一大挑戰(zhàn)在于，包括Kobak團(tuán)隊在內(nèi)的研究均無法確定AI工具的具體使用方式。作者可能將其用于合理場景，如潤色文本或輔助翻譯，也可能涉及更具爭議的做法，如在缺乏適當(dāng)監(jiān)督的情況下生成大段文本?！斑@其中存在真正的科研誠信隱患。”Gray說。

相關(guān)論文信息：https://doi.org/10.48550/arXiv.2406.07016

來源：中國科學(xué)報