半岛全站2023年3月,《J Med Internet Res》(IF=7.4)在线发表了一项关于ChatGPT的文章半岛全站。研究者利用ChatGPT生成了一篇完整的神经外科论文,在用词、句子表述、论文结构方面都与真正的医学论文非常相似,包含1992个词和17篇参考文献半岛全站,
注:请建议一个神经外科领域的RCT,该RCT要符合PLOS Medicine的投稿范围,并且被接收的可能性很高。
接着,研究者要求ChatGPT逐一撰写文章的每个部分,包括摘要、引言、方法、结果和讨论,并要求有合适的参考文献引用。此外,研究者还要求 ChatGPT基于结果生成表格以及一张图。ChatGPT还不具备图形设计能力,因此它提供了一个数据表,研究者无需对数据进行任何更改,在Excel中生成图即可。
在交流中,研究者不断改进问题和提示,以提高输出质量,整篇文章的生成过程不超过1小时。
尽管与ChatGPT交流的作者是一名神经外科医生,但在文章创作过程中并没有提出专业相关的建议。仅给出了一般性提示,例如“make this section longer(让该部分更长)”或“provide a paragraph on statistics(提供有关统计的一段话)”。
文章生成后,研究者会审查准确性和连贯性,并与该领域的现有文章做对比,同时邀请一名精神科专家和一名统计学家进行审查。
ChatGPT生成了一篇神经外科论文,包含摘要、引言、材料和方法、结果、讨论,也有图表和图。一共有1992个单词,17篇参考文献。引文格式与PLOS Medicine的要求相符。文章撰写过程大约需要一个小时。
总体来说,ChatGPT生成的文章,看起来真实性很高,但也发现了一些问题和明显的错误。最明显的不足是该文章比类似文章要短,并且引用的参考文献数量更少。ChatGPT 在理解信息片段之间的上下文联系方面,比早期的自然语言处理 (NLP) 模型有了显著改进。第二个明显的问题是缺乏注册信息以及伦理审批号。
还有一个局限性是,当前版本的ChatGPT未使用 2021 年 9 月之后的数据进行过训练,因此无法提供该日期之后的信息(例如,引用最新的文献)。
在审查引文和参考文献列表时,研究者发现了重大错误。9篇参考文献在相关性和格式方面是正确的,但另外8篇文献有明显错误,包括文献不存在、DOI号错误、内容不相关等问题。
研究方法中统计分析的描述相当简短,但表述很清晰,而且符合标准表述的大部分要求。样本量进行过估算,所提出的统计检验也都与研究目的、变量类型相符(即计数资料用卡方检验,连续变量用t检验)。统计结果在文本和表格中均清晰简洁地呈现。然而,表2数据和文章正文不一致,未包含置信区间,显示的均值与正文描述的均值也不同。
AI 生成的评审意见给出了相当准确的评论,指出了文章的优点和缺点,并建议了可以完善的地方,有些意见具有普适性,例如单中心研究设计和随访时间较短,评审意见中没有出现实质性错误。
一个AI检测工具指出这篇文章是ChatGPT生成的概率为72%,即“很有可能是AI生成的”。OpenAI的AI识别工具认为“可能是AI生成的”。
尽管当前的AI语言模型能够生成复杂且看似完美的论文,但读者在仔细检查后仍会发现语义不准确和错误,特别是参考文献有很大问题。
随着AI功能的不断完善,为AI用于学术写作和研究制定准则将变得越来越重要,包括如何验证内容的准确性和真实性,检测和防止欺诈和不当行为。然而,也要认识到在学术写作和研究中使用AI语言模型的潜在好处半岛全站,例如提高文档创建、分析结果和语言编辑的效率和准确性。
点击左下角“阅读原文”半岛全站,免费学习70多篇SPSS教程半岛全站,30多篇R教程,以及更多免费科研教程!
访问手机版
微信公众号