编辑丨王多鱼

排版丨水成文

随着人工智能(AI)技术的快速发展,尤其是大语言模型(LLM)的进步,生成式人工智能(Generative AI)在学术写作中的应用越来越广泛。

近日,滑铁卢大学等机构的研究人员发表了一篇题为:Generative AI in Academic Writing: A Comparison of DeepSeek, Qwen, ChatGPT, Gemini, Llama, Mistral, and Gemma 的预印本论文,该论文旨在评估几种主流大语言模型(包括 DeepSeek v3、Owen 2.5 Max、ChatGPT、Gemini、Llama、Mistral 和 Gemma)在学术写作中的表现,特别是它们在生成高质量学术内容方面的能力。

这篇论文为生成式人工智能(Generative AI)在学术写作中的应用提供了详细的评估和比较,为未来的研究提供了重要参考。


论文作者使用了 40 篇关于“数字孪生”和“医疗保健”主题的学术文章,通过生成式 AI 工具生成文本,并对生成的文本进行以下评估:

1、抄袭检测:使用 iThenticate 工具检测文本的抄袭率。

2、AI 检测:使用 StealthWriter.ai 和 Quillbot.com 检测文本是否由 AI 生成。

3、字数比较:比较不同大预言模型生成的文本字数。

4、语义相似性:使用 ChatGPT、DeepSeek v3 和 Owen 2.5 Max 工具评估生成文本与原文的语义相似性。

5、可读性评估:使用 Hemingway Editor、Grammarly 和 WebFX 工具评估文本的可读性。

结果显示:

从性价比来看,DeepSeek v3 的性价比最高


在文本生成能力方面,Owen 2.5 Max 和 DeepSeek v3 生成的文本字数最多,内容较为详细,而 Mistral 7B 和 Deepseek-coder-v2 16B 生成的文本较为简洁。


在抄袭率方面,ChatGPT 4o mini 生成的文本的抄袭率最高(57%),而 Llama 3.1 8B 的抄袭率最低(9%)。


在 AI 检测方面,几乎所有的大模型生成的文本都能够被 AI 检测工具识别为 AI 生成,只是 AI 痕迹有多有少。

在可读性方面,所有大模型生成的文本在可读性方面表现都较差,尤其是 Hemingway Editor 给出的评分普遍较低。

在语义相似性方面,所有大模型生成的文本在语义上与原文保持了较高的相似性,尤其是 Owen 2.5 Max 和 DeepSeek v3 的表现最为一致。

研究表明,Owen 2.5 Max 和 DeepSeek v3 在学术写作任务中表现较好,尤其是在生成详细内容方面。然而,不同模型在不同场景下各有优势,例如 Llama 3.1 8B 在抄袭率和可读性方面表现较好。未来的研究可以进一步探讨如何优化这些模型,以提高生成文本的质量和可读性,并减少 AI 生成的痕迹。

论文作者进一步指出,未来可以从以下几个方面改进生成式人工智能在学术写作中的表现,包括扩展数据集,使用更大规模的数据集评估模型的泛化能力;通过人机协作,探索如何更有效地将 AI 工具与人类用户结合,以提高学术写作的质量;优化模型生成过程,减少 AI 生成的痕迹,使文本更加自然。此外,还需要进一步研究 AI 生成内容的伦理和法律问题(例如版权、引用规则等)。

论文链接

https://www.researchgate.net/publication/388681921

ad1 webp
ad2 webp
ad1 webp
ad2 webp