Nat. Commun.:使用会话语言模型和prompt工程从研究论文中提取准确的材料数据
湘湘 湘湘 2024-02-21

越来越多的人开始努力用基于自然语言处理、语言模型以及最近的大型语言模型(LLMs)的自动数据提取来取代从研究论文中手动提取数据。尽管这些方法能够从大量研究论文中高效提取数据,但它们需要大量的前期工作、专业知识和编码。

威斯康星大学麦迪逊分校Dane Morgan和Maciej P. Polak等提出了ChatExtract方法,该方法可以使用高级对话式LLM以最少的初始工作和背景完全自动化非常精确的数据提取。

 

本文要点:

(1)

ChatExtract由一组应用于对话式LLM的设计提示组成,既可以识别带有数据的句子,提取数据,又可以通过一系列后续问题确保数据的正确性。这些后续问题在很大程度上克服了LLM提供的回答与事实不符的已知问题。ChatExtract可以应用于任何对话式LLM,并产生非常高质量的数据提取。在对材料数据的测试中,我们发现最好的对话式LLM(如GPT-4)的精度和召回率都接近90%。我们证明,对话模型中的信息保留与有目的的冗余相结合,并通过后续提示引入不确定性,实现了卓越的性能。这些结果表明,类似于ChatExtract的方法由于其简单性、可移植性和准确性而有可能在不久的将来成为数据提取的强大工具。

(2)

最后,使用ChatExtract开发了金属玻璃临界冷却速率和高熵合金屈服强度的数据库。

 

参考文献:

Polak, M.P., Morgan, D. Extracting accurate materials data from research papers with conversational language models and prompt engineering. Nat Commun 15, 1569 (2024).

DOI: 10.1038/s41467-024-45914-8

https://doi.org/10.1038/s41467-024-45914-8


加载更多
524

版权声明:

1) 本文仅代表原作者观点,不代表本平台立场,请批判性阅读! 2) 本文内容若存在版权问题,请联系我们及时处理。 3) 除特别说明,本文版权归纳米人工作室所有,翻版必究!
湘湘

报道能源前沿进展

发布文章:848篇 阅读次数:481424
纳米人
你好测试
copryright 2016 纳米人 闽ICP备16031428号-1

关注公众号