纳米人-Nat. Commun.：使用会话语言模型和prompt工程从研究论文中提取准确的材料数据

Nat. Commun.：使用会话语言模型和prompt工程从研究论文中提取准确的材料数据

湘湘湘湘 2024-02-21

越来越多的人开始努力用基于自然语言处理、语言模型以及最近的大型语言模型（LLMs）的自动数据提取来取代从研究论文中手动提取数据。尽管这些方法能够从大量研究论文中高效提取数据，但它们需要大量的前期工作、专业知识和编码。

威斯康星大学麦迪逊分校Dane Morgan和Maciej P. Polak等提出了ChatExtract方法，该方法可以使用高级对话式LLM以最少的初始工作和背景完全自动化非常精确的数据提取。

本文要点：

（1）

ChatExtract由一组应用于对话式LLM的设计提示组成，既可以识别带有数据的句子，提取数据，又可以通过一系列后续问题确保数据的正确性。这些后续问题在很大程度上克服了LLM提供的回答与事实不符的已知问题。ChatExtract可以应用于任何对话式LLM，并产生非常高质量的数据提取。在对材料数据的测试中，我们发现最好的对话式LLM（如GPT-4）的精度和召回率都接近90%。我们证明，对话模型中的信息保留与有目的的冗余相结合，并通过后续提示引入不确定性，实现了卓越的性能。这些结果表明，类似于ChatExtract的方法由于其简单性、可移植性和准确性而有可能在不久的将来成为数据提取的强大工具。

（2）

最后，使用ChatExtract开发了金属玻璃临界冷却速率和高熵合金屈服强度的数据库。

参考文献:

Polak, M.P., Morgan, D. Extracting accurate materials data from research papers with conversational language models and prompt engineering. Nat Commun 15, 1569 (2024).

DOI: 10.1038/s41467-024-45914-8

https://doi.org/10.1038/s41467-024-45914-8

加载更多

集锦

524

版权声明：

1）本文仅代表原作者观点，不代表本平台立场，请批判性阅读！ 2）本文内容若存在版权问题，请联系我们及时处理。 3）除特别说明，本文版权归纳米人工作室所有，翻版必究！