越来越多的人开始努力用基于自然语言处理、语言模型以及最近的大型语言模型(LLMs)的自动数据提取来取代从研究论文中手动提取数据。尽管这些方法能够从大量研究论文中高效提取数据,但它们需要大量的前期工作、专业知识和编码。
威斯康星大学麦迪逊分校Dane Morgan和Maciej P. Polak等提出了ChatExtract方法,该方法可以使用高级对话式LLM以最少的初始工作和背景完全自动化非常精确的数据提取。
本文要点:
(1)
ChatExtract由一组应用于对话式LLM的设计提示组成,既可以识别带有数据的句子,提取数据,又可以通过一系列后续问题确保数据的正确性。这些后续问题在很大程度上克服了LLM提供的回答与事实不符的已知问题。ChatExtract可以应用于任何对话式LLM,并产生非常高质量的数据提取。在对材料数据的测试中,我们发现最好的对话式LLM(如GPT-4)的精度和召回率都接近90%。我们证明,对话模型中的信息保留与有目的的冗余相结合,并通过后续提示引入不确定性,实现了卓越的性能。这些结果表明,类似于ChatExtract的方法由于其简单性、可移植性和准确性而有可能在不久的将来成为数据提取的强大工具。
(2)
最后,使用ChatExtract开发了金属玻璃临界冷却速率和高熵合金屈服强度的数据库。
参考文献:
Polak, M.P., Morgan, D. Extracting accurate materials data from research papers with conversational language models and prompt engineering. Nat Commun 15, 1569 (2024).
DOI: 10.1038/s41467-024-45914-8
https://doi.org/10.1038/s41467-024-45914-8