绝大多数化学知识都存在于非结构化的自然语言中,但结构化数据对于创新和系统的材料设计至关重要。传统上,该领域依赖于手动管理和部分自动化来提取特定的数据。大语言模型(LLM)的出现代表了一个重大转变,可能使非专家能够有效地从非结构化文本中提取结构化、可操作的数据。虽然将LLM应用于化学和材料科学数据提取带来了独特挑战,但领域知识为指导和验证LLM输出提供了机会。近日,德国耶拿大学Kevin Maik Jablonka对用于化学数据提取的大语言模型进行了综述研究。
本文要点:
1) 该综述全面概述了化学中基于LLM的结构化数据提取,综合了当前的知识并概述了未来的方向。作者解决了缺乏标准化指导方针和现有框架的问题,以利用LLM和化学专业知识之间的协同作用。
2) 该综述为旨在利用LLM进行数据驱动化学研究的研究人员提供基础资源。这些见解可以显著增强跨化学学科的研究人员获取和利用科学信息的方式,从而加速开发满足关键应用需求的新型化合物和材料。
Mara Schilling-Wilhelmi et.al From text to insight: large language models for chemical data extraction Chem. Soc. Rev. 2024
DOI: 10.1039/D4CS00913D
https://doi.org/10.1039/D4CS00913D