大规模基因表达数据正被用于预训练模型,以隐含地学习基因和细胞功能。然而,这样的模型需要大量的数据管理和训练。鉴于此,斯坦福大学James Zou等研究人员探索了一种更简单的替代方案:根据文献利用ChatGPT嵌入基因。
研究人员使用GPT-3.5从单个基因的文本描述中生成基因嵌入,然后通过平均每个基因表达水平加权的基因嵌入来生成单细胞嵌入。
研究人员还为每个细胞创建了一个句子嵌入,只使用按表达水平排序的基因名称。在许多用于评估预训练单细胞嵌入模型的下游任务中,特别是基因属性和细胞类型分类的任务,研究人员命名为GenePT的模型取得了与数百万细胞基因表达谱预训练模型相当或更好的性能。GenePT表明,文献的大语言模型嵌入为编码单细胞生物学知识提供了一条简单有效的途径。
参考文献:
Chen, Y., Zou, J. Simple and effective embedding model for single-cell biology built from ChatGPT. Nat. Biomed. Eng (2024).
https://doi.org/10.1038/s41551-024-01284-6