精准医疗需要开发一种准确反映疾病性质的特异性分子分类方法。统一的研究趋势是获得大量多维度分子的数据,包括DNA/RNA、蛋白质和小分子,以实现大数据机械学习与疾病分类。这也引发了学界研究如何更好的利用多维度分子数据来更好地对疾病进行分类。然而,从各种技术中获得的数据的异构性相应地增加,并在数据集成和解释方面提出了巨大的挑战。RNA测序和染色质免疫沉淀测序之间的测量灵敏度存在异质性,这就可能导致面对RNA测序表现的基因表达变异在染色质免疫沉淀测序中无法反映。因此,广泛的计算密集型数据过滤和系统归一化对于实现有效的多维数据集成是必不可少的。近日,上海交通大学附属仁济医院分子医学研究院的左小磊教授与化学化工学院的樊春海院士等人在Nature Nanotechnology报道了一种基于DNA编码的分子分类器,可分析多维分子临床数据。为了在异质分子结合事件中产生统一的电化学传感信号,利用基于DNA框架的多价态可编程纳米颗粒,开发了价态编码的信号报告分子,使几乎任何生物分子结合事件都可以转换为线性信号。作者团队还演示了该分子分类器的应用,通过分析一组跨越三维度数据类型的六个生物标志物,实现了对前列腺癌患者近乎完全准确的分子分类。多维分子分类器的开发基于与DNA结合相关的分子技术,这提供了一种强大且可推广的分子分类手段。Watson-Crick碱基 DNA 配对的精度和可编程特性为具有不同成分、大小、手性和线性的胶体组装提供了一系列价控制的可编程原子样纳米结构 (PAN)。可惜的是先前的研究报道中的此类分类器由于结合过程的异质性,使得蛋白质或代谢小分子维度的数据分析难以实现。因此,实现基于DNA的多维分子分类器的挑战是开发一种信号报告分子来将多维分子信息转换为统一输出信号。为了在异质分子结合事件中产生统一的电化学传感信号,作者团队使用基于自组装DNA四面体框架(DTF) 设计价态编码的 PAN 报告分子,能够通过n价态结合不同维度上的靶分子。通过对PAN报告分子的信号部分设计,允许n个信号组分结合来从物理层面实现权重分类。来自每个靶分子的信号强度将与PAN报告分子上的信号结合数量成线性比例,这使得不同维度分子的数目与权重得以定量。首先通过在缓冲液中混合7个58核苷酸的DNA片段和一个81核苷酸的手柄DNA片段组装成一个包含手柄DNA的DTF。为了形成包含更多信号组分锚定位点的PAN报告分子,将一个DTF偶联到另一个DTF上,通过两个DTF中的接头DNA和手柄DNA的杂交形成哑铃形结构的DTF二聚体。使用荧光团标记作为信号部分,来验证价态编码的PAN报告分子可以与定义数量的信号基团结合。全内反射荧光显微镜图像显示,溶液中PAN报告基因的荧光强度与信号部分的数量成线性比例。此外,由于DTF的边缘长度为~12 nm引起的荧光团分离,不会聚集引起猝灭。类似地,单个PAN报告基因的荧光强度随着Cy3数量从1增加到6而线性增加。此外,可以观察到逐步单分子荧光光漂白。因此,PAN报告分子的信号部分数量可以被精确地控制在1到6之间。接下来,验证PAN是否具有结合正交性,以适应编程的多色标记。将六种荧光团锚定在单个PAN报告分子上,荧光强度和光漂白步骤与每种荧光团的数量成线性比例,彼此互不干扰。此外,在单个PAN报告基因上锚定一个Alexa Fluor 488荧光团和五个Cy5荧光团时,观察到Alexa Fluor 488光漂白痕迹的一个步骤和Cy5光漂白痕迹的五个步骤。因此,PAN报告分子的锚定位点是单独控制的,即使存在多个不同信号类型的情况下,也实现设计数量的信号组分。多维分子分类器通过设计价态编码PAN报告分子来编程多维分子的统一电化学传感信号,从而将每个分子输入信号转换为表示其重要性的加权传感信号。该系统的旨在促进探针和目标分子之间的结合事件以触发加权电化学信号。对于RNA(mRNA或miRNA),使用单链DNA探针作为识别探针,其中碱基配对相互作用靶RNA。PAN特异性地识别探针-靶复合物的突出部分,并将靶RNA的存在转化为以HRP作为信号分子的加权电化学信号。对于蛋白质,使用特异性单克隆抗体捕获目标蛋白,使用另一种抗体形成靶蛋白的抗体-蛋白质-抗体夹心。对于小分子,使用配体-DNA双链体作为识别探针。小分子与配体的结合触发表面DNA的释放,通过释放的DNA和PAN的DNA接头之间的杂交来募集PAN报告分子。在上述的捕获识别与PAN荧光权重设计的基础下,为生物相关分子的所有主要维度设计了加权系统,表明PAN报告分子在多维分子中权重分配的通用性。通过设计一个具有一到六个HRP的权重分配来实验性地实现这种加权系统,使用PAN报告分子对多维分子进行分配。在添加靶标后记录与重量分配相对应的电化学信号,直到获得稳定的电化学信号。信号与PAN上的HRP数量实现的权重成线性比例。进一步将加权系统应用于另外12种生物标志物,包括COVID-19生物标志物、癌症生物标志物和疾病相关的miRNA(miR-21,miR-26a,miR-375,miR-144,miR-153和miR-183),并成功实现了电信号转化。以前列腺癌为例,实验性验证二维分子分类,使用前列腺特异性抗原(PSA)和MEIS2作为目标生物标志物。给PSA分配了+3的正权重,给MEIS2分配了-3的负权重。正权重表示正相关,负权重表示与疾病的负相关,而它们的值表示其重要性。通过混合这两种具有不同浓度组合的生物标志物制备了64个模拟样品。分类器检测结果与设计一致。接下来,尝试扩大分子分类器的应用,并使用多维数据对PCa患者与健康人群进行分类。使用来自Gene Expression Omnibus的公开可用的基因和miRNA分析数据,以及以前临床的PSA和肌氨酸测量数据,用于分类器训练。将数据集整合到一个大型数据集中,以评估多维分子的应用,并使用具有不同优化重点的多个逻辑回归模型搜索权重组合。获得的最佳权重包括miR-153(权重= -1),miR-183(权重= +4),ROR2(权重= -2),MEIS2(权重= -3),PSA(权重= +3)和肌氨酸(权重= +1)。使用这组权重,实现了80%的识别灵敏度,特异性为100%,F1分数为97%,ROC曲线为97%,精度为100%,验证集的准确率为95%。该分类器表现出优异的特异性和灵敏度,实现分子实施是可行的。图 分子分类器的计算机训练,以区分PCa患者和健康个体首先验证了PAN对PCa的六种生物标志物的电信号转换性能。miRNA的电化学信号表现出浓度依赖性的线性响应,动态范围为四个数量级。miRNA的检测限估计为100 fM,允许直接分析真实样品的miRNA。对mRNA,PSA和SO的灵敏检测,动态范围也为三到五个数量级。mRNA 的检测限降至 1 pM,PSA为0.05 ng ml–1,SO为10 nM。电化学信号也与每种生物标志物的权重呈正相关,以此确定了六种生物标志物的权重分配。对来自32名PCa患者和50名健康个体的真实临床样本进行分子分类。实现了PCa患者和健康个体之间的准确分类。ROC曲线表明具有很高的预测能力,AUC为100%。多维度分子分类获得了近乎100%的特异性和100%的灵敏度,并具有最佳临界值。相比之下,单个miRNA(miR-183)获得的AUC仅为54%。。生物标志物组合有可能区分各种疾病过程中的患者,合理设计具有最优权重的生物标志物组合,更准确地反映了包括癌症在内的多种疾病过程。然而,筛选每种生物标志物的最佳权重具有挑战性。使用来自12名PCa患者的血清样本来实验性的筛选生物标志物组合的最佳权重。样本包括四个格里森评分为6的样本,四个格里森评分为7的样本和四个格里森评分为8或9的样本。使用一组miRNA(miR-32,miR-96,miR-153,miR-183)作为模型系统,并使用PAN的加权系统为每个miRNA分配权重。不同权重组合的miRNA加权信号为2,048个组合。聚类分析来筛选生物标志物组合的最佳加权集。前五名相关分析允许根据格里森分数对三组进行分类,最佳加权结果为 miR-32权重+3,miR-96权重-1,miR-153权重+1,miR-183权重-2。该分子分类器拥有着进行生物标志物组筛选的能力。综上所述,作者团队通过利用DNA框架开发了价态编码PAN信号报告分子,为解决异质分子结合事件中信号类型不统一挑战提供了一种解决思路。通过价态编码从物理层面实现了权重赋予,以实现多维分子分类,从而通过跨三维数据类型的六个生物标志物进行精确的PCa诊断(AUC为100%)。同时也实现了针对PCa多种生物标记物的权重分析,进以构建并不断优化现有的诊断生物标记物组的组成。鉴于来自疾病的基因、RNA、蛋白质和代谢组学谱的分子信息量不断增加,分析多维分子生物标志物的多维分子分类器为精准诊断和治疗提供了启示。Fangfei Yin, Haipei Zhao, Shasha Lu, et al. DNA-framework-based multidimensional molecular classifiers for cancer diagnosis. Nat Nanotechnol. 2023 Mar 27.https://www.nature.com/articles/s41565-023-01348-9