Gpt基因编码黄嘌呤-鸟嘌呤磷酸核糖转移酶(XGPRT;EC 2.4.2.22),该酶参与嘌呤核苷酸的生物合成和代谢。在细胞中,Gpt基因的表达受到多种因素的调控,包括转录因子、染色质修饰和RNA修饰等。Gpt基因的表达水平与多种生物学过程相关,包括细胞增殖、分化和代谢等。
在基因突变检测方面,gpt delta转基因小鼠和 rats已被开发用于检测化学物质的致突变性。这些转基因动物模型使用gpt基因和red/gam基因(Spi-选择)作为突变报告基因,可以检测点突变和缺失等基因突变。通过检测这些突变,可以评估化学物质的致突变性和致癌性,为食品安全和环境健康提供重要参考[4]。
在单细胞RNA测序分析中,GPT-4等大型语言模型(LLMs)被用于细胞类型注释。GPT-4可以准确地对细胞类型进行注释,使用标记基因信息,并生成与手动注释高度一致的细胞类型注释。这项技术可以大大减少细胞类型注释所需的人工和专业知识[1]。
此外,GenePT等基于ChatGPT的模型也被开发出来,用于生成基因和细胞的嵌入表示。GenePT使用NCBI文献中基因的文本描述,通过GPT-3.5生成基因嵌入表示,进而生成单细胞嵌入表示。这些模型可以用于下游任务,如基因属性和细胞类型的分类,并在许多情况下表现出与Geneformer等模型相当或更好的性能[2]。
CRISPR-GPT等LLM代理也被用于自动化基因编辑实验的设计。CRISPR-GPT可以利用LLMs的推理能力,帮助选择CRISPR系统、设计guide RNAs、推荐细胞传递方法、起草方案和设计验证实验等。这些工具可以显著提高基因编辑实验的效率和准确性,为生物医学研究提供新的可能性[3]。
在基因功能预测方面,LLMs也被用于发现基因集的功能。GPT-4等模型可以从其嵌入的生物医药知识中快速合成常见的基因功能,为功能基因组学提供新的工具和思路[5]。
最后,LLMs还可以用于候选基因的优先排序和选择。通过评估候选基因的生物和临床相关性的六个标准,LLMs可以帮助研究人员优先排序候选基因,并提供事实检查和参考支持。这种方法可以显著提高基因筛选的效率,为临床应用提供新的思路[6]。
综上所述,Gpt基因和LLMs在生物学和医学研究中发挥着重要作用。Gpt基因在基因突变检测、细胞类型注释和基因功能预测等方面具有广泛的应用前景。LLMs则可以用于自动化基因编辑实验的设计、候选基因的优先排序和选择等任务,为生物医学研究提供新的可能性。未来,随着LLMs的不断发展,它们将会在生物学和医学研究中发挥越来越重要的作用,为人类健康事业做出更大的贡献。
参考文献:
1. Hou, Wenpin, Ji, Zhicheng. 2024. Assessing GPT-4 for cell type annotation in single-cell RNA-seq analysis. In Nature methods, 21, 1462-1465. doi:10.1038/s41592-024-02235-4. https://pubmed.ncbi.nlm.nih.gov/38528186/
2. Chen, Yiqun, Zou, James. 2024. GenePT: A Simple But Effective Foundation Model for Genes and Cells Built From ChatGPT. In bioRxiv : the preprint server for biology, , . doi:10.1101/2023.10.16.562533. https://pubmed.ncbi.nlm.nih.gov/37905130/
3. Qu, Yuanhao, Huang, Kaixuan, Cousins, Henry, Wang, Mengdi, Cong, Le. 2024. CRISPR-GPT: An LLM Agent for Automated Design of Gene-Editing Experiments. In bioRxiv : the preprint server for biology, , . doi:10.1101/2024.04.25.591003. https://pubmed.ncbi.nlm.nih.gov/39463961/
4. Manjanatha, Mugimane G, Cao, Xuefei, Shelton, Sharon D, Mittelstaedt, Roberta A, Heflich, Robert H. . In vivo cII, gpt, and Spi⁻ gene mutation assays in transgenic mice and rats. In Methods in molecular biology (Clifton, N.J.), 1044, 97-119. doi:10.1007/978-1-62703-529-3_5. https://pubmed.ncbi.nlm.nih.gov/23896873/
5. Hu, Mengzhou, Alkhairy, Sahar, Lee, Ingoo, Ideker, Trey, Pratt, Dexter. 2023. Evaluation of large language models for discovery of gene set function. In Research square, , . doi:10.21203/rs.3.rs-3270331/v1. https://pubmed.ncbi.nlm.nih.gov/37790547/
6. Toufiq, Mohammed, Rinchai, Darawan, Bettacchioli, Eleonore, Palucka, Karolina, Chaussabel, Damien. 2023. Harnessing large language models (LLMs) for candidate gene prioritization and selection. In Journal of translational medicine, 21, 728. doi:10.1186/s12967-023-04576-8. https://pubmed.ncbi.nlm.nih.gov/37845713/