Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

GPTCelltype:玩GPT4玩出Nature #4907

Closed
ixxmu opened this issue May 7, 2024 · 1 comment
Closed

GPTCelltype:玩GPT4玩出Nature #4907

ixxmu opened this issue May 7, 2024 · 1 comment

Comments

@ixxmu
Copy link
Owner

ixxmu commented May 7, 2024

https://mp.weixin.qq.com/s/pDZHaX3kneookNOfAZDdVA

@ixxmu
Copy link
Owner Author

ixxmu commented May 7, 2024

GPTCelltype:玩GPT4玩出Nature by Biomamba 生信基地

一、写在前面

相信GPT4凭借及强大的Debug能力与文字润色能力已经成为大家在生信分析与文章撰写时的好帮手。在本菜鸡还在拿GPT4帮自己写代码的时候,已经有大佬将GPT4的API接入自己写的R包用于帮助单细胞数据的注释,并且顺手发了一篇《Nature Methods》。学过我们此前课程(细胞类型注释,从入门到入土)的同学都知道,人工注释费时费力,需要分析人员对于组织中的细胞特征拥有专业级别的了解;用singleR这类软件进行自动注释,又很依赖软件算法的准确性与参考数据集的适配性。相信这些问题已经困扰大家很久了,那么这篇题为"Assessing GPT-4 for cell type annotation in single-cell RNA-seq analysis"的文章能够一定程度上医好大家的头疼。

原文链接:https://www.nature.com/articles/s41592-024-02235-4


二、主要内容

细胞注释是single-cell RNA suquencing(scRNA-seq)的基本步骤,这一步基本不能直接产生对文章论题有用的信息与图表,但是却十分耗时、耗力、耗专业知识。GPT-3.5与GPT-4可以说在近年的大语言模型中独领风骚,并被迅速的应用在生物医药领域。考虑到GPT-4可以高效、无缝的整合到现有的单细胞分析流程中去,因此作者开发了GPTCelltype并系统性评估了GPT-4在十个数据集(包含正常细胞与肿瘤细胞)中的细胞注释表现情况。从示意图(Figure 1a)可以看出,依赖GPT4进行scRNA-Seq的细胞注释好处有:无需生物学专业知识、无需代码知识、无需参考数据集、人工成本低、分析流程适配性高、无组织类型限制、注释分辨率/粒度高。

在研究过程中,作者重点考察了Top差异基因(marker)来源与数量、数据来源、数据集大小等因素对GPT-4的细胞注释能力进行了评估,并用数据集原先的人工注释结果作为参考进行准确率计算。结果显示在利用Top10marker进行细胞注释时准确性最高(Figure 2a)。在大部分数据集与组织中,GPT的细胞注释及亚群注释结果能保证大于75%的准确率(这个下限其实不高),且对于免疫细胞的注释比其它细胞类型更加精准。在肺癌与结肠癌数据集中,其能够精准的识别肿瘤细胞,但在B淋巴瘤细胞的识别上有些不足,建议结合拷贝数变异分析进一步推断。


在GPT-4与ScType、CPT3.5、SingleR的横向比较中,无论是准确性还是计算速度,GPT-4均大幅领先(Figure 2d&2e)。GPTCelltype的计算效率高得益于其依赖Seurat进行Top marker的计算,而另外几种工具需要自行对表达矩阵进行处理。此外,作者还使用了包含93%真实细胞与7%混合细胞的模拟数据集进行了测试,结果显示GPTCelltype对于已知和未知细胞类型的注释准确率高达99%(Figure.2g)。在重现性表现方面,GPTCelltype同样表现优秀(Figure 2H&I)。

需要注意的是GPT4的训练截止日期是2021年9月,这个时间对于快速发展的scRNA-Seq与生物信息学领域而言,有些久远。虽然GPTCelltype的使用门槛很低,但作者并不推荐使用top marker少于5的细胞类型以及数量少于10个的细胞注释。另外一个需要考虑的因素是,GPT-4并不是用爱发电的,大约需要$20一个月的订阅成本,但按照GPT-4的流量限制来说,注释本文作者提到的所有细胞类型,花费不会超过0.1$
大家可以自行学习一下分析教程,流程很简单,但是需要科学上网(https://user.by.ltd/aff.php?aff=23313)和Open AI的账号:

https://winnie09.github.io/Wenpin_Hou/pages/gptcelltype.html

如何联系我们

公众号后台消息回复不便,这里给大家留一下领取资料及免费服务器(足够支持你完成硕博生涯的生信环境)的微信号,方便各位随时交流、提建议(别问在么,添加时直接说来意)。此外呼声一直很高的交流群也建好了,欢迎大家入群讨论:

永久免费的生信、科研交流群

大家可以阅读完这几篇之后添加
给生信入门初学者的小贴士
如何搜索公众号过往发布内容

您点的每个赞和在看,我都认真当成了喜欢


@ixxmu ixxmu changed the title archive_request GPTCelltype:玩GPT4玩出Nature May 7, 2024
@ixxmu ixxmu closed this as completed May 7, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant