沧州三亚菏泽经济预测自然
投稿投诉
自然科学
知识物理
化学生物
地理解释
预测理解
本质社会
人类现象
行为研究
经济政治
心理结构
关系指导
人文遗产
菏泽德阳
山西湖州
宝鸡上海
茂名内江
三亚信阳
长春北海
西安安徽
黄石烟台
沧州湛江
肇庆鹤壁
六安韶关
成都钦州

腾讯研究成果登Nature子刊scBERT攻克单细胞测序数据

5月13日 皇极城投稿
  机器之心报道
  编辑:泽南
  新研究成果对精准医疗打开了新路。
  AI在科研领域再次展现了实力。最近,研究人员首次将BERT预训练和微调的范式引入单细胞转录组数据分析中。
  9月27日,腾讯在人工智能、生命科学跨学科应用领域的最新研究成果《scBERTasaLargescalePretrainedDeepLanguageModelforCellTypeAnnotationofSinglecellRNAseqData》(《基于大规模预训练语言模型的单细胞转录组细胞类型注释算法》),登上了国际顶级学术期刊《Nature》子刊《NatureMachineIntelligence》。
  腾讯在论文中创新性地提出关于单细胞注释的scBERT算法模型,受到评审高度认可。专家表示,该成果对于单细胞转录组测序数据分析领域未来研究具有深远意义。
  单细胞测序技术是生命科学领域的一项革命性技术。可以细粒度地观察和刻画各个物种中组织、器官和有机体中单细胞分子图谱(细胞表达),便于更好地了解肿瘤微环境,以达到精细分析病因、精准匹配治疗方案的效果,对于精准医疗具有极高的应用价值。
  值得注意的是,受数据样本量小、人工干预多、过度依赖markergene(已报道的特异性基因)等因素的影响,单细胞测序细胞类型注释技术一直面临着泛化性、可解释性、稳定性均比较低的问题,现存的算法难以有更广泛的应用。
  针对以上问题,新研究首次提出基于大规模预训练语言模型的单细胞转录组细胞类型注释算法,即scBERT模型,首次将transformer(自然语言处理算法经典计算单元)运用到单细胞转录组测序数据分析领域。该模型基于BERT范式,将细胞中基因的表达信息转化成可被计算机理解、学习的语言,并对细胞进行精准标注。
  BERT在NLP领域革命性地应用了自监督预训练微调的范式:通过Transformer为基本单元构成的大规模语言模型在海量文本数据上学习通用的语言知识,随后将该模型迁移至不同下游任务中,对模型参数进行微调,建立准确、高性能的模型。该方法在NLP领域取得广泛的成功。
  类似的,单细胞转录组也可以抽象为每个细胞内部基因转录的语言(表达谱),其中不同的基因之间存在共表达或者差异表达的模式,也可以理解为转录的语法(基因相互作用),类比于不同单词在一个句子里的关联关系。
  当前的单细胞转录分析方法,由于引入大量人工操作而倾向于过拟合,易受批次效应影响降低泛化性。腾讯等机构提出的方法充分利用大规模公开无标注的数据集,使得模型在预训练时见过不同来源、不同组织和不同测序技术的单细胞数据,更倾向于学到跨数据集、跨批次和跨组织的单细胞表达通用知识。
  如果能将这种通用知识迁移给下游特定任务,则可以降低对下游任务精标注数据的依赖,通过微调少量参数即可获得较为准确的模型。并且在多种组织和样本中具有较强的泛化性。
  在模型中,针对单细胞测序数据特点,研究人员提出了geneembedding和expressionembedding,把每个单细胞表达谱特异性转化为模型的输入。在自监督预训练阶段,模型通过随机对非零表达值进行mask,随后通过基于Performer的编码器编码,将输出结果与未mask的模型输入计算重构损失。
  训练过程中,预训练好的模型参数被用于微调任务中模型相应参数的初始化,从而把大规模自监督学习到的单细胞表达通用知识传递给下游任务。在下游任务中,编码器输出传递给细胞类型分类器,通过基于少量有类型标签数据的训练,从而微调模型参数,获得精确的细胞类型注释模型。
  该方法实现了端到端优化,从原始表达谱出发,仅通过归一化,而不经过其他任何前处理和人工经验筛选基因,以数据驱动的方式建立了整套自动化注释工具。
  模型基于Performer单元具有强大的表征能力,通过自注意力机制学习到基因和基因之间的相互关系,并且对单细胞整个表达谱进行复杂的整体表征,因此仅仅通过模式识别的方式,而不输入markergene即可取得超越所有SOTA算法的效果,并且对于高相似性的亚型也具有良好的识别能力。
  模型的自监督预训练对性能具有显著的提升,也降低了后续对精标注数据的依赖。据介绍,腾讯提出的方法全程不经过降维和特征选择,使得全基因组所有基因共同组成的表达谱被模型充分学习,并且可以通过自注意力机制学习到基因之间的相互作用,以及每个基因对预测结果的贡献程度。
  为了保证全基因组内基因级别的可解释性,scBERT在预训练数据上没有做任何的降维或筛选处理,最大程度上保留数据本身的特性和信息。此外,该模型复用了大规模的公开数据集,包含不同实验来源、批次和组织类型的单细胞数据,以保证模型能学习到更为通用的知识,精准捕获单个基因的表达信息及两两基因之间的作用关系。
  新模型可以定位到每个细胞的关键基因,富集分析证明了每种细胞类型对应的关键基因确实行使细胞特异性生物学功能。经统计分析和可视化验证,每种细胞类型对应的关键基因确实在该细胞类型中显著表达,其中包含已报道的marker基因以及未经报道的novelmarkergene。
  从结果上来看,scBERT实现了高解释性、高泛化性、高稳定性的单细胞类型注释技术。截至目前,通过了9个独立数据集、超过50万个细胞、覆盖17种主要人体器官和主流测序技术组成的大规模benchmarking测试数据集上,该算法模型的优越性均得以验证。其中,在极具挑战的外周血细胞亚型细分任务上,相较现有最优方法的70准确度提升了7。
  单细胞转录组测序技术在2013年被NatureMethod评为MethodoftheYear,而单细胞多组学技术2020年也被NatureMethod评委MethodoftheYear。单细胞RNA测序在过去十年中已被证明是生命科学领域的一项革命性技术。通过单细胞RNA测序可以以前所未有的粒度观察和刻画各个物种中组织、器官和有机体中单细胞分子图谱,对于探索生命的奥秘和数字化生命具有重要作用。
  在应用价值层面,该技术能给细胞中的每个基因都印上专属身份证,用于临床单细胞测序数据,并辅助医生描述准确的肿瘤微环境、检测出微量癌细胞,从而实现个性化治疗方案或者癌症早筛。同时,它对疾病致病机制分析、耐药性、药物靶点发现、预后分析、免疫疗法设计等领域都具有极其重要的作用。
  据了解,《NatureMachineIntelligence》只关注对该领域具有重要影响的科研成果。因其严格的评审标准,每年收录论文数量平均仅60篇左右。目前该期刊在计算机科学人工智能领域和跨学科应用领域影响因子排名第一(IF:25。898)。
  此前,腾讯AILab团队科研成果曾多次入选《NatureCommunications》、ACLIJCNLP等国际权威期刊,实验室强调研究与应用并重发展。未来,腾讯会继续基于自身先进AI技术的积累,与下游临床、制药和生命科学基础研究领域进行密切合作,为行业贡献更多价值。
  未来,腾讯会继续基于自身先进AI技术的积累,与下游临床、制药和生命科学基础研究领域进行密切合作,为行业贡献更多价值。
  参考链接:
  https:www。biorxiv。orgcontent10。11012021。12。05。471261v3
投诉 评论

腾讯研究成果登Nature子刊scBERT攻克单细胞测序数据机器之心报道编辑:泽南新研究成果对精准医疗打开了新路。AI在科研领域再次展现了实力。最近,研究人员首次将BERT预训练和微调的范式引入单细胞转录组数据分析中。……Bally2022秋冬系列女士Ahres手袋演员李一桐演绎Bally2022秋冬系列女士Ahres手袋,优雅形廓恰如其分,配以Gaila皮革长靴,奶棕配色温柔亦飒爽,渲染秋日图景。演员李兰迪演绎Bally2022秋……手机畅销榜更新华为无缘榜单,苹果仅排第二,小米独揽第一第三在今年的双十一手机畅销榜中,荣获榜首的是小米旗下的手机,值得注意的是,在榜单的前十名中,小米的手机共上榜5款,占到了榜单的一半。那么,小米手机能取得这样的成绩是靠什么呢?……倪萍太有品味了!大衣叠穿奶奶衫巧用丝巾打底,看似朴素却很高级中老年女性在搭配造型时大多时候都喜欢打安全牌,选择基础款和基础色搭配造型。这样虽不容易出错,但难免也会让人感觉审美疲劳。相较于束手束脚的搭配造型,大家不如解放思路,将基础款单品……科学家发现发现野火烟气与臭氧消耗之间的化学联系2019年和2020年的澳大利亚野火因其蔓延的范围和速度,以及其燃烧的时间和强度而具有历史意义。总的来说,毁灭性的黑夏大火烧毁了超过4300万英亩的土地,消灭了近30亿只动物或……联想的启动资金是130万,为什么很多人看到的却是20万元?提起联想,不得不提到柳传志,因为在中国的商业史上,柳传志跟联想紧密地绑定在了一起。柳传志的成功离不开联想这个平台,联想这家公司能够发展到现在也离不开柳传志的功劳。在……2023年3月,红米手机仅推荐三款,销量都很高最近虽然手机市场的新机不少,但是都是价格极其昂贵的旗舰机,所以不少朋友也只能看看,最终扭头而去。现在其实销量最好的还得是中端手机,尤其是性价比基本上每一款都很出色,今天就给大家……骁龙8旗舰之战,谁才是真正的赢家?RedmiK60是否能够力对手机稍微有些了解的朋友都知道,骁龙8已经成为近期各大手机品牌最中意的芯片了,就连被称为性价比之王的RedmiK60搭载的都是这款芯片,足可见它的市场认可度。不过最近又有一款新……延庆区受表彰代表把北京冬奥精神带回我的工作中4月19日,北京冬奥会冬残奥会北京市北京冬奥组委总结表彰大会召开,延庆区38个先进集体、172个先进个人受表彰。大会结束后,延庆区受表彰代表深受鼓舞、热血沸腾,纷纷表示将认真学……拆解10家上市股份行三季报浦发民生渤海净利负增长拆解随着上市公司三季报全部披露完毕,10家上市股份制银行前三季度业绩也随之揭晓。据南都湾财社记者统计,10家上市股份制银行前三季度营业收入合计12448。47亿元,同比增……人前大明星,人后撒谎精,这5位明星,你们对自己说的话不害臊吗文嘻合说编辑嘻合说明星撒谎有多疯狂?林志颖作为明星撒谎精中的佼佼者,他的人生曾被称为谎言人生,炫富、立人设、侵犯他人肖像权、割粉丝韭菜等等,为了出名、满足虚荣心、获……神舟十四首次跨舱舱外作业,架的太空天桥做啥用?揭秘北京日报客户端记者刘苏雅通讯员于洋王泽洋时小丹11月17日,神舟十四号航天员乘组圆满完成第三次出舱任务。本次出舱任务中,航天员首次执行跨舱舱外作业,完成了整站舱外自主转移……
顶级mmorpg游戏,混沌与秩序内副本赏析(60年代篇)副本,无论是mmorpg,或是ARPG,甚至是moba类的游戏都是必不可少的一个游戏内容,是丰富一款游戏内核的主要构成。混沌与秩序online当年被玩家誉为手机上的魔兽世……传统汉字文化,给宝宝起名你要注意这些起名的学问,自古流传至今。名字是一个人独特的代表符号,不仅仅是一个体生命的简单代称,还代表了人许多更本质的内涵,包括品格、职业、出身、文化程度、形象、社会地位、乃至优点和缺点。……泰剧轻触我心首播,帅气总裁和逃跑千金的爱情,既甜又虐头条创作挑战赛虽然Push如今专心在家带娃,但他的新剧是一部接一部。《游戏花丛》还未播完,Push和小Pat主演的狗血爱情剧《轻触我心》就迎来首播。值得一提的……新春杯足球邀请赛精彩继续文羊城晚报全媒体记者林本剑一年一度的羊城业余足球盛宴2023华盈基金新春杯足球邀请赛,3月18日在广州番禺的大学城训练基地鸣金收兵。本次赛事经过五个比赛日的精彩角逐……游侠晚报腾讯停运的战地之王将在Steam免费上线各位网友周末愉快,来看下游侠晚报,了解今天的游戏界发生都了哪些大事吧:1。《战地之王》8月25日Steam免费推出非腾讯代理《战地之王》最早是在2007年由韩国Re……堪称豪华vivoX80Pro登场,vivoX70大量现货,价拥有一部好看的手机,会大大增加消费者对它的好感。vivoX80Pro带来了黑色、征途、假日等多种配色。可以轻松满足不同消费群体的审美需求。总有一个你喜欢的。值得一提的是,……4500万!曝热刺第7签浮现,穆帅送助攻,孔蒂再得强援欲破冠社区盾杯的结束,也意味着新赛季的英超联赛即将打响,上赛季带领热刺最后时刻拿到欧冠席位的意大利教头孔蒂,在夏窗得到俱乐部的鼎力支持。铁公鸡列维直接砸下了1。5亿欧元用于夏窗的转会……排球超级联赛综合福建上海男女排完胜对手新华社长春11月13日电(记者李典、胡佳丽)20222023中国女子排球超级联赛13日继续在江苏省常州市展开争夺,上海、福建、广东获胜。男子排超方面,浙江男排大胜黄石男排。……无锡一中学春游6名学生落水,2人溺亡4月15日,网络媒体上流传多条江苏省无锡市锡山区鹅湖玫瑰园内湖面救援的画面。当天,无锡一中学组织高二学生前往该景点春游,6名学生乘坐游船时侧翻。事发现场(央广网视频截图)……园林新韵意悠悠来源:人民网人民日报图片自上至下为:昆曲《游园惊梦》在夜色下的退思园上演。吴同宣摄以乘游船观夜景为主题的枫桥夜游活动。毛秀国摄游客在苏州同里古镇三桥景区乘坐手摇船感受水乡……从黑夜到白天,和饭元帅一起吃吃吃不停俗话说得好,人生在世唯有爱与美食不可辜负。如果你的生命有个缺口,无法让你跨越;或者生命没有缺口,如果想让人生更加完美,那不妨尝试去旅行。在一个地方如果呆的太久的话,肯定会……风媒花才是引起儿童花粉过敏的花春天引起儿童花粉过敏的花,是容易被大家忽视的风媒花。风媒花的特点是:无色、无香、无味,花粉产量大,花朵细小,花粉质量轻。又轻又小的风媒花,依靠风力传送花粉,散落在环境里的各个角……
友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找