经济学人的报道说,一个成年人身体由约37万亿个细胞组成。不久前的研究认为,这些细胞可分为220种类型。这一结果是通过数十年的艰苦努力得出的,研究者通过显微镜观察经过化学染色的组织切片得出结论,这提供了人体维持运行所需的细胞分工大致印象。
然而,这只是一个初步的认识。
如今的工具能够深入细胞内部,逐一分解细胞,释放出其中的信使RNA(mRNA),这种分子携带着细胞核中的遗传信息,并传递到蛋白质合成工厂。
mRNA分子显示哪些基因处于活跃状态,从而揭示细胞的本质。许多在显微镜下看似相同的细胞,实际上可能存在极大差异。
这么算,细胞类型的数量已超过5000种。
领导这一组织学革命的,是2016年成立的人类细胞图谱(HCA)联盟,目前有来自102个国家的190个实验室的3600多名研究者参与。其他细胞图谱项目局限于绘制特定器官或组织类型的图谱,而HCA的目标是全面分类:识别并定位所有正常和患病的人体组织中的细胞类型。
任务甚至扩展到“类器官”,即科学界尝试培养的活体器官模型。
剑桥大学的莎拉·特克曼和美国生物制药公司基因泰克的阿维夫·雷杰夫创立了这一项目。她们表示,计划在明年完成这一图谱的初稿。她们的最新进展刚刚以一组论文的形式发表在《自然》和姊妹期刊上。
特克曼和雷杰夫指出,HCA的图谱分为两种类型。一种类似地理学家的地图,将每种细胞类型与人体中的四维位置联系起来(通过采集不同时期的数据,加入时间维度)。
另一种类型较为陌生,称为流形图,通常用于数学中表示多维空间。
在HCA中,这些维度不是空间和时间,而是不同细胞类型的分子特征,如mRNA模式。通过在同一张图上绘制不同的细胞类型,流形图可以增强对它们相似性和差异性的理解。
没有被忽略的细胞
现实世界的地理也扮演了重要角色。
特克曼和雷杰夫从一开始就决心避免过度采样科学家集中的地区(如欧洲、北美和部分亚洲)。相反,她们寻求来自六大洲的参与者。这一决定已经带来了关于免疫反应和乳腺癌易感性的地理差异的细胞基础的新见解。
本周发表的论文主题展示了这一项目的广泛范围,包括胎盘、骨骼胚胎发育、肠道炎症以及胸腺(生成免疫系统T淋巴细胞的器官)的形成。
这些研究的发现开辟了新天地。比如确认了一些癌症肿瘤形成过程中涉及的细胞过程,也参与了胎盘的快速生长;识别出在骨骼和软骨细胞发育过程中表达的基因,这些基因可能导致晚年的关节炎;通过对比健康和患病肠道,发现一种引发炎症的来源可能是肠道细胞意外地发育成了通常存在于胃中的一种类型;还提供了基于标准化表示的胸腺详细描述。
最引人注目的论文之一探讨了模拟大脑的类器官。
由实验室培养的干细胞生成的人类脑细胞类器官,让生物伦理学家感到担忧。目前,由于缺乏支持生长所需的血液供应,这些类器官直径仅能达到三四毫米,因此不太可能产生任何形式的意识。但一些人担心,等变得更大了就不好说了。
尽管如此,它们对研究仍然十分有用,因为可以研究活体人脑组织,而无需移除真实组织。
如果能够可靠预测特定版本类器官中的特定神经元类型,价值将更大,因为神经元占已知细胞类型的大部分,每种神经元都有不同的功能。
人类细胞图谱(HCA)项目将使研究更加容易。
一项由苏黎世联邦理工学院的芭芭拉·特鲁特莱恩领导的研究,分析了36个此类类器官的mRNA数据,这些类器官是通过26种不同的实验方案生成的。研究者不仅成功识别了每个类器官中生成的神经元类型,还确定了这些神经元与其自然等效物的相似程度。
这些数据整合后,生成了一张关于类器官的统一流形图,显示出各种实验方案的优劣势,有助于未来研究的规划。
除了公布项目成员的最新研究成果(尽管原始数据自采集后便已上线),这些论文还让特克曼和雷杰夫阐述了她们的愿景:利用人工智能(AI)将图谱转化为更接近于人类工作机制模型的工具。
两人都是计算生物学家,正是这种背景促使她们最初构想了HCA项目。如果没有支撑这一项目的软件——将数据转化为图表并使这些图表可供查询,这一项目就不会存在。
但她们的愿景更大。她们很早便采用了基础模型,这是一类AI(例如近年来备受关注的大型语言模型),通过大量训练数据识别出人类无法察觉的模式。
HCA的基础模型并非从文本段落中训练,而是以细胞集合为基础。目标不是模拟人类的表达方式,而是生成更优质、更有用的图谱。
一些模型从细胞类型的mRNA数据中学习,另一些则依赖传统组织学切片及其现代化版本,例如三维样本的光片成像。这些模型目前足够先进,可用于为新样本中的细胞加注释,在不同样本中搜索相似细胞,甚至发现特定特性背后的基因程序。
未来,这些模型还可能预测细胞谱系的发展,甚至设想出尚未知晓的细胞类型。这类模型不仅比人工研究者更快,还能完成超出人类能力范围的任务。
这一系统不仅能强化图谱本身,还能将其用于实际应用。
例如,制药公司已经开始使用HCA的数据和模型“虚拟”筛选潜在药物,在实验测试前进行预测;通过发现药物候选物与其作用的非目标组织中的基因表达,预测可能的副作用;或者相反,在这些非目标组织中寻找机会,扩展药物的治疗靶点范围。
未来,这一努力可能为创建人类“数字双胞胎”奠定基础。这种数字双胞胎将整合关于蛋白质工作机制的基础模型(如谷歌DeepMind开发的AlphaFold蛋白质折叠模型)以及关于人体发育的模型。
尽管这一天仍遥远,但如今看来更有可能实现。