华中科技大学张珞颖教授和薛宇教授联合课题组利用大模型GPT-3.5和提示词工程技术,发现仅在群体环境下调节睡眠功能的基因MRE11。
02该研究阐释了MRE11在调节多巴胺信号通路方面,对睡眠、运动和社交活动产生影响的可能性。
03与传统手段相比,通过大模型可以更有效地预测基因机制,并做验证,得到一些新的发现。
04除此之外,该装置还可用于群体条件下的其他相关行为学监测,如斑马鱼、蚂蚁等其他动物模型。
05未来,研究人员将继续探索社交信号对睡眠和其他行为的影响,以及这些影响背后的分子机制。
然而,在 o1 发布之前,已经有科学家通过思维链推理在生物信息领域进行探索。
“OpenAI 的 o1 在机器推理方向上取得了颠覆性的突破,很高兴我们国内的研究能够与国际同步。”华中科技大学薛宇教授表示。
为探索和解决生物学领域的睡眠调控机制问题,华中科技大学张珞颖教授和薛宇教授联合课题组,开发了一种可一起进行多目标视频追踪的定量装置。
借助大模型 GPT-3.5 和提示词工程(Prompt Engineering)技术,对果蝇全基因组进行系统解释及功能筛选。
他们对 758 个果蝇基因参与调控群体/个体睡眠和活动进行预测和验证后,发现了仅在群体环境下调节睡眠功能的基因 MRE11。
“也就是说,在存在社交信号的环境与没有社交信号的环境下,调控睡眠的机理是不同的。”张珞颖解释说道。
该研究阐释 MRE11 在调节多巴胺信号通路方面,对睡眠、运动和社交活动产生一定的影响的可能性,为理解和研究人类睡眠调控机制提供了新范式。
审稿人对该研究评价称:“这是一组有趣的研究,它将对塑造睡眠研究的方向产生影响,这种方法将为更好地理解睡眠功能和调节功能开辟道路。”
华中科技大学彭迪博士、博士研究生郑刘彬、刘丹和韩诚本是共同第一作者,张珞颖教授和薛宇教授担任共同通讯作者。
薛宇课题组的主要研究方向是蛋白质化学修饰的生物信息学,而张珞颖课题组以睡眠与生物钟为主要研究方向。
2020 年,在 GPT-3.0 刚出现时,联合团队就探索过是否可应用其解决生物学问题。但那时大模型幻觉问题严重,价值观也无法与人类对齐。
而更早之前,机器学习的可解释性不佳,其应用在生物领域时,无法将某些数值对应到生物学意义。
GPT-3.5 应用在生物学的优势是,它在 CoT 作用下会做类似人类的一步步推理,而不是基于训练直接给出答案,从而可以帮助发现新的科学知识。
薛宇表示:“从技术创新的角度来看,CoT 提示的方法可以帮助我们解释数百个分子之间上万种的关联。在我们的研究中,它的准确率能达到 70% 以上。”
与传统手段相比,通过大模型可以更有效地预测基因机制,接着进行验证,并得到一些新的发现。
该研究的应用范围不局限于睡眠研究,对于其他涉及到基因调控网络的生物学问题也具有普适性。
张珞颖表示:“它可以作为研究生物学机制的工具,帮助预测那些之前在生物学中找不到的信息或线索,研究人员再根据相关信息做验证。”
这套新的行为学监测的范式既可用于睡眠的研究,也可用于群体条件下的其他相关行为学监测。在应用场景范围上,除了果蝇,该研究还展示了斑马鱼、蚂蚁等其他动物模型。
该研究所实现的效果基于 CoT 的使用,在未来的研究中,该课题组还将尝试思维树等其他提示词工程,以探索更多的可能性。
基于该装置,研究人员发现了一些在群体条件下、有社交信号时调控睡眠的相关基因,但目前只是初步的机制预测和验证,更深入和具体的调控过程还要进一步研究。
此前,已有社交信号会影响个体健康的相关报道,包括精神情况、情绪等。“我们推测这些基因是既调控社交活动,又调控睡眠,很可能也会参与影响情绪、精神情况等。”张珞颖表示。
基于此,他们计划继续探索社交信号对睡眠和其他行为的影响,以及这些影响背后的分子机制。
据悉,目前研究人员正在构建小鼠模型,希望可以更深入地理解社交环境对情绪(例如抑郁、焦虑等)和精神情况的影响,这对于理解抑郁症等精神疾病的发病机制具备极其重大意义。
该研究展示了大模型在科学研究中的潜力,尤其是在处理复杂数据和预测生物学机制方面。随技术的逐步发展和完善,其有望成为解决更多科学问题的强大工具。
“相信我们的装置未来会为非线性关联的分子机制提供更多的可能性,例如追逐、觅食、饮食与睡眠等。”薛宇表示。