论⽂复现赛采⽤ “开放赛题” 的形式,由参赛团队⾃主选择论⽂并通过报名链接提交。组委会对参赛团队选取的复现论⽂进⾏审核,经过初审通过后确认参赛团队报名成功,以邮件形式告知参赛团队开通的Bio-OS账号及相应资源。
参赛团队需要准备与该论⽂相关的数据,代码和⼯具,利⽤ Bio-OS Workspace 对论⽂中主要结果进⾏复现,包括但不限于数据处理、分析、结果验证等关键步骤,以及必要的图表、表格和其他可视化展⽰。
最终参赛团队需要以论⽂复现报告的形式提交⾄组委会进⾏评审。论⽂复现报告需要详细描述复现过程、遇到的问题、解决⽅案及最终复现结果。
注:参赛团队须按照下述标准,⾃主选取参赛的复现论⽂:
• ⽂献范围:参赛者可⾃由选择⾃⼰感兴趣的、影响因⼦⼤于5的相关论⽂;
• ⽂献领域:以⽣物信息学、计算⽣物学等包含⼆级分析或三级计算分析的⽂献为主;
• 发表时间:要求论文发表时间为2013年1月之后;
• 可重复性:选择的论⽂应具有明确的数据分析流程和可复现的实验结果。
提交初赛作品要求
提交截止时间为2024年10月13日24:00
1. 提交选定论⽂的信息(标题、作者、发表期刊及⽇期);
2. 提交Bio-OS Workspace项⽬链接,包括使⽤的说明、代码、数据和⽣成的结果;
3. 提交⼀份详细的复现报告,报告应包括但不限于:
1)所选论⽂的简要介绍;
2)复现的主要步骤和⽅法;
3)复现的结果及其与原论⽂结果的⽐较;
4)遇到的困难和解决⽅案;
5)Bio-OS Workspace在复现过程中的应⽤体验。
注:进⼊决赛的团队须按照提交的论⽂复现报告准备决赛现场的演⽰(PPT材料),组委会组织⾏业资深评委现场评分确定获奖名次。
评审标准
1. 论⽂影响⼒:根据选定论⽂的发表时间和影响因⼦评估。
2. 复现难易度:根据复现论⽂是否有提供源代码或者公开的指导资料评估。
3. 复现完整度:根据复现结果的准确性、完整性和解决遇到问题的能⼒评估。
4. Bio-OS Workspace的应用:评估参赛者利⽤ Bio-OS Workspace 的能⼒,包括数据处理、分析流程设计、图表制作等。
5. 其他:根据参赛者提交论⽂复现报告的完整性及规范性评估。
Bio-OS任务挑战赛道是一个由举办方设定赛题,具备一定挑战性,允许参赛者以单人或者多人组队形式参加的赛道。参赛团队需要在初赛截止时间前完成赛题,并按照要求提交材料的要求。本赛道赛题需要参赛者在Bio-OS中构建具备生物信息分析能力的工具,并通过大模型的能力和工具进行交互。
在这个赛道中,你不光能发挥生信的专业知识,还能够学习和实践大模型以及agent的各项能力,发挥你的想象力,将大模型的能力应用到生信中,搭建出你自己的生信智能体。
本赛道赛题:基于大模型的Bio-OS生物信息分析智慧应用搭建
以 Bio-OS 为基石,构建具备生物信息分析能力的工具,进而借助代码开发或扣子 AI应用开发平台,打造出集成生物信息分析的智慧应用。在此过程中,需重点关注如何有效结合大模型的强大功能与生物信息分析的专业知识,以实现以下目标:
1. 探索创新的应用场景,推动Bio-OS在生命科学领域的广泛应用;
2. 充分利用大模型的优势,优化智慧应用的用户体验,使其更具实用性和易用性。
通过本次竞赛,期待参赛者们能展现出在生物信息分析、大模型应用和软件开发等多方面的卓越才能和创新思维。
案例参考:【Bio-OS⽤户指南】
【Bio-OS API⽂档】
【扣子⽤户指南】
提交初赛作品要求
提交截止时间为2024年10月13日24:00
请将以下提交内容发送到邮箱: bioosopensource@163.com
1. ⼀个名称为"任务挑战-队伍名称"的项⽬介绍⽂档,⽂档中应包含以下内容:
1)对项⽬的整体介绍:阐述有哪些功能,核⼼亮点,解决的问题等;
2) Bio-OS workspace的链接及workspace中内容介绍:阐述解决生信什么实际业务,实现方式;
3) ⼤模型的应⽤介绍:⼤模型应⽤的访问⽅式,创建思路,插件搭建⽅式等;
4) 团队介绍:团队成员介绍;
5) 完整效果的Demo视频链接。
2. 完整的应用作品:如果是扣子搭建的应用可以发布到扣子商店或者飞书中,如果是以其他形式做出的应用展现内容形式不限,但需要详细说明体验入口及体验方式。
评审标准
1. Bio-OS 生信分析流程:根据实现难度,实用性,workspace完善程度进行评估 (60%)。
2. 大模型应用:根据准确率,实现难度,易用性,创新性等多维度进行评估 (20%)。
3. 综合评价分:根据实际效果,文档内容,创新性进行评估 (20%)。
AI算法赛道为打榜赛,主办方会根据参赛团队提交的结果,定期刷新榜单。AI算法赛
道包含两个赛题,参赛队可以任选其一参赛:
赛题一:细胞状态与类型的高精度鉴定
综合运用空间定位信息与转录组数据,构建模型以自动化分类细胞类型与状态。旨在
提升病理诊断的精确度与效率,实现细胞类型与形态的更精细定义,并推动Bio-OS
在AI4Science领域的广泛应用。
参赛指导:
1.参赛者要求使用深度学习或LLM(大语言模型)对结果进行预测;
2.参赛者可以使用豆包来进行辅助进行预测,包括但不限于:直接设计prompt使用
豆包对结果进行预测、使用豆包获得更完善的技术方案、利用豆包获取技术支持等;
3.参赛者可以借助本次公开数据之外的数据对模型或者算法进行调校;
4.借助已经发表开源模型进行Finetune的模型和结果亦可以被接受,但是需要在代
码中明确声明来源;
5.比赛数据分为公开数据和考核数据两部分,其中公开数据开放下载,考核数据不
开放下载。数据的标签都不开放下载。
6.参赛者可开发算法后对公开数据做出预测,将预测结果上传Bio-OS,由系统评估
作为初赛成绩,赛事期间每天可提交一次。榜单每周更新一次。
7.参赛者若使用copilot或agent等前沿技术,作为比赛加分项。
数据描述
请查看https://bio-os.github.io/activity/help中赛题一比赛使用数据说明
[比赛使用数据说明.pdf]
赛题一评审规则:
1.AI算法赛道的初赛评审采用打榜方式,赛事期间参赛者上传结果、模型和代码
(模型或者算法在第一阶段不参与打分,但需参赛者上传至Bio-OS平台),系统将其
与groundtruth进行比较计算,计算所用groundtruth对参赛者非公开;
2.初赛的最终打榜成绩,决定进入复赛的队伍。进入复赛的队伍需要在Bio-OS上构
建实例,提交代码和模型,在考核数据上运行,并计算指标作为最终成绩;
3.评价的预测结果包括大群注释结果和亚群注释结果。最终以 AUC 值评估,使用函数sklearn.metrics. roc_auc_score计算,计算公式可参考:
4.复赛的评估规则会在 AUC值的基础上增加算法的效率、新颖性等角度综合评判。
赛题二:抗体和抗原结合能力预测
利用抗体与抗原结合前的序列与结构信息,构建模型以对两者的结合能力进行预测。旨在提升 AI 模型对于抗体与抗原相互作用机制的理解与学习,促进蛋白质类药物 AI 设计的发展,并推动 Bio-OS 在 AI4Science 领域的广泛应用。
参赛指导:
1.参赛者要求使用深度学习或 LLM(大语言模型)对结果进行预测;
2.参赛者可以使用豆包来进行辅助进行预测,包括但不限于:直接设计 prompt 使用豆包对结果进行预测、使用豆包获得更完善的技术方案、获取技术支持、介绍数据类型等;
3.参赛者可以借助比赛提供数据之外的“无标签数据”对模型或者算法进行调校,有标签数据仅能使用比赛提供数据;
4.参赛者可以在数据处理阶段与模型训练阶段利用可公开使用的力场、能量计算软件,但最后的预测结果需要从模型中直接得到;
5.借助已经发表开源模型进行 Finetune 的模型和结果亦可以被接受,但需要在代码中明确声明来源,如果开源模型是 抗体&抗原结合能力预测模型,则需要使用比赛数据对其重新训练;
6.比赛数据分为公开数据和考核数据两部分,其中公开数据开放下载,考核数据不
开放下载。数据的标签都不开放下载。
7.参赛者可开发算法后对公开数据做出预测,将预测结果上传Bio-OS,由系统评估
作为初赛成绩,赛事期间每天可提交一次。榜单每周更新一次。
8.参赛者若使用copilot或agent等前沿技术,作为比赛加分项。
数据描述:
•初赛数据集:
○训练集:
▪从 SAbDab 数据库中筛选出的3251个处于结合态的抗原-抗体复合物,无亲和力标签。
○验证集:
▪从 SAbDab 数据库中筛选出的405个处于结合态的抗原-抗体复合物,具有亲和力标签(亲和力标签源自 SAbDab数据库)。
○SKEMPI v2.0 数据集(clean_skempi.csv):
▪KEMPI: Structural database of Kinetics and Energetics of Mutant Protein Interactions;
▪包含来自323个野生型蛋白质复合物的总计6652个突变型的亲和力变化情况;
▪提供了突变型发生突变的位置和突变后的氨基酸种类;
▪野生型蛋白质复合物的结构可以根据 PDB id 自行下载。
○测试集:
▪98个处于结合态的抗原抗体复合物.
○所有抗原-抗体复合物数据命名:
▪"{样本 id}_{抗体重/轻链 id}_{抗原链 id}"
▪例如:样本 0000_HL_A.pdb,表示样本 id 为 0000,抗体重链为 H,抗体轻链为 L,抗原链为 A
▪有些抗体中可能仅包含重/轻链中的一条链,有些抗原可能包含多条链
•复赛数据集:
○训练集:
▪从 SAbDab 数据库中筛选出的3251个处于结合态的抗原-抗体复合物,无亲和力标签;
▪从 SAbDab 数据库中筛选出的502个处于结合态的抗原-抗体复合物,具有亲和力标签(亲和力标签源自 SAbDab数据库)。
○SKEMPI 数据集:
▪同初赛
○测试集-Apo:
▪包含 42 对 处于游离态(Apo)的抗原与抗体。
▪对于每一对样本,抗原与抗体分别储存于不同的 .pdb 文件中,例如 0000_antibody.pdb & 0000_antigen.pdb
赛题二评审规则:
1.在提供了抗体-抗原对的 PDB 文件的情况下,预测给定抗体和抗原的结合亲和力(kcal/mol)。将计算预测的结合能量与实际结合能量之间的 Spearman Correlation,评估使用函数为 scipy.stats.spearmanr(predicted_energy, real_energy)。
2.复赛的评估规则会在 Spearman Correlation 值的基础上增加算法的效率、新颖性等角度综合评判。
提交材料
提交链接:https://bio-os.github.io/activity/help
提交截止时间为2024年10月13号24:00
赛题一
用户需将预测结果、模型、代码、readme (包含模型和代码说明)文件,上传至Bio-OS平台,大赛将通过对结果文件中的细胞大群注释、亚群注释的结果、模型和代码进行综合评价。要求上传的预测结果格式为 csv。
细胞大群注释结果表(表格内的值为每个细胞中属于每类细胞类型的概率):
细胞亚群注释结果表:
注意:
为了保证后台识别评估软件能准确计算各位参赛者的提交结果,标注细胞类型的名称请严格参考https://doi.org/10.1038/s41587-021-01139-4,若范围以外的名称将被判错 。
赛题二
用户需将预测结果、模型、代码、readme (包含模型和代码说明)文件,上传至Bio-OS平台,大赛将通过对结果文件中的抗体-抗原对亲和力预测值、模型和代码进行综合评价。要求上传的预测结果格式为 csv。
出题人鸣谢
(排名不分先后)
薛东雨,ByteDance Research AI制药团队研究员,博士毕业于同济大学,从事 AI 抗体设计相关的算法研究,主要利用深度生成模型进行高质量抗体设计与优化。
顾全全,ByteDance Research AI制药团队的负责人。他的研究领域是人工智能和机器学习,重点包括非凸优化、深度学习、强化学习、大语言模型和深度生成模型,并且利用人工智能在生物学、医学、化学和公共卫生等领域促进科学发现。
张广鑫,寻因生物生信负责人,毕业于南京大学,深耕基因多组学检测产品研发与数据分析领域多年。近年来聚焦于空间与单细胞转录组数据的深度分析及其产业化落地应用。