⽕⼭引擎和 Intel 联合举办CCF开源创新⼤赛暨第⼆届Bio-OS开源开放⼤赛,本次⼤赛主要⾯向全国⽣信领域⾼校师⽣、相关企业组织、以及科研机构等,⼤赛以“开源共赢,科学⽆限”为宗旨,将有效构建 Bio-OS 社区的开源⽣态,推动⽣信领域的交流与合作,为⽕⼭引擎和 Intel 构建⼀个“开放、创新、合作、共赢”的技术氛围。

关于Bio-OS

⽕⼭引擎⽣信操作系统 Bio-OS 是⽕⼭引擎提供的低门槛,低成本,极速的云上基因分析平台;基于Serverless 架构实现了标准⽣信⼯作流引擎和多种三级分析引擎⽀持,帮助⽣信科研⼈员、⽣物科技公司,农业育种公司快速构建基础能⼒。

了解更多
本次⼤赛分为三个赛道,分别为论⽂复现赛、任务挑战赛、AI算法赛道
论⽂复现赛道 任务挑战赛道 AI算法赛道

论⽂复现赛采⽤ “开放赛题” 的形式,由参赛团队⾃主选择论⽂并通过报名链接提交。组委会对参赛团队选取的复现论⽂进⾏审核,经过初审通过后确认参赛团队报名成功,以邮件形式告知参赛团队开通的Bio-OS账号及相应资源。


参赛团队需要准备与该论⽂相关的数据,代码和⼯具,利⽤ Bio-OS Workspace 对论⽂中主要结果进⾏复现,包括但不限于数据处理、分析、结果验证等关键步骤,以及必要的图表、表格和其他可视化展⽰。

最终参赛团队需要以论⽂复现报告的形式提交⾄组委会进⾏评审。论⽂复现报告需要详细描述复现过程、遇到的问题、解决⽅案及最终复现结果。


注:参赛团队须按照下述标准,⾃主选取参赛的复现论⽂:
•         ⽂献范围:参赛者可⾃由选择⾃⼰感兴趣的、影响因⼦⼤于5的相关论⽂;
•         ⽂献领域:以⽣物信息学、计算⽣物学等包含⼆级分析或三级计算分析的⽂献为主;
•         发表时间:要求论文发表时间为2013年1月之后;
•         可重复性:选择的论⽂应具有明确的数据分析流程和可复现的实验结果。



提交初赛作品要求

提交截止时间为2024年10月13日24:00

1. 提交选定论⽂的信息(标题、作者、发表期刊及⽇期);
2. 提交Bio-OS Workspace项⽬链接,包括使⽤的说明、代码、数据和⽣成的结果;
3. 提交⼀份详细的复现报告,报告应包括但不限于:
1)所选论⽂的简要介绍;
2)复现的主要步骤和⽅法;
3)复现的结果及其与原论⽂结果的⽐较;
4)遇到的困难和解决⽅案;
5)Bio-OS Workspace在复现过程中的应⽤体验。


注:进⼊决赛的团队须按照提交的论⽂复现报告准备决赛现场的演⽰(PPT材料),组委会组织⾏业资深评委现场评分确定获奖名次。


评审标准

1. 论⽂影响⼒:根据选定论⽂的发表时间和影响因⼦评估。
2. 复现难易度:根据复现论⽂是否有提供源代码或者公开的指导资料评估。
3. 复现完整度:根据复现结果的准确性、完整性和解决遇到问题的能⼒评估。
4. Bio-OS Workspace的应用:评估参赛者利⽤ Bio-OS Workspace 的能⼒,包括数据处理、分析流程设计、图表制作等。
5. 其他:根据参赛者提交论⽂复现报告的完整性及规范性评估。

Bio-OS任务挑战赛道是一个由举办方设定赛题,具备一定挑战性,允许参赛者以单人或者多人组队形式参加的赛道。参赛团队需要在初赛截止时间前完成赛题,并按照要求提交材料的要求。本赛道赛题需要参赛者在Bio-OS中构建具备生物信息分析能力的工具,并通过大模型的能力和工具进行交互。


在这个赛道中,你不光能发挥生信的专业知识,还能够学习和实践大模型以及agent的各项能力,发挥你的想象力,将大模型的能力应用到生信中,搭建出你自己的生信智能体。


本赛道赛题:基于大模型的Bio-OS生物信息分析智慧应用搭建


以 Bio-OS 为基石,构建具备生物信息分析能力的工具,进而借助代码开发或扣子 AI应用开发平台,打造出集成生物信息分析的智慧应用。在此过程中,需重点关注如何有效结合大模型的强大功能与生物信息分析的专业知识,以实现以下目标:
1.   探索创新的应用场景,推动Bio-OS在生命科学领域的广泛应用;
2.   充分利用大模型的优势,优化智慧应用的用户体验,使其更具实用性和易用性。
通过本次竞赛,期待参赛者们能展现出在生物信息分析、大模型应用和软件开发等多方面的卓越才能和创新思维。


案例参考:【Bio-OS⽤户指南】
【Bio-OS API⽂档】
【扣子⽤户指南】


提交初赛作品要求

提交截止时间为2024年10月13日24:00
请将以下提交内容发送到邮箱: bioosopensource@163.com

1. ⼀个名称为"任务挑战-队伍名称"的项⽬介绍⽂档,⽂档中应包含以下内容:
1)对项⽬的整体介绍:阐述有哪些功能,核⼼亮点,解决的问题等;
2) Bio-OS workspace的链接及workspace中内容介绍:阐述解决生信什么实际业务,实现方式;
3) ⼤模型的应⽤介绍:⼤模型应⽤的访问⽅式,创建思路,插件搭建⽅式等;
4) 团队介绍:团队成员介绍;
5) 完整效果的Demo视频链接。
2. 完整的应用作品:如果是扣子搭建的应用可以发布到扣子商店或者飞书中,如果是以其他形式做出的应用展现内容形式不限,但需要详细说明体验入口及体验方式。


评审标准

1. Bio-OS 生信分析流程:根据实现难度,实用性,workspace完善程度进行评估 (60%)。
2. 大模型应用:根据准确率,实现难度,易用性,创新性等多维度进行评估 (20%)。
3. 综合评价分:根据实际效果,文档内容,创新性进行评估 (20%)。

AI算法赛道为打榜赛,主办方会根据参赛团队提交的结果,定期刷新榜单。AI算法赛 道包含两个赛题,参赛队可以任选其一参赛:


赛题一:细胞状态与类型的高精度鉴定

综合运用空间定位信息与转录组数据,构建模型以自动化分类细胞类型与状态。旨在 提升病理诊断的精确度与效率,实现细胞类型与形态的更精细定义,并推动Bio-OS 在AI4Science领域的广泛应用。


参赛指导:

1.参赛者要求使用深度学习或LLM(大语言模型)对结果进行预测;

2.参赛者可以使用豆包来进行辅助进行预测,包括但不限于:直接设计prompt使用 豆包对结果进行预测、使用豆包获得更完善的技术方案、利用豆包获取技术支持等;

3.参赛者可以借助本次公开数据之外的数据对模型或者算法进行调校;

4.借助已经发表开源模型进行Finetune的模型和结果亦可以被接受,但是需要在代 码中明确声明来源;

5.比赛数据分为公开数据和考核数据两部分,其中公开数据开放下载,考核数据不 开放下载。数据的标签都不开放下载。

6.参赛者可开发算法后对公开数据做出预测,将预测结果上传Bio-OS,由系统评估 作为初赛成绩,赛事期间每天可提交一次。榜单每周更新一次。

7.参赛者若使用copilot或agent等前沿技术,作为比赛加分项。


数据描述

请查看https://bio-os.github.io/activity/help中赛题一比赛使用数据说明 [比赛使用数据说明.pdf]


赛题一评审规则:

1.AI算法赛道的初赛评审采用打榜方式,赛事期间参赛者上传结果、模型和代码 (模型或者算法在第一阶段不参与打分,但需参赛者上传至Bio-OS平台),系统将其 与groundtruth进行比较计算,计算所用groundtruth对参赛者非公开;

2.初赛的最终打榜成绩,决定进入复赛的队伍。进入复赛的队伍需要在Bio-OS上构 建实例,提交代码和模型,在考核数据上运行,并计算指标作为最终成绩;

3.评价的预测结果包括大群注释结果和亚群注释结果。最终以 AUC 值评估,使用函数sklearn.metrics. roc_auc_score计算,计算公式可参考:

4.复赛的评估规则会在 AUC值的基础上增加算法的效率、新颖性等角度综合评判。


赛题二:抗体和抗原结合能力预测

利用抗体与抗原结合前的序列与结构信息,构建模型以对两者的结合能力进行预测。旨在提升 AI 模型对于抗体与抗原相互作用机制的理解与学习,促进蛋白质类药物 AI 设计的发展,并推动 Bio-OS 在 AI4Science 领域的广泛应用。


参赛指导:

1.参赛者要求使用深度学习或 LLM(大语言模型)对结果进行预测;

2.参赛者可以使用豆包来进行辅助进行预测,包括但不限于:直接设计 prompt 使用豆包对结果进行预测、使用豆包获得更完善的技术方案、获取技术支持、介绍数据类型等;

3.参赛者可以借助比赛提供数据之外的“无标签数据”对模型或者算法进行调校,有标签数据仅能使用比赛提供数据;

4.参赛者可以在数据处理阶段与模型训练阶段利用可公开使用的力场、能量计算软件,但最后的预测结果需要从模型中直接得到;

5.借助已经发表开源模型进行 Finetune 的模型和结果亦可以被接受,但需要在代码中明确声明来源,如果开源模型是 抗体&抗原结合能力预测模型,则需要使用比赛数据对其重新训练;

6.比赛数据分为公开数据和考核数据两部分,其中公开数据开放下载,考核数据不 开放下载。数据的标签都不开放下载。

7.参赛者可开发算法后对公开数据做出预测,将预测结果上传Bio-OS,由系统评估 作为初赛成绩,赛事期间每天可提交一次。榜单每周更新一次。

8.参赛者若使用copilot或agent等前沿技术,作为比赛加分项。


数据描述:

•初赛数据集:

○训练集:

▪从 SAbDab 数据库中筛选出的3251个处于结合态的抗原-抗体复合物,无亲和力标签。

○验证集:

▪从 SAbDab 数据库中筛选出的405个处于结合态的抗原-抗体复合物,具有亲和力标签(亲和力标签源自 SAbDab数据库)。

○SKEMPI v2.0 数据集(clean_skempi.csv):

▪KEMPI: Structural database of Kinetics and Energetics of Mutant Protein Interactions;

▪包含来自323个野生型蛋白质复合物的总计6652个突变型的亲和力变化情况;

▪提供了突变型发生突变的位置和突变后的氨基酸种类;

▪野生型蛋白质复合物的结构可以根据 PDB id 自行下载。

○测试集:

▪98个处于结合态的抗原抗体复合物.

○所有抗原-抗体复合物数据命名:

▪"{样本 id}_{抗体重/轻链 id}_{抗原链 id}"

▪例如:样本 0000_HL_A.pdb,表示样本 id 为 0000,抗体重链为 H,抗体轻链为 L,抗原链为 A

▪有些抗体中可能仅包含重/轻链中的一条链,有些抗原可能包含多条链

•复赛数据集:

○训练集:

▪从 SAbDab 数据库中筛选出的3251个处于结合态的抗原-抗体复合物,无亲和力标签;

▪从 SAbDab 数据库中筛选出的502个处于结合态的抗原-抗体复合物,具有亲和力标签(亲和力标签源自 SAbDab数据库)。

○SKEMPI 数据集:

▪同初赛

○测试集-Apo:

▪包含 42 对 处于游离态(Apo)的抗原与抗体。

▪对于每一对样本,抗原与抗体分别储存于不同的 .pdb 文件中,例如 0000_antibody.pdb & 0000_antigen.pdb


赛题二评审规则:

1.在提供了抗体-抗原对的 PDB 文件的情况下,预测给定抗体和抗原的结合亲和力(kcal/mol)。将计算预测的结合能量与实际结合能量之间的 Spearman Correlation,评估使用函数为 scipy.stats.spearmanr(predicted_energy, real_energy)。

2.复赛的评估规则会在 Spearman Correlation 值的基础上增加算法的效率、新颖性等角度综合评判。


提交材料

提交链接:https://bio-os.github.io/activity/help

提交截止时间为2024年10月13号24:00


赛题一

用户需将预测结果、模型、代码、readme (包含模型和代码说明)文件,上传至Bio-OS平台,大赛将通过对结果文件中的细胞大群注释、亚群注释的结果、模型和代码进行综合评价。要求上传的预测结果格式为 csv。 细胞大群注释结果表(表格内的值为每个细胞中属于每类细胞类型的概率):

细胞亚群注释结果表:

注意:
为了保证后台识别评估软件能准确计算各位参赛者的提交结果,标注细胞类型的名称请严格参考https://doi.org/10.1038/s41587-021-01139-4,若范围以外的名称将被判错 。


赛题二

用户需将预测结果、模型、代码、readme (包含模型和代码说明)文件,上传至Bio-OS平台,大赛将通过对结果文件中的抗体-抗原对亲和力预测值、模型和代码进行综合评价。要求上传的预测结果格式为 csv。

出题人鸣谢

(排名不分先后)

薛东雨,ByteDance Research AI制药团队研究员,博士毕业于同济大学,从事 AI 抗体设计相关的算法研究,主要利用深度生成模型进行高质量抗体设计与优化。

顾全全,ByteDance Research AI制药团队的负责人。他的研究领域是人工智能和机器学习,重点包括非凸优化、深度学习、强化学习、大语言模型和深度生成模型,并且利用人工智能在生物学、医学、化学和公共卫生等领域促进科学发现。

张广鑫,寻因生物生信负责人,毕业于南京大学,深耕基因多组学检测产品研发与数据分析领域多年。近年来聚焦于空间与单细胞转录组数据的深度分析及其产业化落地应用。

1. 参赛⼈员以组队的形式报名,每队1-3⼈;
2. 每支参赛团队仅可报名一个赛道,若报名多个赛道,以最后一次报名信息为准;
3. 每个参赛者只可加入一只团队,不可重复加入多个团队,否则取消资格;
4. 参赛者报名成功后,需加入大赛交流群,获取大赛最新咨询和辅导培训。

* 奖⾦均为税前⾦额
论⽂复现赛道 任务挑战赛道 AI算法赛道
大赛评委按照姓氏首字母排序
李亦学
李亦学
广州实验室研究员,博士生导师, 科学数据平台主任,预防预警部负责人,中国科学院特聘研究员,上海科技大学特聘教授,上海交通大学生命科学与技术学院教授,中国生物信息学会(筹)副理事长,上海生物信息学会理事长,蛋白质机器重点专项总体专家组专家,生物安全重点专项总体专家组专家,精准医疗重点专项总体专家组专家。
蔡宏民
蔡宏民
华南理工大学计算机科学与工程学院教授,博士生导师,国家杰青,中国计算机学会生物信息学专业委员会常务委员,中国自动化学会智能健康与生物信息专业委员会常务委员。
王秀杰
王秀杰
中国科学院遗传与发育生物学研究所研究员,博士生导师,国家杰青,分子系统生物学研究中心主任,国家重点研发计划项目首席科学家行。
叶凯
叶凯
西安交通大学教授,信息与生物医学交叉研究中心负责人,博士生导师,国家杰青,创新港MED-X研究院数字医学研究所所长,电子信息科学研究院生物信息学研究所所长,西安交大第一附属医院单细胞测序平台主任,陕西省生物信息学学会理事长
杨威
杨威
英特尔中国人工智能架构师,负责客户在人工智能相关领域的性能调优和管线开发整合。目前主要参与项目领域包括:LLM文本生成,多模态文档RAG,智能智造与缺陷检测,数据智能与推荐系统,AI小分子药物虚拟筛选,蛋白结构预测与从头设计。代表工作:AlphaFold2在英特尔CPU上的推理加速,可定制的GAP知识库文档大模型问答。
杨跃东
杨跃东
中山大学计算机学院教授、博士生导师,国家超算广州中心总工程师,智能健康医疗中心副主任。
赵方庆
赵方庆
中国科学院北京生命科学研究院研究员,博士生导师,国家杰青,科研部副主任、技术平台部主任、计算基因组学研究组组长,中国生物信息学会基因组信息学专委会主任。
赵兴明
赵兴明
复旦大学类脑智能科学与技术研究院教授,国家杰青,复旦大学智能复杂体系基础理论与关键技术实验室双聘教授,计算神经科学与类脑智能教育部重点实验室副主任。
章文嵩
章文嵩
CCF会士、常务理事、CCF开源发展委员会副主任。开源项目LVS创始人,目前主要做云原生相关的创业孵化。曾任高瓴投资运营合伙人,滴滴出行高级副总裁,阿里副总裁和阿里云CTO,TelTel联合创始人,国防科技大学计算机学院副教授。
张鑫
张鑫
北京火山引擎科技有限公司副总裁、字节跳动开源委员会治理运营负责人。
第二届 Bio-OS 开源开放大赛启动仪式
Bio-OS 开源开放⼤赛是由 Bio-OS 社区主办的⼀项⾯向全球的开源⽐赛。第⼆届 Bio-OS 开源开放⼤赛旨在⿎励开发者和研究⼈员利⽤ Bio-OS 平台,探索⽣物信息技术在各个领域的应⽤潜⼒,并为开源社区做出贡献。
Copyright©2005- 51CTO.COM 版权所有
未经许可 请勿转载