第二届鹏博士杯“中国有数据”数据科学大赛 2020年4月15日12:00报名截止,并关闭组队 一、大赛概述 2014年3月,大数据首次写入中国中央政府工作报告;2015年10月,党的十八届五中全会正式提出“实施国家大数据战略,推进数据资源开放共享”。这表明中国已将大数据视作战略资源并上升为国家战略,期望运用大数据推动经济发展、完善社会治理、提升政府服务和监管能力。2018年5月,习近平在向中国国际大数据产业博览会的致辞中指出,我们秉持创新、协调、绿色、开放、共享的发展理念,围绕建设网络强国、数字中国、智慧社会,全面实施国家大数据战略,助力中国经济从高速增长转向高质量发展。 2015年,国务院发布《促进大数据发展行动纲要》,标志着大数据战略正式上升为国家战略。为配合国家大数据战略,加快产业人才培养,教育部增设了“数据科学与大数据技术”本科专业和“大数据技术与应用”高职专业,并得到各高校的积极响应。为协助高校推动大数据相关学科的深化发展,助力产业创新人才培养,在信息技术新工科产学研联盟的指导下,首届“中国有数据”数据科学大赛于2018年8月在内蒙古财经大学成功举办,大赛首创数据科学导师战队制,邀请来自北京大学、中国科学技术大学、浙江大学等高校学者,智隆信息、博雅大数据、袋鼠云等行业专家担任导师和评委,吸引来自全国五个省市自治区高校的十余支队伍参赛,新华社对本次大赛进行了专题报道。 为了进一步巩固“以赛促学、以赛促教”,第二届鹏博士杯“中国有数据”数据科学大赛将于2020年3月启动。作为全国性的数据科学竞赛,“中国有数据”数据科学大赛旨在为相关专业的学生提供一个应用创新设计竞技平台,促进学生技术技能、创新思维、实践能力和协作能力的培养,并围绕竞赛建立起专业研讨、师资研修和产学研融合创新体系,逐步推动大数据相关专业的建设,为产业发展提供人才支撑。大赛继续面向全球高校在校生开放,专业方向包括信息技术、大数据、人工智能、数学、统计学等。大赛秉承“竞赛中学习,学习中竞赛”的原则,通过“学习+竞技”的模式促进学生在数据科学方面的技术技能、创新思维、实践能力和协作能力的培养,促进学生就业。并在首届大赛基础上建立数据科学导师库、人才库和产品库,推动大数据、人工智能学科方向的建设与发展,促进行业人才培养、技术应用推广和创新成果转化。 二、大赛目的 1.配合国家“大数据”战略,推动大数据技术产业发展。 2.促进高校教育体系改革,培育大数据等新工科专业人才队伍。 3.实践“竞赛中学习,学习中竞赛”的产学研人才培养模式,与学生就业进行对接。 4.培育和挖掘高校创新技术人才,鼓励和引导优秀人才进行新兴产业创业;为高校学子提供创意展示平台的同时搭建校企之间合作共赢的绿色平台。 三、大赛主题 “中国有数据”数据科学大赛 四、大赛组织机构 指导单位 信息技术新工科产学研联盟 中国软件行业协会 主办单位 中国城市科学研究会数字城市专业委员会 智慧校园产学研联盟 上海智隆信息技术股份有限公司 承办单位 中国教学仪器设备有限公司 浙江大学智云实验室 内蒙古数据科学与大数据学会 京东机器人教育学院 大赛赞助方 智慧校园产学研联盟企业 鹏博士电信传媒集团股份有限公司 合作单位 首席数据官联盟 北京瀚沙数聚科技有限公司 杭州生芽教育科技有限公司(橙就业) 合作媒体 36氪、慧聪网、DoNews、TechWeb、CSDN、极客公园 大赛组委会 大赛组委会主任:李京(中国科学技术大学) 大赛组委会副主任:唐建平(内蒙古数据科学与大数据学会秘书长) 大赛顾问委员会主任:陈文智(浙江大学) 大赛组委会秘书处: 周新宇(上海智隆信息技术股份有限公司) 刘永家(中国教学仪器设备有限公司) 云 霞(浙江大学) 大赛组委会成员: 任波(重庆城市管理职业学院党委书记)、曹毅(重庆财经职业学院院长)、张紫徽(浙江大学)、何海涛(中山大学)、邹云龙(东北师范大学)、赖于树(重庆三峡学院)、窦浩(西安建筑科技大学)、闫健卓(北京工业大学)、代成琴(哈尔滨工业大学)、龙旭东(海航科技集团CTO)、石峰(北京瀚沙数聚科技有限公司CEO)、刘冬冬(烟台新工科研究院专家委员,首席数据官联盟创始人)、高春双(鹏博士集团信息管理部总经理) 五、大赛选题 1. 物流应用方向 选题一:基于物流配送员配送路径推荐的系统挑战赛 任务描述 问题背景:已知配送员所在的站点D={distribution_station,coordinate},以及当次需要送达的订单O={O1,O2,O3,…,On}。对参赛系统有以下要求: 1.配送员从站点出发,结合终端PDA(Personal Digital Assistant)设备,大概一个批次运送300单左右,计算一点到多点的拓扑以及Z优配送路径。 2.有些订单为优先派送,比如生鲜、京准达,故而需要考虑tsp(Travelling Salesman Problem)问题占比一次运送订单的50%的情况。 3.需要考虑在配送点的配送时间(停留时间),在单个配送单配送多单,考虑从站点出发和在配送点重新计算等情况下的Z优配送路径(两者在配送完后均返回站点)。 4.Z终形成配送路径的推荐。 数据集 竞赛数据包含终端PDA的实时轨迹数据,以及配送的运单数据(包括地址信息以及配送要求等),报名参赛队伍才能获得数据集的在线使用权限。 输入/输出 输入:一个配送员一个批次的所有订单,配送站点的信息输出:配送订单的排序 评价方法 京东提供用于开发的运单信息,以及配送站点信息,运单的所有约束信息。300单的计算时间在50ms以内效率满分,50~100ms效率得分占比50%,100~200ms效率得分占比30%,200ms以上得分占比20%。 Z终评分准则:总分=任务准确率(70%)+任务完成效率(30%) 选题二:基于物流配送地址库进行配送站点的预测系统挑战赛 任务描述 问题背景:已知物流配送妥投地址库D={province,city,district,street,address,distribution_station},用于描述地址和配送站点的映射关系,用户每次下单的信息U={user_id,address}。要求参赛系统对用户的下单信息进行预测,计算出用户下单的地址对应的配送站点。可以参考历史配送的地址库,预测准确的配送站点。 注:首先需要对用户地址进行去噪,其次需要做命名实体识别,找到和妥投地址库Z接近的地址,以便找到对应的配送站点。 数据集 竞赛数据包含上千万配送妥投地址库,以及几千条用户下单的信息,报名参赛队伍才能获得数据集的在线使用权限。 输入/输出 输入:背景U用户下单的信息输出:预测用户下单的配送站点distribution_station 评价方法 京东会提供用于训练的数据集,即原始妥投地库,用户输入的地址为原始地址,需要对原始地址进行识别,取出其中的有用信息进行重组,加工出标准地址,然后根据标准地址进行妥投地址库的匹配,得出配送站点。每一个用户下单的地址都有真实对应的妥投配送站点,用于系统的打分和评测,计算正确的结果/整体用户样本集,即为Z终任务的准确率。 Z终评分准则:总分=地址标准化(20%)+任务准确率(50%)+任务完成效率(30%) 选题三:AGV电池剩余使用寿命分析与预测 任务描述 问题背景:AGV运行过程中,使用充电电池提供运行动力。在使用过程中,受使用时长和使用方式等多种因素的影响,不同AGV电池的寿命呈现不同的衰减速率。为了保证生产的连续进行和Z大化电池的利用,需要知晓电池的状态和剩余使用寿命,以在合适的时间更换电池。 基于此背景,本赛题的主要任务是: 1.对电池寿命及其潜在影响因素的特征进行分析; 2.找出影响电池寿命的主要因素,并指出是如何具体影响的; 3.建立电池剩余寿命预测模型,对AGV电池进行预测。 数据集 1.历史充电数据;2.历史任务数据;3.历史执行动作数据;总计千万级的数据进行分析挖掘。 输入/输出 输入:充电开始时间、结束时间、充电前电量、充电结束电量、任务类型、任务开始时间、任务结束时间、左转动作、右转动作、顶升动作等特征。输出:AGV电池的剩余使用寿命 评价方法 Z终评分准则:总分=拟合优度(20%)+变量的显著性水平(50%)+MAPE(30%) 2. 企业招聘数据分析 选题:基于全国企业的招聘数据 任务描述 问题背景:已知全国各企业的招聘数据(岗位名称、招聘数量、薪酬待遇、职位要求、企业名称、企业所属行业、企业规模、招聘时间等……1.比赛要求:分析招聘岗位的各类变化趋势(行业、城市、岗位、薪酬、职位数量、职位要求等)2.比赛要求:分析招聘岗位的各类关系与多维组合后的交叉分析 数据集 竞赛数据包含全国12个月的历史招聘数据,报名参赛队伍才能获得数据集的在线使用权限。 输入/输出 输入:岗位名称、行业名称、城市名称、薪酬待遇等输出:所有指标的变化趋势及交叉互动关系 评价方法 瀚沙数聚公司将会根据以有的标准结果,评判哪个参赛队伍使用的算法更加智能,结果更加贴近真实结果。5万条招聘数据计算的时间在50ms以内效率满分,50~100ms效率得分占比50%,100~200ms效率得分占比30%,200ms以上得分占比20%。 Z终评分准则:总分=任务准确率(70%)+任务完成效率(30%) 六、参赛条件 1.参赛对象 全国各高校在校学生(包括2020年应届毕业生),必须以团队形式参赛,每支队伍2~5名队员,可以跨赛区和学校组队。各院校参赛队数不限。每人仅限报名一支团队。每个团队指导老师数量不超过2人。 大赛主办方和相关单位有机会提前接触赛题和数据的人员不得参加比赛。 2.参赛条件 根据选题方向和作品要求,由参赛团队在指导老师的指导下独立完成的作品为有效参赛作品。参赛作品必须是学生原创作品,所使用的核心技术、知识产权为参赛团队所有或经技术持有者书面授权,且不得侵犯任何第三方知识产权。谢绝任何形式的指导老师课题或企业项目参赛,参与大赛的作品必须接受大赛有关免责条款和知识产权保护条款。 3.注意事项 (1)每人只能参与一个队伍;禁止邀请外援。 (2)保证参赛队员报名信息准确有效,不得使用小号,否则会被取消参赛资格及奖励。 (3)参赛身份的变化及队伍变化(即参赛者在报名结束后,在比赛进行过程中更换团队或者团队成员进行临时调整),之前的提交结果将被删除且不可恢复,所涉及选手排行榜成绩清空。 七、大赛流程 大赛采用初赛训练阶段、复赛、全国总决赛三级赛制。初赛训练阶段(A榜)基于训练数据集,复赛阶段(B榜)基于测试数据集,其中A榜和B榜均为线上赛事,B榜结束后,TOP20提交相关审核资料进行代码复现,进入审核阶段,审核后进入现场答辩总决赛。 1.初赛训练阶段(A榜)(2020年2月—4月) 所有参赛团队统一通过大赛官网(https://jdata.jd.com)报名。 2020年2月1日12:00开放赛题信息和报名通道; 2020年3月10日12:00开放A榜数据、测评以及排行榜平台; 2020年4月15日12:00报名截止,并关闭组队; 2020年4月15日18:00关闭A榜提交; 2.复赛阶段(B榜)(2020年4月—5月) 2020年4月16日12:00开放B榜数据及提交,并进行小号作弊和算法有效性排查; 2020年5月8日12:00关闭B榜提交,并开放提交相关审核资料; 2020年5月14日18:00关闭代码复现资料提交; 2020年5月20日18:00公布入围决赛的队伍名单; 3.全国总决赛(2020年5月底) 2020年5月21日—2020年5月24日 2020年5月底现场决赛答辩,具体时间另行通知。 4.结果公布 每一阶段评选结果将在大赛官网(https://jdata.jd.com)中公布,并以电话和邮件的方式通知进入决赛作品的选手。 八、评选标准 1.初赛阶段和复赛阶段评选 (1)本次大赛初赛阶段(A榜)和复赛阶段(B榜)评审将采用线上评测; (2) A榜期间每支队伍每天提交次数不超过2次,采用实时评测; (3) B榜期间每支队伍每天提交次数不超过2次,采用定期评测2次,即第1次评测时间是开放B榜数据后第二天(4月17日)12:00,第2次评测时间是B榜截止当天(5月8日)16:00;每次评测的文件是每支队伍中所有成员提交的文件,按提交时间取得Z后2个文件;排行榜取Z优成绩。 2.决赛阶段评选 (1)决赛答辩现场,每支队伍1-2人参与。 (2)决赛评选标准如下: 3.注意事项 我爱竞赛网赛事交流总群
976350481
商业创业比赛交流群
1167779455
设计广告比赛交流群
1037774871
科技IT类比赛交流群
1057264578
学科技能比赛交流群
375340124
选秀歌唱比赛交流群
1091233011
兴趣爱好比赛交流群
423460926
公益志愿者交流群
1141586024
青年机遇信息交流群
828150253
|