近日,第七届“达观杯”智能文档版面分析多模态数据处理算法竞赛颁奖典礼在市北高新园区顺利举办。本次竞赛也是“数融万物 智算未来”2023年智能分析算法专项职工劳动和技能竞赛。上海市计算机学会理事长周傲英,复旦大学计算机科学技术学院教授、上海市计算机学会多媒体专委会主任路红,达观数据首席战略官刘江贤,达观数据联合创始人纪传俊等人出席活动,并做现场报告。
本次竞赛是在市总工会、市经信委、市科协、静安区委、区政府、市大数据中心、上海数据集团指导下,由区总工会、区科协主办,市北高新集团、达观数据联合承办,由上海计算机学会、各行业协会、研究院、实验室共同组织。竞赛以《智能文档版面分析多模态数据处理》为赛题,共吸引来自230余所不同高校的算法精英632人,组成579支队伍参赛,期间选手共完成了1712次提交。经过几个月的激烈角逐,也公布了最终获奖选手。其中,来自米思米(中国)精密机械贸易有限公司的Colt团队从近千名参赛选手中脱颖而出荣获冠军。
颁发聘书
从项目的筛选评审到队伍培育再到应用落地,得到了众多行业专家的鼎力支持和专业指导,闭幕式现场为此次大赛的专家组评委颁发聘书,聘任上海市计算机学会理事长周傲英,复旦大学计算机科学技术学院教授、上海市计算机学会多媒体专委会主任路红、达观数据董事长兼CEO陈运文为市北高新大数据行业职工劳动和技能竞赛智库专家。
从左至右:静安区总工会副主席黄亚芳,达观数据联合创始人纪传俊(代陈运文领取),上海市计算机学会理事长周傲英,复旦大学计算机科学技术学院教授、上海市计算机学会多媒体专委会主任路红
签约仪式
活动现场,上海市计算机学会与市北高新集团签订了合作意向书。此次签约将进一步推动数字经济和实体经济的深度融合,加快培育高素质的创新型、应用型、复合型人才队伍,促进科技成果转化为实际生产力,为双方在数据科学、人工智能等领域的进一步合作打开新的篇章。
从左至右:上海市计算机学会理事长周傲英,复旦大学计算机科学技术学院教授、上海市计算机学会多媒体专委会主任路红,市北高新聚能湾国家级孵化器总经理黄猛、上海市北高新(集团)有限公司党委书记、董事长罗岚
主题演讲
上海市计算机学会理事长周傲英以“数据要素与数字经济——重新认识数据”为主题展开分享。他提到,在数字化转型的背景下,应该从数据之“用、术、器、道”全面正确地认识数据,认识数据是数据治理的前提,数据治理是数字经济发展的时代命题。数据在数字经济中具有巨大的价值和作用。它是数字经济的核心资源,可以为企业、政府和个人提供洞察力、创新和增长机会。数据对决策、创新和产业升级都起着关键作用。因此,为了更好地利用数据推动数字经济的发展,需要建立健全的数据集合和管理体系,加强数据分析能力,推动数据开放和共享,加强数据安全和隐私保护,以及加强数据教育和意识培养。这些措施,可以更有效地利用数据资源,促进数字经济的可持续增长,并实现更加智能和创新的经济发展。数据将继续成为数字经济时代的核心驱动力,为各个领域带来巨大的机遇和改变。
达观数据联合创始人纪传俊围绕“大语言模型与AIGC创新技术的应用落地”进行演讲分享。他介绍到达观数据作为一家智能文本处理领域内国家首家专精特新小巨人企业,自主研发、可控的智能文本处理技术——“曹植”大模型,其优势在于长文本、多语言、垂直化。为了让大模型更好的落地,达观数据也推出了曹植大模型一体机,可在企业内部一键部署。能同时为多种垂直大模型业务提供文档智能审阅、智能知识管理、知识搜索与问答、文档智能写作、智能推荐等智能化服务,支持和具备安全便捷的AI训练、推理、长文档写作、机器翻译、语义分析审核、知识问答、text-to-SQL等场景功能应用,助力企业降本增效,实现智能管控。
获奖团队一览
赛题情况概要
本届“达观杯”提供了4千余张文档版面的标注数据,并提供了OCR结果作为辅助数据,这些数据经过人工标注、校对,已经形成高质量的数据集。数据全部来自真实文档数据,包括11种类别,11种类别的数据量分布不平衡。本次比赛的评价指标为COCO AP@IoU=.50:.05:.95。从label分布和数据标注分布可以看出数据中类别目标尺寸和分布不均衡,基于图像和文本信息,可选择的技术方案也众多。
从获奖选手方案看,参赛团队主要采用类似baseline的思路,从目标检测的角度来解决问题,包括单阶段和二阶段的方案,还有的团队使用了分割模型和多模态信息。本次竞赛中,选手们普遍反映文档场景中目标尺寸的差异和类别标签的不均衡是竞赛的难点,因此大部分团队采用了基于CBNet的多模型融合策略,并精心设计数据增强方法和anchor ratio来适配文档场景,也有团队选择baseline的升级模型进行延伸探索,均取得了较好的成绩。
冠军选手报告
来自米思米(中国)精密机械贸易有限公司的冠军选手Colt团队采用了Co-DINO单模型,通过数据集增强、样本均衡和模型结构等方面的优化,相较于官方baseline取得了显著的提升。针对本次数据的类别不均衡和文档数据的特性,他们设计了适用的数据增强方案,充分展现了query-based检测模型在文档版面分析中的卓越优势。最终,他们以未进行融合和后处理的单模型取得了出色的效果,展示出了该模型在实际应用中的可靠性和实用性。
颁奖典礼
静安区总工会党组书记、副主席许俊、上海市大数据中心工会主席任委立、上海浦江数链数字科技有限公司总经理王虎、静安区科委副主任王宏彪共同为参赛获奖队伍代表现场颁奖。本次赛题获奖队伍将获得达观数据提供的评测奖金、大赛荣誉证书及奖杯。
至此,“数融万物智算未来”2023年智能分析算法专项职工劳动和技能竞赛暨第七届“达观杯”算法竞赛圆满落幕。作为国内领先的智能文本处理企业,达观数据连续七年主办全球性人工智能算法竞赛“达观杯”,在该领域引起了广泛的关注。如今,“达观杯”已经成为国内语义理解领域最重要的算法竞赛之一。达观数据坚持将技术与产业发展紧密结合,不断为各行业提供技术支持,并积极挖掘人工智能领域的优秀人才,为学术界和产业发展作出了卓越贡献。期待下一届“达观杯”再次精彩纷呈,共同见证这一盛大的科技峰会!