11月9-15日,第14届国际文档分析与识别会议(international conference on document analysis and recognition, icdar2017)在日本京都举行。本届会议吸引了来自学术界、工业界500多人参加。会议程序包括正式论文宣讲、大会特邀报告、小型研讨会(workshop)、学术课程(tutorial)、竞赛等。
自动化所模式识别国家重点实验室刘成林研究员领导的模式分析与学习团队(pal团队)参加了本次会议。团队有7篇论文被录用,包括5篇口头报告论文和2篇张贴论文。会上分享了他们在文本检测、文字识别、版面分析和书写风格自适应等方面的研究进展及成果。
icdar组织的算法竞赛的成绩和相关技术历来是业界关注的焦点。pal团队参加了icdar2017的6个竞赛,获得了8项任务的第一名、2项第二名的突出成绩。具体是,在页面目标检测(page object detection)竞赛中,获得表格检测、公式检测、图形检测、物体检测全部四项任务的第一名;在中世纪文档版面分析(layout analysis for challenging medieval manuscripts)竞赛中,获得版面分析任务第一名;在视频阿拉伯文本检测与识别(arabic text detection and recognition in multi-resolution video frames)竞赛中,获得视频文本行识别任务第一名;在中文场景文本阅读(reading chinese text in the wild)竞赛中,以明显优势获得端到端识别任务第一名,并在文本检测任务中以微弱差距屈居第二名。此外,在全向视频文本阅读(robust reading challenge in omnidirectional video)竞赛中,文本定位任务的性能也是第一。
pal团队瞄准复杂版面文档、自由手写文档、自然场景文本的识别与理解,在文档图像处理、版面分析、文本检测、字符识别、文本行识别、上下文建模以及相关的模式识别与机器学习理论方法等方面开展了长期深入的研究,研制的算法和技术在金融票据识别、网络文档分析、手写文档数字化等领域产生了实际应用。为了促进学术研究和技术研发,该团队发布了1000多人书写的大型中文手写字符和文档数据库(联机 脱机数据),免费授权给几百家研究单位使用。在2010年、2011年、2013年组织了三次中文手写识别竞赛。2017年与法国拉罗切尔大学、三星中国研究院等单位合作举办了多语言场景文本检测与语种判别的竞赛,发布了包括9种语言,18000幅图像的多语言场景文本图像数据库。
近年来,中国学者在国际文档分析与识别领域产生了越来越大的学术影响。icdar2017上中国学者投稿论文数高居第一,与往届相比逐年增多。除了中科院自动化所,在icdar竞赛组织和参赛中表现活跃的国内机构还有北京大学、清华大学、华中科技大学、北京科技大学、三星中国研究院、腾讯、百度等。华中科技大学白翔教授受邀在icdar2017作大会特邀报告,展现了中国学者在此领域的影响力。
|