漫画图像版面理解技术

漫画作为一种特殊的休闲娱乐类出版物，通常由简单形象的绘画内容和少量的文字构成，深受不同国家各年龄段阅读者的喜爱。随着移动终端(如智能手机、平板电脑、电子书阅读器)的普及，越来越多的读者开始基于移动终端阅读漫画电子内容，漫画移动阅读已成为漫画出版产业的发展趋势，出现了大量的漫画内容网站以及相应的APP阅读软件（如Apple store里的漫画控、Comic glass，Android应用市场里的卡布漫画、有妖气漫画等）。然而，现有的漫画电子出版物及以往大量的历史纸质出版物通常按照纸质媒介的大小进行排版设计，受漫画内容及排版布局、移动终端屏幕大小及分辨率的限制，无法在移动终端上清晰完整地展示。为了解决该问题，北京大学计算机科学技术研究所“网络内容保护与文档处理实验室”师生通过近几年的攻关，研究出了漫画图像版面理解技术，对该问题提出了有效的解决方案。

目前已完成核心算法的封装，并开发了基于该技术的漫画图像移动阅读内容加工软件，可以自动地对漫画书进行分镜分割并进行阅读顺序排序再辅以人工校对和修改，最后可以将漫画图像内容以及分镜分割、阅读顺序排序结果打包封装成一个电子文档。目前支持的封装格式有CEBX格式的电子文档（可自适应地支持多种尺寸的终端屏幕下的阅读），符合新闻出版行业标准“数字阅读终端呈现格式”（CY/T 88-2013）。

目前国内外对漫画版面理解技术进行研究的主要为日本、法国、西班牙以及中国的几个研究组，从公开发表的论文来看，我们的研究成果处于世界领先的水平，从近期的大规模数据（超过1万张不同国别不同风格的漫画页面）测试结果来看，我们的算法对分镜分割的检出率与准确率均超过90%，对对白气泡/文字块的检出率与准确率均超过85%，由于我们的算法采用了以深度学习为代表的机器学习算法，随着我们的训练数据的增加，我们算法的性能还将进一步提升。我们针对漫画页面图像的排版特点，采用了基于分镜分割的漫画移动阅读解决方案：先将漫画页面分割成一个个分镜，并按它们之间的阅读顺序进行排序，当在屏幕尺寸较小的手机屏幕上进行显示时，可以不再整页地显示，而是按分镜粒度来进行显示，按分镜的顺序播放漫画内容。为了实现该方案，我们综合使用规则、条件随机场以及深度学习算法、研究出了漫画图像分镜自动分割算法以及相应的分镜阅读顺序识别技术，能够较好地实现漫画图像分镜自动分割以及按阅读顺序自动排序。进一步地，为了满足用户在较小移动终端屏幕上看清漫画对白文字的需求（如图2所示），以及为将来漫画有声阅读、对白文字自动翻译等新的漫画阅读应用提供技术保障，我们综合使用规则及深度学习算法、研究出了漫画对白气泡/文字块识别技术，能够较好地定位漫画中的对白气泡/文字块。