日漫OCR

日语漫画的文字从右向左竖向排列,并且会带有用于注音的振假名,所以处理方式会有不同。

以下是ImageTrans中针对日漫OCR的相关功能设计。

  1. 去除振假名

勾选OCR工具栏的去除振假名,OCR时会把图像中的振假名去除。

原图:

_images/image.jpg

去除后的图:

_images/no_furigana.jpg
  1. 竖排转横排

勾选OCR工具栏的转换图片为横排,OCR时会以横排的方式重新排列文字。这样许多仅能识别横排日语的OCR引擎就也能用了。但该方法只适用于背景单一的图像。

原图:

_images/vertical.jpg

转换后的图:

_images/horizontal.jpg
  1. 启发式文字检测方法的参数设置

默认的启发式文字检测方法先横向合并,再纵向合并。OCR日漫时,可以设置为先纵向合并后横向合并,并调整纵向合并时文字行的重叠比例以避免不同段落文字被合并的问题。

  1. 从右向左阅读顺序

在项目设置中勾选此选项,合并文字区域时,会把右边的文字放在前面。

注:如果OCR能直接识别竖排日语,可以不进行竖排转横排这样的操作。