基于笔端 形状 相似性的汉字字体识别
DESCRIPTION
基于笔端 形状 相似性的汉字字体识别. 王晓 1,2 ,吕肖庆 1,2 ,汤帜 1,2 1 北京大学计算机科学技术研究所 2 数字出版技术国家重点实验室 ( 北大方正集团有限公司 ) E-mail : [email protected]. 提纲. 背景及研究现状 笔端提取 笔端形状描述 字体相似性度量 实验与分析 总结. 背景及研究现状. 字体识别 文档电子化 光学字符识别( OCR ) 版面分析、理解、恢复 新需求 厂商希望保护版权 设计师和用户“按形找字” 大规模集合上的字体识别. 背景及研究现状. 相关概念 输入 文本块图像 - PowerPoint PPT PresentationTRANSCRIPT
• 背景及研究现状• 笔端提取• 笔端形状描述• 字体相似性度量• 实验与分析• 总结
提纲
2
背景及研究现状背景及研究现状
字体识别字体识别•文档电子化
– 光学字符识别( OCR )– 版面分析、理解、恢复
•新需求– 厂商希望保护版权– 设计师和用户“按形找字”– 大规模集合上的字体识别
3
背景及研究现状背景及研究现状
相关概念相关概念•输入– 文本块图像– 单字图像
•输出– 字体属性
• 字体名称:如方正剪纸、方正水黑• 样式:正规、粗体、倾斜、粗斜等
4
背景及研究现状背景及研究现状
字体识别方法的分类–文本相关 / 文本无关–基于文本块 / 基于单字
5
• 基于文本块– Gabor 变换– 笔画分布• 基于单字符– 小波变换– 笔画模板– 特征点
字体与笔端相似性字体与笔端相似性
6
背景及研究现状背景及研究现状
背景及研究现状背景及研究现状
字体识别流程字体识别流程
7
多个汉字图像
字体特征笔端集合
待识别的单字图像
笔端提取 笔端描述
计算聚类中心
笔端与特征笔端间的相似度
字体识别结果
• 背景及研究现状• 笔端提取笔端提取• 笔端形状描述• 字体相似性度量• 实验与分析• 总结
提纲
8
笔端提取笔端提取
• 笔端– 笔画的起始与收尾– 占笔画一定比例– 点笔画和某些转折
• 如何精确计算– 笔画起始与收尾– 截断位置– 截断方式
9
笔端提取笔端提取
• 笔画模板 (前人工作)
• 希望笔端
10
与形状相关的阈值
笔端提取笔端提取
笔端与骨架的关系
•笔端起始点– 骨架端点
•笔端截断点– 骨架分叉点
11
• 借助骨架会有什么问题?
笔端提取笔端提取
12
• 分叉与毛刺问题
笔端提取笔端提取
13
笔端提取笔端提取
• 笔画长宽比问题
14
笔端提取笔端提取
• 动态计算长宽比( Stroke Aspect Ratio , SAR )
15
(a) (b)
笔端提取笔端提取
• 取取 SAR=1SAR=1 时的截取效果时的截取效果
16
• 背景及研究现状• 笔端提取• 笔端形状描述笔端形状描述• 字体相似性度量• 实验与分析• 总结
提纲
17
笔端形状描述笔端形状描述
• 笔端描述子的构造– 基于基于多尺度曲率直方图的傅里叶描述子
…… ……
18
笔端形状描述笔端形状描述
19
• 背景及研究现状• 笔端提取• 笔端形状描述• 字体相似性度量字体相似性度量• 实验与分析• 总结
提纲
20
字体相似性度量字体相似性度量
采用欧式距离计算特征相似度采用欧式距离计算特征相似度采用支持向量机(采用支持向量机( SVMSVM )进行训练与识)进行训练与识别别
21
• 背景及研究现状• 笔端提取• 笔端形状描述• 字体相似性度量• 实验与分析实验与分析• 总结
提纲
22
实验与分析实验与分析
• 常用字体数据集– 宋体、仿宋、黑体、楷体、隶书– 正规、粗体、倾斜、粗斜– 字号: 18– 扫描分辨率: 1200dpi
• 参数设置– sar: 1– SDST
• 5 个尺度,每个尺度 100 维
23
实验与分析实验与分析
• 常用字体集合测试结果• 五种方式划分测试集
识别方法 测试文本块数
文本块含字符数
平均识别率( % )
测试一 基于笔端 200 1 74.96
测试二 基于笔端 100 2 87.23
测试三 基于笔端 50 4 95.05
测试四 基于笔端 40 5 95.75
测试五 基于笔端 20 10 98.88
对比方法 基于笔画模版 20 20-30 98.75
24
实验与分析实验与分析
• 扩展字体数据集– 23 种字体– 字号:初号– 保存清晰度: 600dpi
• 参数设置– sar: 1– SDST
• 5 个尺度,每个尺度 100 维• 特征笔端数量: 50
25
实验与分析实验与分析
26
字体 识别率 字体 识别
率 字体 识别率 字体 识别率
宋体 99.67 仿宋 98.67 黑体 95.33 楷体 98.00
幼圆 98.67 隶书 73.67 华文新魏 64.00 方正胖
娃 81.00
方正剪纸 71.33 方正少
儿 97.33 方正水黑 80.33 方正北
魏楷书 98.00
方正超粗黑简 83.33 方正古
隶 79.00 方正琥珀 87.33 方正华
隶 90.00
方正铁筋隶书 95.67 方正雅
艺 98.67 方正姚体 92.67 方正毡
笔黑 89.33
方正大标宋 88.00 方正粗
倩 88.33 方正美黑 87.00
整体识别率88.49%
总结与展望总结与展望
• 字体特征– 较少的特征笔端表示字体– 与人们视觉感知接近的笔端结构
• 较大规模字体集合– 有较好的识别效果
• 未来研究方向– 小字号的轮廓获取– 加入笔画宽度的分布
27
28