词典软件GoldenDict的研究与扩展开发
Download
Report
Transcript 词典软件GoldenDict的研究与扩展开发
词典软件GoldenDict
的研究与扩展开发
小组成员:
李文韬
许瑞填
赖永周
陈欣
黄鹏
开源项目背景简介
词典软件是计算机或手机上的具有词语解
释等词典查询功能的软件。
相比传统的纸质词典,词典软件具有使用
方便、快捷等特点。
当今比较著名和流行的商业类词典软件有:
金山词霸、有道词典、灵格斯词霸等。
相对于商业词典软件,开源词典软件通常
具有免费、跨平台、可定制性强的特点。
开源项目背景简介
GoldenDict
基于Qt开发的跨平台的辞典翻译软件,支持
多种格式辞典、划词查询、即指即译等多种特
色功能。
研究与扩展开发计划方案
基本思路:完善开源词典软件、利用词
典软件功能扩展开发新应用。
具体目标如下:
研究GoldenDict、StarDict等开源词典项
目的源码和开发文档、了解项目框架,完善
开发文档。
学习Qt开发,着重扩展和完善GoldenDict
项目。
研究与扩展开发计划方案
具体目标(续):
扩展的功能目标:
增加背单词学习模块
增加在线全文翻译模块
增加在线资源模块尝试
实现OCR屏幕取词技术
改进划词查询模块、模糊查询模块
…
进度安排
配置Qt与项目开发环境(10.10-10.17)
学习研究GoldenDict源代码和程序框架,
参考StarDict源码(10.18-10.31)
各组员分工开发扩展功能模块,编写文档
(11.1-12.18)
模块整合、测试(12.19-12.31)
项目总结(1.1-1.7)
人员分工
李文韬(组长):管理项目进度、参与背
单词学习模块开发
许瑞填:负责在线全文翻译模块和在线资
源模块开发
赖永周:负责屏幕OCR屏幕取词模块开发
陈欣:负责背单词学习模块开发
黄鹏:负责在线资源模块和全文划词搜索
模块开发
工作展示
OCR屏幕取词模块
在线全文翻译模块
在线资源模块
背单词学习模块
…
OCR屏幕取词模块
OCR介绍
OCR词典介绍
OCR取词翻译实现原理
OCR取词翻译功能介绍
OCR取词翻译功能的计划与发展
OCR介绍
光学字符识别(OCR,Optical Character
Recognition)是指对文本资料进行扫描,然后对
图像文件进行分析处理,获取文字及版面信息的过
程。 (via 维基百科)
OCR软件
国内中文识别最好的两家:清华TH-OCR和汉王OCR。
国外最好的两家:Nuance-OmniPage和ABBYYFineReader。
开源Tesseract-OCR
OCR词典介绍
OCR屏幕取词
有道词典2.0以上
改进版的GoldenDict
全文OCR翻译目前只有本软件实现
OCR取词翻译实现原理
OCR
ScreenCapture
*.bmp
Clipbord
*.txt
Tesseract.exe
Translate
Config.ini
• Single word
• Full Text
OCR取词翻译功能介绍
OCR截取屏幕功能
OCR单词翻译与全文翻译功能
OCR功能设置
OCR截取屏幕功能
OCR单词翻译
OCR全文翻译功能
OCR功能设置
OCR取词翻译功能的计划与发展
摄像头捕捉实物文档进行翻译
移植到手机上
在线全文翻译模块
功能简介
通过调用互联网的在线全文翻译接口来完善词
典的翻译功能
在线自动翻译API
Google翻译API
TranslateThisButton翻译API
jQuery翻译插件
Yahoo Babel Fish翻译API
Microsoft Live Search翻译工具
在线全文翻译模块
使用Google翻译API
使用get方法调用API
工作流程
用户
语言类型信息
发送每个段落
的翻译请求
Url
网络
回应
段落文本
待翻译文本
接收翻译结果
切分段落
译文
输出
在线全文翻译模块
在线资源模块
功能简介
整合管理互联网上的学习资源
在线资源模块
背单词学习模块
需求
充分利用GoldenDict的词典资源辅助语言课
程的学习
功能
单词记忆辅助
单词学习管理
用户管理