词典软件GoldenDict的研究与扩展开发

Download Report

Transcript 词典软件GoldenDict的研究与扩展开发

词典软件GoldenDict
的研究与扩展开发
小组成员:
李文韬
许瑞填
赖永周
陈欣
黄鹏
开源项目背景简介




词典软件是计算机或手机上的具有词语解
释等词典查询功能的软件。
相比传统的纸质词典,词典软件具有使用
方便、快捷等特点。
当今比较著名和流行的商业类词典软件有:
金山词霸、有道词典、灵格斯词霸等。
相对于商业词典软件,开源词典软件通常
具有免费、跨平台、可定制性强的特点。
开源项目背景简介

GoldenDict

基于Qt开发的跨平台的辞典翻译软件,支持
多种格式辞典、划词查询、即指即译等多种特
色功能。
研究与扩展开发计划方案


基本思路:完善开源词典软件、利用词
典软件功能扩展开发新应用。
具体目标如下:


研究GoldenDict、StarDict等开源词典项
目的源码和开发文档、了解项目框架,完善
开发文档。
学习Qt开发,着重扩展和完善GoldenDict
项目。
研究与扩展开发计划方案

具体目标(续):

扩展的功能目标:






增加背单词学习模块
增加在线全文翻译模块
增加在线资源模块尝试
实现OCR屏幕取词技术
改进划词查询模块、模糊查询模块
…
进度安排





配置Qt与项目开发环境(10.10-10.17)
学习研究GoldenDict源代码和程序框架,
参考StarDict源码(10.18-10.31)
各组员分工开发扩展功能模块,编写文档
(11.1-12.18)
模块整合、测试(12.19-12.31)
项目总结(1.1-1.7)
人员分工





李文韬(组长):管理项目进度、参与背
单词学习模块开发
许瑞填:负责在线全文翻译模块和在线资
源模块开发
赖永周:负责屏幕OCR屏幕取词模块开发
陈欣:负责背单词学习模块开发
黄鹏:负责在线资源模块和全文划词搜索
模块开发
工作展示





OCR屏幕取词模块
在线全文翻译模块
在线资源模块
背单词学习模块
…
OCR屏幕取词模块





OCR介绍
OCR词典介绍
OCR取词翻译实现原理
OCR取词翻译功能介绍
OCR取词翻译功能的计划与发展
OCR介绍


光学字符识别(OCR,Optical Character
Recognition)是指对文本资料进行扫描,然后对
图像文件进行分析处理,获取文字及版面信息的过
程。 (via 维基百科)
OCR软件



国内中文识别最好的两家:清华TH-OCR和汉王OCR。
国外最好的两家:Nuance-OmniPage和ABBYYFineReader。
开源Tesseract-OCR
OCR词典介绍

OCR屏幕取词



有道词典2.0以上
改进版的GoldenDict
全文OCR翻译目前只有本软件实现
OCR取词翻译实现原理
OCR
ScreenCapture
*.bmp
Clipbord
*.txt
Tesseract.exe
Translate
Config.ini
• Single word
• Full Text
OCR取词翻译功能介绍

OCR截取屏幕功能

OCR单词翻译与全文翻译功能

OCR功能设置
OCR截取屏幕功能
OCR单词翻译
OCR全文翻译功能
OCR功能设置
OCR取词翻译功能的计划与发展

摄像头捕捉实物文档进行翻译

移植到手机上
在线全文翻译模块

功能简介


通过调用互联网的在线全文翻译接口来完善词
典的翻译功能
在线自动翻译API

Google翻译API
TranslateThisButton翻译API
 jQuery翻译插件



Yahoo Babel Fish翻译API
Microsoft Live Search翻译工具
在线全文翻译模块



使用Google翻译API
使用get方法调用API
工作流程
用户
语言类型信息
发送每个段落
的翻译请求
Url
网络
回应
段落文本
待翻译文本
接收翻译结果
切分段落
译文
输出
在线全文翻译模块
在线资源模块

功能简介

整合管理互联网上的学习资源
在线资源模块
背单词学习模块

需求


充分利用GoldenDict的词典资源辅助语言课
程的学习
功能



单词记忆辅助
单词学习管理
用户管理