【CN109829139A】一种DOCDOCX格式的流式文件转换成OFD格式的版式文件的方法和装置【

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
代理人 邱晓锋
(51)Int .Cl . G06F 17/22(2006 .01)
(10)申请公布号 CN 109829139 A (43)申请公布日 2019.05.31
( 54 )发明 名称 一种DOC/DOCX格式的流式文件转换成OFD格
式的版式文件的方法和装置 ( 57 )摘要
本发明涉及一种DOC/DOCX格式的流式文件 转换成OFD格式的版式文件的方法和装置。该方 法的步骤包括:通过流式排版引擎生成与待转换 的DOC/DOCX格式的流式文档对应的流式文档内 存模型 ;通过PDF转换 引擎将生成的 流式文档内 存模型转换成PDF文档内存模型 ;采 用文档解析 排版技术将生成的PDF文档内存模型转换为OFD 文档内存模型 ;利 用生源自文库的 OFD文档内存模型输 出OFD文档。本发明可以直接将DOC/DOCX流式文 档转换为OFD版式文档,转换后的OFD版式文档既 符合版式文件标准又能保持DOC/DOCX流式文档 的原版样式。
权利要求书2页 说明书4页 附图3页
CN 109829139 A
CN 109829139 A
权 利 要 求 书
1/2 页
1 .一种DOC/DOCX格式的流式文件转换成OFD格式的版式文件的方法,其特征在于,包括 以下步骤:
通过流式排版引擎生成与待转换的DOC/DOCX格式的流式文档对应的流式文档内存模 型;
2
CN 109829139 A
权 利 要 求 书
2/2 页
括: 流式排版引擎模块,负责生成与待转换的DOC/DOCX格式的流式文档对应的流式文档内
存模型; PDF转换引擎模块,负责将生成的流式文档内存模型转换成PDF文档内存模型; 文档解析排版模块,负责将生成的PDF文档内存模型转换为OFD文档内存模型; OFD文档输出模块,负责利用生成的OFD文档内存模型输出OFD文档。 10 .一种计算机,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述
背景技术 [0002] DOC/DOCX是一种流式文档格式,是目前应用最为广泛的流式文档格式,也是日常 工作中大多数第一手文件的格式。许多历史遗留文件也多为DOC/DOCX格式。 [0003] O F D 是 一 种 版 式 文 档 格 式 ,全 称 为 开 放 式 版 式 文 档 (O p e n F i x e d - l a y o u t DOCument) ,是国家版式文档格式规范。版式文档是电子文件应用的一个重要门类,是常用 的基础办公软件之一。其具有原版原式的呈现特点,即阅读显示与印刷效果一致,真实地保 持了文档产生之初的文字、图表、色彩等版式信息 ,具有高保真的显示和打印效果。 [0004] 国家标准于2017年5月1日开始实施,未来电子公文、电子发票等都将以OFD格式的 版式文件存在。DOC/DOCX格式流式文件转换OFD格式的版式文件的应用需求将空前扩大。 [0005] 目前市面上缺少公开免费的转换工具,转换技术不成熟也成为急需解决的问题。 有关OFD格式转换的公开研究成果很少,并且多是由PDF版式文档格式转换成OFD格式,不能 直接对应用最广泛的DOC/DOCX流式文档格式进行转换。 [0006] 虽然DOC以及OFD文件相关标准已经开放,但由于流式文件缺少相应坐标信息,很 难直接转换为OFD版式文件。 [0007] 一般的流式文件转版式文件的方法,往往采用内置的规则或语法,难以灵活修改, 不能适用于DOC/DOCX多变的结构,算法封闭不开放。 [0008] 综上,一种DOC/DOCX格式的流式文档转换成OFD格式的版式文档的方法,势在必 行,显得尤为重要。
计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1至8中任 一权利要求所述方法中各步骤的指令。
3
CN 109829139 A
说 明 书
1/4 页
一种DOC/DOCX格式的流式文件转换成OFD格式的版式文件的 方法和装置
技术领域 [0001] 本发明属于计算机领域,涉及一种文档转化方法,尤其涉及一种DOC/DOCX格式的 流式文档转换成OFD格式的版式文档的方法和装置。
( 19 )中华人民 共和国国家知识产权局
( 12 )发明专利申请
(21)申请号 201910091864 .1
(22)申请日 2019 .01 .30
(71)申请人 中国软件与技术服务股份有限公司 地址 100081 北京市海淀区学院南路55号 (中软大厦)
(72)发明人 韩光 冯文化 兰静
(74)专利代理机构 北京君尚知识产权代理事务 所(普通合伙) 11200
通过PDF转换引擎将生成的流式文档内存模型转换成PDF文档内存模型; 采用文档解析排版技术将生成的PDF文档内存模型转换为OFD文档内存模型; 利用生成的OFD文档内存模型输出OFD文档。 2 .根据权利要求1所述的方法,其特征在于,所述流式排版引擎将内存中的流式文档导 入到进程地址空间中,将流式文档切入到流式文档内存模型,以便于对流式文档的处理。 3 .根据权利要求1所述的方法,其特征在于,所述PDF转换引擎利用PDF虚拟打印机技术 将流式文档内存模型转化为PDF文档内存模型。 4 .根据权利要求1所述的方法,其特征在于,所述PDF虚拟打印机技术包括: 1)通过设备驱动程序包来对打印机的驱动进行程序编写; 2)梳理打印所需要关联的接口信息,通过调用程序来实现相关的接口驱动安装; 3) 将设置好的 接口 信息对应具体的 业务 信息 ,进行链路 和逻辑链接 ,并 验证业务逻辑 层面的可行性,生成可以进行打印的文档信息; 4)将生成的文档信息与虚拟打印机进行连接,并进行文档推送。 5 .根据权利要求1所述的方法,其特征在于,所述采用文档解析排版技术将生成的PDF 文档内存模型转换为OFD文档内存模型,包括: 1)以对象为基本单位,利用PDF解析器对PDF文档内存模型进行解析得到其对应的抽象 语法树; 2) 通过先 序遍历 抽象 语法树得到PDF文 档中 包含的 对象 及 相关 信息 ,创建空白 xml文 件,将PDF对象及信息写入到xml文件; 3)导入对应的OFD文档的标准规范配置信息,将xml文件压缩生成OFD文档内存模型。 6 .根据权利要求4所述的方法,其特征在于,所述PDF对象包括目录对象、大纲对象和页 面组对象;所述PDF对象的信息包括下列中的一种或多种: a)文本信息,包括文本的内容、字体、字号、位置坐标; b) 图 片内容 信息 ,包括图 片内容的 分辨率 、图 片色域 、通道、图 层信息 、存储格式 、图 片 位置、透明度; d) 表格内容 信息 ,包括表格内容的 表头 、表格样式 、表格内容 、表格内 包含的a) 所述的 文本信息; e)几何图形内容信息,包括:矢量几何内容的数学描述、颜色、位置、图层信息、透明度、 存储格式,非矢量几何内容的b)所述的图片内容信息; f)字体内容的字体名称、字体文件。 7 .根据权利要求1所述的方法,其特征在于,将OFD文档内存模型压缩后保存于一个电 子文件的物理包中,从而转化为OFD版式文档的可见图元。 8 .根据权利要求1所述的方法,其特征在于,将OFD文档内存模型打包后以ZIP格式进行 压缩,从而转换为大纲互操作和带附件的OFD结构版式文档。 9 .一种DOC/DOCX格式的流式文件转换成OFD格式的版式文件的装置,其特征在于,包
相关文档
最新文档