word域代码转换html丢失解决办法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Word转html存在域代码丢失。

Aspose ,jacob,poi都无法解决

在使用jocob转换成html时域代码会被包裹

可以统一提取出来转换成latex ,latex转换成图片,解决word域代码丢失问题

private void processFormula(List nodes) throws UnsupportedEncodingException{ for(int i = nodes.size()-1;i>=0;i--){

Node node =nodes.get(i);

if(node instanceof Element){

Element e = (Element)node;

processFormula(e.childNodes());

}else if(node instanceof Comment){

String commentText = node.toString();

if(commentText.contains("", "")

.replace((char) 10 + "", "")

.replace((char) 13 + "", "");

Document doc = Jsoup.parse(html);

Elements sups = doc.select("sup");

Elements subs = doc.select("sub");

//纠正上标

for(Element sup:sups){

String text = sup.text();

sup.tagName("span");

sup.text("\\s("+text+", )");

}

//纠正下标

for(Element sub:subs){

String text = sub.text();

sub.tagName("span");

sub.text("\\s( ,"+text+")");

}

String eqtext = doc.body().text();

eqtext = mergeSubSup(eqtext);

相关文档
最新文档