word域代码转换html丢失解决办法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Word转html存在域代码丢失。
Aspose ,jacob,poi都无法解决
在使用jocob转换成html时域代码会被包裹
可以统一提取出来转换成latex ,latex转换成图片,解决word域代码丢失问题
private void processFormula(List
Node node =nodes.get(i);
if(node instanceof Element){
Element e = (Element)node;
processFormula(e.childNodes());
}else if(node instanceof Comment){
String commentText = node.toString();
if(commentText.contains("", "")
.replace((char) 10 + "", "")
.replace((char) 13 + "", "");
Document doc = Jsoup.parse(html);
Elements sups = doc.select("sup");
Elements subs = doc.select("sub");
//纠正上标
for(Element sup:sups){
String text = sup.text();
sup.tagName("span");
sup.text("\\s("+text+", )");
}
//纠正下标
for(Element sub:subs){
String text = sub.text();
sub.tagName("span");
sub.text("\\s( ,"+text+")");
}
String eqtext = doc.body().text();
eqtext = mergeSubSup(eqtext);