java大数据比较两个list集合的差值

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

java⼤数据⽐较两个list集合的差值
有这么个场景，每天需要定时任务插⼊增量数据。

如果通过接⼝获取的直接根据时间过滤，那么就能直接就可以插⼊库中。

但有时获取到的并不是增量数据，⽐如微信公众号获取关注者列表时，获取到的是全量数据，这样每天就得将全量数据与库中进⾏⽐较，只有库中不存在数据才进⾏插⼊。

这就有了两个list⽐较差值的问题。

以前在处理该问题时，会遍历全量中的list，然后判断每个对象是否已在数中存在，如果不存在就放到⼀个临时List中，最后返回的临时List就是增量数据了，代码如下：
private List<String> getNeedAddOpenidList(List<String> allOpenidList, List<String> dbOpenidList) {
if (dbOpenidList != null && !dbOpenidList.isEmpty()) {
List<String> resultList = new ArrayList<String>();
if (allOpenidList != null && !allOpenidList.isEmpty()) {
for (String openid : allOpenidList) {
if (!dbOpenidList.contains(openid)) {
resultList.add(openid);
}
}
}
return resultList;
} else {
return allOpenidList;
}
}
但这种在处理⼏千条数据还好，等上万、或上⼗万时，执⾏效率就会很低。

即便我后来⽤list1.removeAll(list2)时，在处理40万条数据时，10分钟根本处理不完。

后来⽤如下⽅法，瞬间完成：
private List<String> getNeedAddOpenidList(List<String> allOpenidList, List<String> dbOpenidList) {
if (dbOpenidList != null && !dbOpenidList.isEmpty()) {
Map<String, String> dataMap = new HashMap<String, String>();
for (String id : dbOpenidList) {
dataMap.put(id, id);
}
List<String> newList = new ArrayList<String>();
for (String id : allOpenidList) {
if (!dataMap.containsKey(id)) {
newList.add(id);
}
}
return newList;
} else {
return allOpenidList;
}
}
1.将数据库中的list转成⼀个map集合
2.遍历获取到的全量数据，通过主键或唯⼀索引之类的字段进⾏⽐较
3.如果map.get(key)不存在，放到⼀个临时List中
4.最后将临时List返回
如果以后有更⾼效率的⽅法，还会进⾏更新。