mongodb海量数据CRUD优化
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
mongodb海量数据CRUD优化
1. 批量保存优化
避免⼀条⼀条查询,采⽤bulkWrite, 基于ReplaceOneModel,启⽤upsert:
public void batchSave(List<?> spoTriples, KgInstance kgInstance) {
MongoConverter converter = mongoTemplate.getConverter();
List<ReplaceOneModel<Document>> bulkOperationList = spoTriples.stream()
.map(thing -> {
org.bson.Document dbDoc = new org.bson.Document();
converter.write(thing, dbDoc);
ReplaceOneModel<org.bson.Document> replaceOneModel = new ReplaceOneModel(
Filters.eq(UNDERSCORE_ID, dbDoc.get(UNDERSCORE_ID)),
dbDoc,
new UpdateOptions().upsert(true));
return replaceOneModel;
})
.collect(Collectors.toList());
mongoTemplate.getCollection(getCollection(kgInstance)).bulkWrite(bulkOperationList);
}
2. 分页优化
经常⽤于查询的字段,需要确保建⽴了索引。
对于包含多个键的查询,可以创建符合索引。
2.1 避免不必要的count
查询时,⾛索引,速度并不慢,但是如果返回分页Page<?>,需要查询totalcount,当单表数据过⼤时,count会⽐较耗时,但是设想意向,你真的需要准确的数字吗?
在google、百度等搜索引擎搜索关键词时,只会给你有限的⼏个结果,因此,我们也不必给出准确的数字,设定⼀个阈值,⽐如1万,当我们发现总量⼤于1万时,返回1万,前端显⽰⼤于1万条即可。
原理也很鉴定啊,我们skip掉MAX_PAGE_COUNT,看是否还有数据,如果有就说明总量⼤于MAX_PAGE_COUNT,返回MAX_PAGE_COUNT即可,否则,计算真正的count。
int MAX_PAGE_COUNT = 10000;
/**
* 当总数⼤于阈值时,不再计算总数
*
* @param mongoTemplate
* @param query
* @param collectionName
* @return
*/
private long count(MongoTemplate mongoTemplate, Query query, String collectionName) {
query = query.with(PageRequest.of(MAX_PAGE_COUNT, 1));
if (mongoTemplate.find(query, Thing.class, collectionName).size() > 0) {
return MAX_PAGE_COUNT;
}
return mongoTemplate.count(query, collectionName);
}
前端显⽰:
2.2 避免过多的skip
分页不过避免需要先跳过⼀些数据,这个过程是需要消耗时间的,可以通过⼀个⼩技巧避免跳过。
⽐如,显⽰列表时,排序为按最后修改时间倒序,每页显⽰100条,现在要显⽰第100页。
按照正常的做法,需要跳过99*100条数据,⾮常⼤的代价。
换⼀个⾓度思考,因为数据是有序的,因此第100页的数据的最后修改时间是⼩于第99页最⼩的修改时间,查询时加上这个条件,就可以直接取符合条件的前100条即可。
3. 全量导出优化
3.1 去掉不需要的字段
查询时,指定真正有⽤的字段,这样可以有效减少数据传输量,加快查询效率。
例如:
Query query = new Query();
query.fields().include("_id").include("name").include("hot").include("alias");
3.2 避免使⽤findAll或者分页查询,改⽤stream
全量导出有两个误区,⼀是直接findAll,当数据量过⼤时,很容易导致服务器OutofMermory,就算没有OOM,也会对服务器造成极⼤的负载,影响兄弟服务。
另外,FindAll⼀次性加载数据到内存,整个速度也会⽐较慢,需要等待所有数据进⼊内存后才能开始处理。
另外⼀个误区是,分页查询,依次处理。
分页查询可以有效减少服务器负担,不失为⼀种可⾏的⽅法。
但是就和上⾯分页说的那样,分页到后⾯的时候,需要skip掉前⾯的数据,存在⽆⽤功。
稍微好⼀点的做法就是按照之前说的,将skip转换为condtion,这种⽅式效率OK,但不推荐,存在代码冗余。
Page<Thing> dataList = entityDao.findAllByPage(kgDataStoreService.getKgCollectionByKgInstance(kg), page);
Map<String, Individual> thingId2Resource = new ConcurrentHashMap<>();
appendThingsToModel(model, concept2OntClass, hot, alias, dataList, thingId2Resource);
while (dataList.hasNext()) {
page = PageRequest.of(page.getPageNumber() + 1, page.getPageSize());
dataList = entityDao.findAllByPage(kgDataStoreService.getKgCollectionByKgInstance(kg), page);
appendThingsToModel(model, concept2OntClass, hot, alias, dataList, thingId2Resource);
}
更推荐的做法是,采⽤mongoTemplate的steam⽅法,返回CloseableIterator迭代器,读⼀条数据处理⼀条数据,实现⾼效处理:
@Override
public <T> CloseableIterator<T> stream(final Query query, final Class<T> entityType, final String collectionName) {
return doStream(query, entityType, collectionName, entityType);
}
改⽤⽅法后,代码可以更简化⾼效:
CloseableIterator<Thing> dataList = kgDataStoreService.getSimpleInfoIterator(kg);
// 实体导⼊
// Page<Thing> dataList = entityDao.findAllByPage(kgDataStoreService.getKgCollectionByKgInstance(kg), page); Map<String, Individual> thingId2Resource = new ConcurrentHashMap<>();
appendThingsToModel(model, concept2OntClass, hot, alias, dataList, thingId2Resource);
待续。