首页 / MONGODB / 如何在Mongodb集合中统计去重之后的数据

如何在Mongodb集合中统计去重之后的数据

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了如何在Mongodb集合中统计去重之后的数据，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1422字，纯文字阅读大概需要3分钟。

内容图文

以这个简单的集合为例，我们需要集合中包含多少不同的手机号码，首先想到的应该就是使用distinct关键字，
db.tokencaller.distinct(‘Caller‘).length
如果想查看具体的而不同的手机号码，那么可以省略后面的length属性，因为db.tokencaller.distinct(‘Caller‘)返回的是由所有去重手机号码组成的数组。
如何在Mongodb集合中统计去重之后的数据 - 文章图片

但是，这种方式对于所有情况都是满足的嘛？并不如此，如果要统计的集合记录数较大，如千万级别的，那么在这么统计的时候往往会报10044错误，提示信息“exception : distinct too big , 16mb cap”. 后面我们将通过其他方式进行解决。
另外一种方式可以使用runCommand结合distinct进行使用，
db.runCommand({"distinct":"tokencaller","key":"Caller"})
如何在Mongodb集合中统计去重之后的数据 - 文章图片

可见在values上显示了去重之后的手机号码，，看结果是一个Json格式的，于是尝试了下看看能不能取出values的大小，因为如果对于大数据量的集合来说，直接显示去重的号码明显不合适，于是尝试了下面的写法：
如何在Mongodb集合中统计去重之后的数据 - 文章图片

发现是可以的，于是对大数据量使用了这种方式看看是否能取出结果，发现不存在length属性，想了想应该跟mongodb的客户端版本有关系吧，还待验证！！！
两种方式都不行，于是试了下mapReduce方式，具体如下：
如何在Mongodb集合中统计去重之后的数据 - 文章图片

然后我们会发现，他会将查询出来的结果输出到一个称为“callerstatis”的结合，如下所示：
如何在Mongodb集合中统计去重之后的数据 - 文章图片

然后使用db.callerstatis.count()就可以知道有多少不同的手机号码了。
使用这种方式，我们同样在大数据量的集合上试了一下，可惜还是失败了！！！！（桑心T_T)，如果有谁有好的方法，麻烦也告诉我一下，小的感激不尽啊^_^

如何在Mongodb集合中统计去重之后的数据

标签：

本文系统来源：http://blog.csdn.net/majinggogogo/article/details/51339581

内容总结

以上是互联网集市为您收集整理的如何在Mongodb集合中统计去重之后的数据全部内容，希望文章能够帮你解决如何在Mongodb集合中统计去重之后的数据所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/463535.html

来源：【匿名】

【上一篇】MongoDB的下载和安装【下一篇】在MongoDB上如何进行数据的导入与导出

更多 ►

【如何在Mongodb集合中统计去重之后的数据】教程文章相关的互联网学习教程文章

mongodb中处理插入数据去重问题【图】

最近在写一个爬虫工具，将网站的数据储存到mongodb中，由于数据有重复的，所以我就在建立数据库的时候，为集合建立了索引，下面说下我的步骤，集合名称为drugitem，下面是集合截图：我要为name字段创建唯一索引，因为要保证name没有重复：就这样我运行程序发现数据比原来没有设置唯一索引时少了好多，我仔细查看发现程序在name字段重复的地方停止了，这不是我想要的结果，因为后面的数据还没有查询完成。于是我就删除了原来创建的n...

MongoDB3.2中插入数据前如何去重

场景描述：现有类似 {key:"value",key1:"value1"} 这样的文档。我使用db.collection.insertMany()将文档批量插入到集合之中，例如： db.collection.insertMany([{key:"1",key1:"value1"},{key:"2",key1:"value1"},{key:"3",key1:"value1"},…… ])；具体问题描述：我需要key的值是唯一的，在批量插入的时候自动舍弃掉有重复值的文档。我有尝试使用db.collection.createIndex({key:1},{unique:true})给这个集合添加 unique 索引，...

去重mongodb LIST【代码】

using MongoDB; using DockSample.DB; using MongoDB.Driver; using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.IO; using System.Linq; using System.Text; using System.Windows.Forms; using WeifenLuo.WinFormsUI.Docking; using MongoDB.Bson;namespace DockSample {public partial class Form2 : DockContent{public Form2(){Initiali...

mongodb中处理插入数据去重问题【图】

下面是集合截图：我要为name字段创建唯一索引，因为要保证name没有重复：就这样我运行程序发现数据比原来没有设置唯一索引时少了好多，我仔细查看发现程序在name字段重复的地方停止了，这不是我想要的结果，因为后面的数据还没有查询完成。于是我就删除了原来创建的name索引：然后remove数据，重新按照老办法重新抓取数据，这样一来数据是得到了，但是本质问题还没解决，里面含有许多重复数据，于是我使用唯一索引+去重操作得到最终...

如何在Mongodb集合中统计去重之后的数据【图】

以这个简单的集合为例，我们需要集合中包含多少不同的手机号码，首先想到的应该就是使用distinct关键字， db.tokencaller.distinct(‘Caller‘).length 如果想查看具体的而不同的手机号码，那么可以省略后面的length属性，因为db.tokencaller.distinct(‘Caller‘)返回的是由所有去重手机号码组成的数组。但是，这种方式对于所有情况都是满足的嘛？并不如此，如果要统计的集合记录数较大，如千万级别的，那么在这么统计的时候往往会...

mongodb去重操作只留一条【代码】【图】

原表记录：需要把related_type=1 and action_type=3 并且related_id相同的删掉一条。只留一个去重。db.user_action_log.aggregate([ {$match:{related_type:1,action_type:3}}, （查询条件）{$group: { _id: {related_id: ‘$related_id‘},count: {$sum: 1},dups: {$addToSet: ‘$_id‘}} （根据related_id分组，$group只会返回参与分组的字段，使用$addToSet在返回结果数组中增加_id字段） },{$match: {count: {$gt: ...

mongodb去重【代码】

, dropDups : true} # 无法使用了大概思路是，通过aggregation先group出重复的键值对并做count，之后match所有count>2的键值对，认为他们是重复的，保留其中一条，删除其余。实现代码如下:from pymongo import DeleteOne from threading import Thread from apscheduler.schedulers.blocking import BlockingScheduler from Application.Utils.Log import Logclass DupKeywordRemove:def __init__(self):models = [monde1, monde...

[置顶]如何在Mongodb集合中统计去重之后的数据【图】

比方说我们有个Mongodb集合，以这个简单的集合为例，我们需要集合中包含多少不同的手机号码，首先想到的应该就是使用distinct关键字， db.tokencaller.distinct(Caller).length 如果想查看具体的而不同的手机号码，那么可以省略后面的length属性，因为 db比方说我们有个Mongodb集合，以这个简单的集合为例，我们需要集合中包含多少不同的手机号码，首先想到的应该就是使用distinct关键字， db.tokencaller.distinct(Caller).lengt...

Spring Boot 整合——MongoDB整合4（MongoDB分组去重以及MongoDB联表查询）【代码】

文章前面关于版本依赖版本springboot 2.0.8.RELEASEmongodb 4.0.14本内容只是为了介绍mongodb最基础的使用以及配置，作为一个知名的数据库，其存在相当多的高级用法，展开来介绍内容会相当多，当然本人并非相关领域的大神，下面内容只不过整理了自己日常使用的一些积累。是对自己经验的积累，也希望能帮助后来的同学关于项目本内容也是我尝试整理工作中接触过各种工具在springboot中使用的方法。下面介绍的所有方法都已经提供了...

mongodb去重【代码】

由于某些原因，我们的MongoDB里存在重复数据，甚至已经影响到数据统计。其实在MongoDB 3.2之前可以通过索引直接去重。但这一特性在3.2版本之初已经移除。{unique : true, dropDups : true} # 无法使用了大概思路是，通过aggregation先group出重复的键值对并做count，之后match所有count>2的键值对，认为他们是重复的，保留其中一条，删除其余。实现代码如下:from pymongo import DeleteOne from threading import Thread from a...

mongodb去重操作只留一条【代码】【图】

原表记录：需要把related_type=1 and action_type=3 并且related_id相同的删掉一条。只留一个去重。db.user_action_log.aggregate([ {$match:{related_type:1,action_type:3}}, （查询条件）{$group: { _id: {related_id: $related_id},count: {$sum: 1},dups: {$addToSet: $_id}} （根据related_id分组，$group只会返回参与分组的字段，使用$addToSet在返回结果数组中增加_id字段） },{$match: {count: {$gt: 1}} ...

mongodb 数据去重脚本实现【代码】【图】

mongo客户端工具下载? https://robomongo.org/download ? 线上业务，k线展示出现问题，相同时间戳的数据多次插入导致数据不真实，后经排查发现是每次都是写的四条数据，找开发配合一起查找问题，发现是后台逻辑处理的问题 ? 需求：将重复的数据去掉，只保留一份数据 ? 客户端数据查询： ? ? ?由于表太多一张一张去删很麻烦于是写了个脚本偷懒 ? 1 #!/bin/sh2 # liyongjian5179@163.com3 #将所有的表名导出来4 mongo 192.168.11...

首页 / MONGODB / 如何在Mongodb集合中统计去重之后的数据

如何在Mongodb集合中统计去重之后的数据

内容导读

内容图文

内容总结

内容备注

内容手机端

【如何在Mongodb集合中统计去重之后的数据】教程文章相关的互联网学习教程文章

mongodb中处理插入数据去重问题【图】

MongoDB3.2中插入数据前如何去重

去重mongodb LIST【代码】

mongodb中处理插入数据去重问题【图】

如何在Mongodb集合中统计去重之后的数据【图】

mongodb去重操作只留一条【代码】【图】

mongodb去重【代码】

[置顶]如何在Mongodb集合中统计去重之后的数据【图】

Spring Boot 整合——MongoDB整合4（MongoDB分组去重以及MongoDB联表查询）【代码】

mongodb去重【代码】

mongodb去重操作只留一条【代码】【图】

mongodb 数据去重脚本实现【代码】【图】

MONGODB - 相关标签

集合 - 相关标签

数据 - 相关标签

MONGODB - 技术教程分类

MONGODB - 最新教程

MONGODB - 最热教程