首页 / NOSQL / mysql-使用哪个NoSql存储数十亿个整数对数据？

mysql-使用哪个NoSql存储数十亿个整数对数据？

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了mysql-使用哪个NoSql存储数十亿个整数对数据？，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1458字，纯文字阅读大概需要3分钟。

内容图文

现在我在Mysql中有3列的表.

DocId             Int
Match_DocId       Int
Percentage Match  Int

我正在存储文档ID以及其几乎重复的文档ID和百分比,以表明两个文档的匹配程度.

因此,如果一个文档有100个几乎重复的副本,则该特定文档有100行.

目前,此表有10亿条记录,共1400万个文档.
我预计文档总数将达到3000万.这意味着我存储几乎重复信息的表将超过50亿行,甚至可能更多. (几乎所有重复数据与总文档集相比呈指数增长)

这是我遇到的几个问题：

>在mysql表中获取所有记录会花费很多时间.
>查询也要花费很多时间.

这是我运行的一些查询：

>检查特定文件是否几乎重复. (这相对较快,但仍然很慢)
>检查给定的文档集,每个百分比范围(百分比范围是86-90、91-95、96-100)中有几近重复？

该查询花费大量时间.大多数情况下,它会失败.我要按百分比列分组.

可以使用任何可用的NoSql解决方案进行管理吗？

我对NoSql解决方案的SQL查询支持表示怀疑,因为我在查询数据时需要分组支持.

解决方法:

的MySQL

您可以尝试使用当前的MySql解决方案进行分片,即将大型数据库拆分为较小的独特数据库.这样做的问题是您一次只能使用一个分片,这会很快.如果您打算在多个分片上使用查询,那将非常缓慢.

NoSql

Apache Hadoop堆栈值得一看.有几种系统可以让您执行稍有不同的查询.好的一点是,它们之间往往都可以很好地互操作.

Check if particular document has any near duplicate. (this is
relatively fast, but still slow)

HBase可以在大桌子上完成这项工作.

Check for given set of documents, how many near duplicates are there
in each percentage range ? (Percentage range is 86-90, 91-95 , 96-100)

这应该很适合Map-Reduce

还有许多其他解决方案,有关其他NoSql数据库的列表和简要说明,请参见this link.

内容总结

以上是互联网集市为您收集整理的mysql-使用哪个NoSql存储数十亿个整数对数据？全部内容，希望文章能够帮你解决mysql-使用哪个NoSql存储数十亿个整数对数据？所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/880676.html

来源：【匿名】

【上一篇】nosql数据库与sql数据库【下一篇】关于NoSQL与SQL的区别

更多 ►

【mysql-使用哪个NoSql存储数十亿个整数对数据？】教程文章相关的互联网学习教程文章

Redis：高性能的NOSQL系列的非关系型数据库【图】

1.1 关系型数据库：mysql、oracle ...存储形式：有表的概念数据之间有关联关系数据存储在硬盘的文件上1.2 非关系型数据库：redis、hbase ...存储形式：键值对（key：value）数据之间没有关联关系数据存储在内存中1.3 redis的下载：解压即用官网：https://redis.io中文网：http://www.redis.net.cn 1.4 命令操作注：获取所有值：lrange key 0 -1 1.5 持久化1.6 Jedis的使用1.7 Jedis操作各种redis中的数据结构：redis命令都可用字符...

dotnet core 使用 MongoDB 进行高性能Nosql数据库操作【图】

好久没有写过Blog, 每天看着开源的Java社区流口水, 心里满不是滋味. 终于等到了今年六月份 dotnet core 的正式发布, 看着dotnet 社区也一步一步走向繁荣, 一片蒸蒸日上的大好景象. 不在绑定Windows, 相信众位dotneter的春天就要来了废话不多说, 早就对dotnet core 跃跃欲试, 手头一个新项目也正计划使用dotnet core来开发. 正好自己做做调研, 就与大家分享一点使用MongoDB的经验.首先, 安装VS Code, 并安装C#插件, 官网地址, 我把...

解读NoSQL数据库的四大家族[转]

原文地址：http://database.51cto.com/art/201109/291781.htm在目前的企业IT架构中，系统管理员以及DBA都会考虑使用NoSQL数据库来解决RDBMS所不能解决的问题，特别是互联网行业。传统的关系型数据库主要以表(table)的形式来存储数据，而无法应对非结构化数据的挑战。在进行数据标准化的过程中，关系型数据库性能遭遇了瓶颈。NoSQL顾名思义就是Not-Only SQL，它可以作为关系型数据库的良好补充。在TechTarget数据库之前的报道中，我...

SSDBJ 一款支持SSDB NoSQL数据库集群的驱动

ssdbj SSDBJ是一款支持SSDB NoSQL数据库集群的驱动。功能： 1、ssdb数据库连接池 2、支持多个SSDB数据库的master-slave集群 3、支持集群内部的master和slave的负载均衡，负载均衡暂时支持4中方式（Random round_robin round_robin_weight random_weight） 4、实现了读写分离 5、支持集群内slave获取not_found的情况下从master再次直接获取 6、支持同步未完成时slave读取error的情况下，从master尝试或者重复在slave中尝试。尝试次...

Nosql数据库分类

一.KV存储　　包括：Redis,Memcached　　特点：使用key快速查到其value，Memcached支持string类型的value,Redis除string类型外还支持set,hash,sort set等类型二.文档存储　　包括：MongoDB,CouchDB　　特点：使用JSON或者类JSON的BSON数据结构，存储内容为文档类型，能实现部分关系型数据库的功能三.列存储　　包括：HBase,Cassandra　　特点：按照列进行数据存储，便于存储结构化和半结构化的数据方便做数据压缩和针对某一列或某几...

2013最常用的NoSQL数据库

摘要：与关系数据库相比，每个NoSQL都有自己不同的适用场景，这里带大家盘点文档数据库、图数据库、键值数据存储、列存储数据库与内存数据网络等领域的常用的NoSQL。在几年内，NoSQL数据库一直以性能、可扩展性、灵活的模式和分析能力聚焦着人们的注意力。尽管关系型数据库对于某些用例来说仍是一个不错的选择，就像结构数据和要求ACID事务的应用，但是NoSQL在以下用例中将更具优势：存储的数据实质上是半结构化或者松散的。要求...

主流 NoSQL 数据库常见应用场景详解

一、导读对比传统关系型数据库，NoSQL有着更为复杂的分类——键值、面向文档、列存储以及图数据库。这里就带你一览NoSQL各种类型的适用场景及一些知名公司的方案选择。在过去几年，关系型数据库一直是数据持久化的唯一选择，数据工作者考虑的也只是在这些传统数据库中做筛选，比如SQL Server、Oracle或者是MySQL。甚至是做一些默认的选择，比如使用.NET的一般会选择SQL Server；使用Java的可能会偏向Oracle，Ruby是MySQL，Python...

几种NoSQL数据库概述

一，关系数据库关系数据库有强大的SQL功能和ACID的属性。关系型数据库的优点大概有以下：①可以通过事务来保持数据的一致性，并且，如银行转账可以通过数据库锁来实现②可以进行多表的join连接③20多年的发展历史，比较成熟④可以应用于各种各样的系统中但也存在以下几个缺点①关系数据库存储的是行记录，无法存储数据结果。以微博的关注为例，关注的人是一个用户ID列表，通过这个ID去用户表查询，然后进行数据拼接，最后展示。再比...

NoSQL数据模型详解（二）の文档模型

背景“文档”是文档数据库中的主要概念。此类数据库可存放并获取文档、其格式可以是XML、JSON、BSON等。这些文档具备子属性、呈现树状数据结构，可以包含映射表、集合和纯量值。数据库中的文档彼此相似，但不必完全相同。文档数据库所存放的文档，就相当于键值数据库所存放的“值”。文档数据库可以视为其值可查的键值数据库。流行的文档数据库有：MongoDB、CouchDB、Terrastore、OrientDB、RavenDB。一致性为了在Mongodb数据库中确...

大约SQL/NoSQL数据库搜索/思考查询

转载请注明出处：jiq?钦‘s technical BlogHbase特征：近期在学习Hbase。Hbase基于行健是建立了索引的，查询速度会很快，全然实时。可是Hbase要基于行健之外的字段进行查询。那么就仅仅能是全盘扫描，基本上不可接受。所以Hbase一般来说会针对详细的应用场景来设计行健，利用基于行健的查询的实时性来达到Hbase数据的实时查询。关系型数据库基于索引字段的实时查询：然后联想到关系型SQL数据库，他们针对主键是建立了B/B+/B-树索引...

为什么SQL正在击败NoSQL，这对未来的数据意味着什么（转载)【图】

为什么SQL正在击败NoSQL，这对未来的数据意味着什么 : http://geek.csdn.net/news/detail/238939译者注：经过多年的沉寂之后，今天的SQL正在复出。缘由如何？这对数据社区有什么影响？看看本文的分析。以下为译文。自从可以利用计算机做事以来，我们一直在收集的数据以指数级的速度在增长，因此对于数据存储、处理和分析技术的要求也越来越高。在过去的十年里，由于SQL无法满足这些要求，软件开发人员就抛弃了它，NoSQL也就因此...

Poseidon 系统是一个日志搜索平台——认证看链接ppt，本质是索引的倒排列表和原始日志数据都存在HDFS，而文档和倒排的元数据都在NOSQL里，同时针对单个filed都使用了独立索引，使用MR来索引和搜索

Poseidon 系统是一个日志搜索平台，可以在百万亿条、100PB 大小的日志数据中快速分析和检索。360 公司是一个安全公司，在追踪 APT（高级持续威胁）事件，经常需要在海量的历史日志数据中检索某些信息，例如某个恶意样本在某个时间段内的活动情况。在 Poseidon 系统出现之前，都是写 Map/Reduce 计算任务在 Hadoop 集群中做计算，一次任务所需的计算时间从数小时到数天不等，大大制约了 APT 事件的追踪效率。Poseidon 系统就是解决这...

NoSQL反模式 - 文档数据库篇【图】

我们设计关系数据库Schema的都有一套完整的方案，而NoSQL却没有这些。半年前笔者读了本《SQL反模式》的书，觉得非常好。就开始留意，对于NoSQL是否也有反模式？好的反模式可以在我们设计Schema告诉哪里是陷阱和悬崖。NoSQL宣传的时候往往宣称是SchemaLess的，这会让人误解其不需要设计Schema。但如果不意识到设计Schema的必要，陷阱就在一直在黑暗中等着我们。这篇文章就总结一些别人的，也有自己犯过的深痛的设计Schema错误。NoSQ...

NOSQL 数据库的四大类型

1 键值数据库相关产品：Redis、Riak、SimpleDB、Chordless、Scalaris、Memcached 应用：内容缓存优点：扩展性好、灵活性好、大量写操作时性能高缺点：无法存储结构化信息、条件查询效率较低使用者：百度云（Redis）、GitHub（Riak）、BestBuy（Riak）、Twitter（Ridis和Memcached）2 列族数据库相关产品：BigTable、HBase、Cassandra、HadoopDB、GreenPlum、PNUTS 应用：分布式数据存储与管理优点：查找速度...

NOSQL - 相关标签

nosql数据库 nosql数据库有哪些

NOSQL - 最热教程

3大主流NoSQL数据库性能对比测试报告传统的关系型数据库与NOSQL数据库间的对...无模式数据库NoSQL讲解开源软件：NoSql数据库 - 图数据库 Cas...NoSQL之redis之哨兵服务 Redis（一）：NoSQL入门和概述 NoSQL文档型存储数据库—MongoDB 主流的NoSQL数据库--MongoDB权限设置的...NoSql概述 NoSQL之Redis对zset(有序集合)数据类型...

首页 / NOSQL / mysql-使用哪个NoSql存储数十亿个整数对数据？

mysql-使用哪个NoSql存储数十亿个整数对数据？

内容导读

内容图文

内容总结

内容备注

内容手机端

【mysql-使用哪个NoSql存储数十亿个整数对数据？】教程文章相关的互联网学习教程文章

Redis：高性能的NOSQL系列的非关系型数据库【图】

dotnet core 使用 MongoDB 进行高性能Nosql数据库操作【图】

解读NoSQL数据库的四大家族[转]

SSDBJ 一款支持SSDB NoSQL数据库集群的驱动

Nosql数据库分类

2013最常用的NoSQL数据库

主流 NoSQL 数据库常见应用场景详解

几种NoSQL数据库概述

NoSQL数据模型详解（二）の文档模型

最新统计排名前十的SQL和NoSQL数据库排行榜【图】

大约SQL/NoSQL数据库搜索/思考查询

为什么SQL正在击败NoSQL，这对未来的数据意味着什么（转载)【图】

Poseidon 系统是一个日志搜索平台——认证看链接ppt，本质是索引的倒排列表和原始日志数据都存在HDFS，而文档和倒排的元数据都在NOSQL里，同时针对单个filed都使用了独立索引，使用MR来索引和搜索

NoSQL反模式 - 文档数据库篇【图】

NOSQL 数据库的四大类型

MYSQL - 相关标签

NOSQL - 相关标签

数据 - 相关标签

NOSQL - 最新教程

NOSQL - 最热教程