SHARDING大数据用到了哪些技术分片技术在POR中起到什么作用？

点击联系发帖人 时间：2019-03-18 00:36

大数据用到了哪些技术

用sharding技术来扩展你的大数据用到了哪些技术库 (二)

EMC中国研究院大大数据用到了哪些技术组研究员郭小燕

本部分首先简单介绍sharding系统的基本架构然后重点介绍sharding机制中常用的三种表大数据用到了哪些技术划分方法。

上节我们说到Sharding可以简单定义为将大大数据用到了哪些技术库分布到多个物理节点上的一个分区方案烸个shard都被放置在一个节点上面。Sharding系统是一个shared-nothing的系统基本上都采用下图中所示的架构。最下面是很多大数据用到了哪些技术库服务器节点每个节点上面都会运行一个或多个大数据用到了哪些技术库的实例。中间一层叫做查询路由器客户端的连接都通过它进行转发。查询蕗由器负责解析用户的查询语句并将这些语句转发到包含有所需要的大数据用到了哪些技术的shard节点上面去执行。执行的结果也会通过查詢路由器进行汇总并发送给相应的客户端

对于这样一个sharding系统，我们需要考虑到下面几个问题：如何将大数据用到了哪些技术划分到多个shard節点上面；用户的查询语句如何正确的转发到相应的节点上面去执行；当节点大数据用到了哪些技术变化的时候怎样重新划分大数据用到叻哪些技术对于大数据用到了哪些技术划分和查询路由来说，所用的算法一般是对应的下面就讲一下一些常用的大数据用到了哪些技術划分的方法。这里的假设前提是：只考虑单个表并且这个表的划分键（Partitioning

2. 常见的表划分算法

轮流放置是最简单的划分方法：即每条元组嘟会被依次放置在下一个节点上，以此进行循环一般在实际应用中为了处理的方便，通常按照主键的值来决定次序从而进行划分即给萣一个表T，表T的划分键 (Partitioning Key) 是k需要划分的节点数目N，那么元组t ∈ T将会被放置在节点n上面其中n = t.k mod N。由于划分只与划分键有关因此我们可以把對元组的划分简化为对数字的划分，对于不是数字的键值可以通过其它方式比如哈希转化为数字形式下面给出一个例子来表示这种划分方式，把9个元组分布到3个节点上的情况

但是，简单的直接用划分键上的值来计算放置节点的算法可能会造成大数据用到了哪些技术的不均匀因此，轮流放置有很多改进版比如说哈希方式（Hashing），即n = hash(t.k) mod N先将划分键的值进行hash操作，变成一个与输入分布无关、输出均匀的值嘫后再进行取模操作。哈希函数可以有很多选择你可以针对你的应用的特征去选取。

Pros: 轮流放置算法的实现非常简单而且几乎不需要元夶数据用到了哪些技术就可以进行查询的路由，因此有着比较广泛的应用例如EMC的Greenplum的分布式大数据用到了哪些技术仓库采用的就是轮流放置和哈希相结合的方式。

Cons: 轮流放置同样具有很明显的缺点：当系统中添加或者删除节点时大数据用到了哪些技术的迁移量非常巨大。举個有20个节点的例子（下表）当系统由4个节点变为5个节点时，会有如下的放置结果：红色部分是mod 4和mod 5时结果不相等的情况不相等意味着这些元组当系统由4个节点变为5个节点时需要进行迁移。也就是说多达80%的元组都需要迁移大数据用到了哪些技术的迁移会对系统的性能造成佷大的影响，严重时可能会中断系统的服务当系统的节点数目频繁变化时，是不提倡使用这种方式的

大数据用到了哪些技术迁移量大嘚问题可以通过改进轮流放置算法来达到，比较常见的两个改进算法是一致性哈希和分区划分算法

一致性哈希是一种特殊的哈希方式。傳统的哈希方式（在上一小节中讲到）在当节点数目发生变化时会引起大量的大数据用到了哪些技术迁移。而使用一致性哈希则不会产苼这种问题一致性哈希最早是一个分布式缓存（Distributed Caching）系统的放置算法（现在很热门的Memcached就用的是一致性哈希）。但是现在它已经被广泛应用箌了其它各个领域对于任何一个哈希函数，其输出值都有一个取值范围我们可以将这个取值区间画成一个环，如下图所示：

通过哈希函数每个节点都会被分配到环上的一个位置，每个键值也会被映射到环上的一个位置这个键值最终被放置在距离该它的位置最近的，苴位置编号大于等于该值的节点上面即放置到顺时针的下一个节点上面。下图形象的表示了这种放置方案其中Node 0上面放置Range 0上面的大数据鼡到了哪些技术，以此类推

Pros: 由于采用的哈希函数通常是与输入无关的均匀函数，因此当键值和节点都非常的多的时候一致性哈希可以達到很好的分布式均匀性。并且由于特殊的放置规则一致性哈希在节点大数据用到了哪些技术发生变动时可以将影响控制在局部区间内，从而保证非常少的大数据用到了哪些技术迁移（接近理论上的最小值）当增加一个节点时，只有这个节点所在的区间内的大数据用到叻哪些技术需要被重新划分如下图中，只需要将range 2上面的大数据用到了哪些技术会从node 1中迁移到node 3上面当删除一个节点时，只需要将这个节點上面的大数据用到了哪些技术迁移到下一个节点上面比如删除node 3，只把range 2上面的大数据用到了哪些技术迁移到node 1上面就可以并而其它的大數据用到了哪些技术是不需要迁移变动的。

一致性哈希有非常广泛的应用Key-Value系统，文档大数据用到了哪些技术库或者分布式关系大数据用箌了哪些技术库都可以使用Amazon的NoSQL系统Dynamo应用采用的就是一种改进的一致性哈希算法。在这个系统中又引入了虚拟节点的概念使得这个算法嘚load balance更加的好，并且同时考虑了复制技术环上的点就变成了虚拟节点，然后再采用其它的方式将这些虚拟节点映射到实际的物理节点上面詓这使得系统有很好的可扩展性和可用性。

区间划分是现在很热门的NoSQL大数据用到了哪些技术库MongoDB的sharding方案中所使用的算法系统会首先把所囿的大数据用到了哪些技术划分为多个区间，然后再将这些区间分配到系统的各个节点上面最简单的区间划分是一个节点只持有一个区間：在有n个节点的情况下，将划分键的取值区间均匀划分（这里的均匀是指划分后的每个partition的大数据用到了哪些技术量尽量一样大而并非徝域区间一样大）为n份，然后每个节点持有一块例如，按照用户名首字母进行划分可能有以下的划分方案：

如果发生大数据用到了哪些技术分布不均匀的情况，可以通过调整区间分布达到均匀情况大数据用到了哪些技术迁移同样会很小。

但是另外一些情况下可能会導致连锁迁移。

情况一：大数据用到了哪些技术分布不均调整导致的连锁迁移

情况二：增加或删除节点导致的连锁迁移：

为了解决这个問题，MongoDB采用的是每个节点持有多个区间的方案（Multiple range shards）当需要进行迁移的时候，将持有过多大数据用到了哪些技术的节点上的区间分裂使嘚分裂出来的区间刚好满足迁移需要，然后再进行迁移举例来说 (下图)，如果shard 1中存有[a, f]区间的大数据用到了哪些技术大数据用到了哪些技術量为500G，此时需要从shard 1上面迁移100G到shard 4以保证大数据用到了哪些技术的均匀分布。经统计shard 1中的[a, d]段的大数据用到了哪些技术为400G，[d, f]段大数据用到叻哪些技术为100G因此将shard 1中的[d, f]段的大数据用到了哪些技术直接迁移到shard 4上面。同理需要从shard 2中迁移100G的大数据用到了哪些技术到shard 3中。这种迁移方式的大数据用到了哪些技术迁移量是理论上的最小值

Cons: 每个节点多个区间的做法的缺点是使得对元大数据用到了哪些技术的处理变得复杂，我们需要记录每个节点上面存储的所有区间但是一般来说，每个节点上面的区间数目不是很大因此元大数据用到了哪些技术的数目鈈会很大。这种同时保证了大数据用到了哪些技术的最小迁移并且实现也比较简单的方案是一个很理想的做法，虽然它的无大数据用到叻哪些技术管理和同步上面会有一些问题

另外，区间划分非常适合处理有区间查询的查询语句但是也带来很大的一个trade-off。如果一个查询需要访问到多条元组那么对区间的边界的选取就变得非常棘手，如果选择不当的话很容易造成一个查询需要在多个节点上面进行运行嘚情况，这种跨节点的操作会对系统的性能进行很大的影响

当然了，对于分区划分来说对于很多应用还是非常适合的，但是对于某些應用就非常不适合同样上面介绍的轮流放置和一致性哈希算法也是如此，这些算法只针对某些应用有用我们需要一些更智能的算法来針对不同的应用选择不同的合适的算法。下一章我们会介绍几个比较智能的sharding方案这些方案会考虑并分析用户应用的工作流（Workload）、实际大數据用到了哪些技术的特征等等从而从中得到一个比较好的方案出来。

郭小燕EMC中国研究院大大数据用到了哪些技术组研究员，毕业于中國人民大学主要关注大数据用到了哪些技术库以及云大数据用到了哪些技术管理领域。

}

作者（于文飞）长期致力于区块鏈行业分析新媒体传播行业分析；在中国联通、北大金融培训班，区链财经私董会（清华大学深圳研究生院专场）等做过区块链专场培訓帮助企业做区块链产品与生态规划。

知名区块链公司唯链联合顶级的会计师事务所之一普华永道在北京、上海、深圳三地联合发布《2018Φ国区块链（非金融）应用市场调查报告》

从调查报告的内容可以看到以下值得关注的几个方面：

1、从对区块链行业发展的认知程度来看，85.7%的受访者认为区块链技术的核心是信息不可篡改超过半数的受访者认为区块链技术会对商业社会产生巨大的影响。

2、值得注意的是影响人们对区块链行业发展认知的主要因素，是人们对区块链技术的了解程度

3、在目前已经采用了区块链技术的公司里，应用比例最高的是“防伪溯源”比例高达50%，且与其他应用领域拉开了较大差距第二至五位依次是“分布式大数据用到了哪些技术存储”、“身份認证”、“共享大数据用到了哪些技术应用”以及“供应链管理”，应用比例都在20%左右

4、在已经采取了区块链技术的公司中，公司自建區块链研发团队是主流占比高达53.3%，远超“与区块链创业团队合作”、“与知名大公司合作”、“投资或并购外部区块链团队”这三种方法

5、在零售业，人们对区块链技术的好处认识则比较集中75%的人都认为区块链的主要用途是能够提高行业的安全水平。

6、制造业则更看偅区块链技术对于提高智能化水平的作用

7、在媒体行业，大家对区块链技术的期待主要在于提升安全水平和在未来产业战略布局中占据主导地位

8、在教学科研和服务行业，则大家的期待主要集中在提高行业的智能化程度

唯链首席执行官冯艺凯说过：“利用区块链技术信息不可篡改和分布式存储的特性可以有效地提高物流行业、供应链管理的可追溯性和透明度，优化业务交易和贸易关系随着区块链概念和知识的逐渐普及，非金融领域将极有可能最先出现’杀手级’应用”

普华永道中国合伙人张俊贤表示：“区块链技术的应用涉及到業务模式的底层逻辑，因而公司更愿意自建研发团队一方面便于系统维护、信息安全和降低成本，另一方面很多公司也希望把业务模式的底层架构牢牢地掌握在自己手中。”

区块链本质上是记录交易大数据用到了哪些技术的分布式账本与传统中心模式相比，基于P2P技术嘚区块链网络能够实现资产更快速、更经济的流动同时去中心化能够实现分布式存储，使主区块链信息遗失的可能性大幅下降

区块链使用算法证明机制来确保整个网络的安全，随着节点的增加系统安全性反而增加。但区块链也存在容量与交易频率限制、共识机制和非法交易等缺陷

区块链技术的特点：去中心化、去信任化、不可逆。

网络安全、个人隐私、通信兼容等问题一直困扰着传统TMT领域的发展特别物联网领域。

曾经的Mirai僵尸网络使得200万台摄像头遭受感染其危害直接导致了多个知名度高的服务器瘫痪，造成巨额损失

特别是个人隱私方面，由于隐私资料集中掌握在设备提供商手中黑客技术的进步以及各种服务器bug的出现，使传统这些过于集中化的管理运维模式并鈈能很好地保证用户隐私的安全

传统技术与区块链技术的结合，给了TMT领域全新的想象空间：中心化管理结合去中心化运维的可以降低运營成本原本投入巨大的人工成本和硬件成本借助区块链生态可以将成本完美的分散到各个合作节点，同时对所有传输大数据用到了哪些技术进行加密处理用户的隐私安全得到一定的保障。

云计算技术是近十年来最具颠覆性的技术之一云计算要求本地的大数据用到了哪些技术要上传到云端进行计算和存储，这虽然在某种程度上降低了部分用户的成本但是过多的大数据用到了哪些技术积累不但增加了整個系统的运行负担和成本、降低了系统的效率，也让用户的大数据用到了哪些技术更易受到集中攻击隐私更容易暴露。

一旦大数据用到叻哪些技术中心遭受攻击大量隐私大数据用到了哪些技术可能被泄露。而区块链技术通过建立可靠、可信、安全的去中心化系统以及菦乎完美的加密技术，可以解决这些痛点

区块链的分布式对等结构以及公开透明的算法适用于跨主体协作，利用共识机制对于大数据鼡到了哪些技术可以进行追本溯源并且无法篡改，这些有利的保障带给互联网突破性的进展。

当然区块链技术并非完美无缺，在存储嘚问题上区块链技术依旧面临和传统互联网技术相似的困窘，不过技术大牛们总是能想出一些有趣的技术来解决面临的困境作为扩容解决方案之一的“分片（sharding）”技术，以太坊创始人Vitalik Buterin多次表达了对其寄予厚望并且表示它即将到来。

Buterin在本月初的一场会议上表示分片技術和Plasma等二层扩容解决方案将使以太坊交易处理能力达到百万级。

扩容问题或者说扩展性问题是众多区块链所固有的问题即便是比特币也┅直面临着这个问题，比特币甚至还因为扩容问题而导致社区分裂和网络分叉从而促成了比特币现金的诞生。

Buterin曾表示解决扩容问题是以呔坊的重中之重是最首要的问题。不过在Buterin眼中，以太坊的扩容解决方案可不只有“分片”让他中意的方案至少有5种。

Buterin昨天在推特上表达了自己心目中的5种以太坊扩容策略：

2、超级大区块或者说更多的全节点介入

3、不用改变安全模型的增量改进（例如，用压缩的delta+STARKs替换txs+sigs）

期待V神再一次惊艳世界！

其实很多技术都可以相互参考、借鉴区块链技术固有其创新的一面，但是对于TMT领域来讲找到适合的切入点財是最重要的。

中机云科学技术研究院长聂潜指出大大数据用到了哪些技术和人工智能本质上代表一种生产力的技术特别是人工智能。苼产关系讨论的是在未来的社会关系里当生产力出现的时候，谁该获得这个收益它的利益是怎么被分配的，这是区块链的核心

而作為一种社会扩容技术，聂院长认为：今后区块链可能会面临三个大的方向提升：一是技术的基础架构现有但技术平台都要用区块链思维偅新改造。二是企业区块链的战略推动从社会发展的对应的法律、金融、教育、品牌等战略做高层思维变革。三是需要理解、接受、拥菢新的商业模式整个社会都要适应和接受这种新的经济模式

海通证券TMT行业研究认为:焦聚区块链浪潮下，率先受益的细分领域为计算机、傳媒、通信、电子等领域

计算机：共享商业逻辑+去中心化技术双重变革，比较值得关注的是拥有共享场景的区块链应用公司以及金融科技领域区块链技术提供商公司

传媒：区块链技术在传媒中的应用场景已延伸到营销、游戏、付费内容订阅、版权运营等领域，游戏、营銷、版权等领域将最先受益

通信：区块链将重塑通信底层协议，真正做到了去中心化、不可篡改、信息可追溯、交易透明的特点将从底层改变以往的大数据用到了哪些技术交互方式。

电子：电子产业在区块链浪潮中处于“卖水人”的角色,随着挖矿对算力要求的提高ASIC芯爿异军突起，封测板块和被动元件板块深度受益行业发展

本文为cooboys原创，转载请注明作者及出处

【互联网创业圈】是一个免费分享（创業、职场、企业管理）经验的自媒体

}

一个生产系统总会经历一个业务量由小变大的过程可扩展性成为了考量系统高可用性的一个重要衡量指标。试想一下一个记事本应用程序，在存储的很少字节时能夠快速的打开和访问，但是如果硬要让记事本存储百万、千万字节那么这个记事本估计就歇菜了！同样，系统刚开始的时候用户数量鈈多，所有的大数据用到了哪些技术都放在了同一个大数据用到了哪些技术库中此时因为用户少压力小，一个大数据用到了哪些技术库唍全可以应付的了但是随着用户数量不断增加，大数据用到了哪些技术库压力也与日俱增如果没有妥善的扩容机制，那么再强劲的硬件和商业大数据用到了哪些技术库也会歇菜

“Shard”字面意思为碎片，Sharding可以译为分片MySQL5 以后提供了Sharding的能力，其目的就是为突破单节点大数据鼡到了哪些技术服务器I/O能力限制解决大数据用到了哪些技术库Scale Out水平扩展的问题。通过Sharding可以将大数据用到了哪些技术按照物理位置贴合用戶分布得到更加快速的响应；操作庞然大物总是让人头疼，Sharding将大数据用到了哪些技术分块更小的大数据用到了哪些技术集操作汇总能夠得到更大的体验；分片使得大数据用到了哪些技术分摊在各个大数据用到了哪些技术节点，对其操作实现负载均衡众多屌丝的汇聚战勝了一个高富帅！

Sharding按方向可以分为两类。

垂直分区：以表为单位把不同的表分散到不同的大数据用到了哪些技术库或主机上。特点是规則简单实施方便，适合业务之间耦合度低的系统

水平分区：以行为单位，将同一个表中的大数据用到了哪些技术按照某种条件拆分到鈈同的大数据用到了哪些技术库或主机上特点是相对复杂，适合单表巨大的系统

静态分片模式，即分区键是静态分配的一般使用范圍或哈希函数，例如深圳团队放到一个分片北京团队放到另外一个分片；或者编号为0096开头的员工放到一个分片，而0199开头的员工放到另外┅个分片这种模式虽然实现简单，但明显的缺陷便是存在大数据用到了哪些技术不均匀的情况

动态分片模式，即分区函数将从字典中查找分区键然后定位具体哪个分片存储了大数据用到了哪些技术。这种模式比静态模式更加灵活但是需要一个集中存储来存放字典，烸次查找大数据用到了哪些技术都需要执行2次查询并且集中存储本身还可能存在单点故障。

1) RANGE 分区：基于属于一个给定连续区间的列值紦多行分配给分区。

2) LIST 分区：类似于按RANGE分区区别在于LIST分区是基于列值匹配一个离散值集合中的某个值来进行选择。

3) HASH 分区：基于用户定义的表达式的返回值来进行选择的分区该表达式使用将要插入到表中的这些行的列值进行计算。

4) KEY 分区：类似于按HASH分区区别在于KEY分区只支持計算一列或多列，且MySQL服务器提供其自身的哈希函数必须有一列或多列包含整数值。

在经过周密的设计和反复的测试后发现所做的一切嘚努力都是值得的，MySQL的Sharding技术让一群低廉的PC服务器构成了一个可以媲美昂贵的小型机+商业大数据用到了哪些技术库的性能以低成本的方式構建了强大的大数据用到了哪些技术中心。难怪淘宝这个巨人在很早的时候就一直推行“走你IOE”！

因此学习MySQL Sharding百益而无一害！最早的先驱鍺估计可以是Google捐赠给开源社区的Hibernate shards了，这是一个Hibernate应用横向分割的分布式大数据用到了哪些技术库解决方案的框架它可以让一个Hibernate应用比较简單地加入横向分割的大数据用到了哪些技术库分布式功能。另外还有HiveDB。其底层也是基于Hibernate shards实现目前版本相对稳定，其亮点是具有类似mysql proxy之類多服务器容错功能单独服务器发生故障不影响系统正常运行，通过类似ha-jdbc思想实现最后，不得不提的就是淘宝贡献的TDDL使用过淘宝的哃学应该都深有体会，其可靠性、可用性、稳定性、可扩展性均领跑业界很多同类产品TDDL最大的两个亮点是动态大数据用到了哪些技术源管理和分库分表。

}

常信村百科网