超融合什么是一体机机是软硬件什么是一体机，可以根据我们需求来定制吗？有没有标准化参数？

点击联系发帖人 时间：2019-09-24 13:25

什么是一体机

近日书生云超融合项目屡传捷報，继中标成都中电集团、肇庆市凤凰三立学校等多个项目之后又爆出大单成功中标贵州电网集团什么是一体机机项目。为何书生云超融合什么是一体机机在众多激烈的竞争中能够脱颖而出?书生云超融合什么是一体机机又是凭借什么拔得头筹呢?

在变幻莫测的市场面前企業添置大型设备往往都会捂紧自己的口袋，积极的寻求一种高性价比的解决方案当前市场上的高性能企业级设备，往往价格动辄数百万、数千万甚至上亿这使得许多的企业望而却步，然而书生云超融合什么是一体机机在关注产品性能的同时也注重产品成本的考量在确保产品质量的同时尽量较低其综合成本。因此书生云超融合什么是一体机机的综合成本仅仅相当于现有市场主流超融合云平台的大约70%而現有市场主流超融合云平台的综合成本又是传统云平台的大约70%。

书生云超融合什么是一体机机的综合成本是怎样控制呢?首先是整机交付開箱即用，将产品部署周期进一步降低为“零”减少企业的运营成本;其次就是精心做“减法”，砍掉多余的软件和硬件去掉多余的功能，缩短数据路径降低生产成本;最后是选择合适的供应商，无论品牌大小只看品质尽量使用成数量大从而可靠耐用且性价比好的零部件。

对于企业自身产品来说书生云超融合什么是一体机机适用于教育、金融、医疗、政府、企事业单位等不同机构。它可以根据客户的鈈同需求为客户搭配定制专属配置，无论是计算能力还是存储能力都可以单独扩展不会出现因计算能力和存储能力必须绑定扩展而导致的浪费。除此之外该产品为100%按需横向扩展，支持即插即用的线性平滑扩展扩容不会导致生产业务系统停机。也就是说不管是在售湔按需定制还是售后的业务拓展，书生云都能够在不影响企业正常运转的状态下满足客户的增项需求

从质量、价格再到用户体验，书生雲超融合什么是一体机机将书生集团 20 年服务企业级市场的诚意和优势体现的淋漓尽致为企业提供了切实可行的云解决方案，满足了企业嘚客观需求解决了企业建立云平台的诸多困难，促成了书生云超融合什么是一体机机在市场上的卓越表现

本文由站长之家用户投稿，未经站长之家同意严禁转载。如广大用户朋友发现稿件存在不实报道，欢迎读者反馈、纠正、举报问题（）

免责声明：本文为用户投稿的文章，站长之家发布此文仅为传递信息不代表站长之家赞同其观点，不对对内容真实性负责仅供用户参考之用，不构成任何投資、使用建议请读者自行核实真实性，以及可能存在的风险任何后果均由读者自行承担。

有好的文章希望站长之家帮助分享推广猛戳这里

}

二、国内外超融合产品的主要区別

三、国内外超融合产品的一些技术问题

观点分享者：刘东东软集团首席技术顾问wwwlm2001 南京迅百存储架构师，lewoli Yunify.com 系统架构师irvinyun 东方证券 IT顾问，陳星星山西光远售前技术支持sharkbing EDI 软件开发工程师等

超融合目前还是一个新兴的市场，现在卖HCI（超融合）产品的厂商都是过去卖X86服务器的或昰卖分布式存储软件的因为HCI架构主要是以软件定义为基础，再结合X86硬件产品进行销售

国内主流的HCI产品厂商，除了传统的联想、华为、H3C等硬件厂商甚至还有深信服这类安全厂商也在做HCI产品。其他新兴的厂商有达沃时代、大道云行、StorWind、青云HCI、SmartX等这些厂商的市场份额虽然鈈大，但是每个产品却有自己不同于其他厂商的特点可以适应多种不同的应用场景和环境。

国内外超融合产品市场和具体应用情况

1.国内外超融合产品主要有哪些

HCI最初的领导者是Nutanix和VMware这些软件厂商，最早2011年就推出过超融合产品在他之后有SimpliVity、Scale Computing、Pivot3等厂商之后，后来VMware也加入了这個领域但是这些后来的厂商直到年才推出首款产品。至于国内市场就要更晚一些基本都是2014年后才逐渐推出自有产品。

国内的有：SMARTX、深信服、达沃时代、大道云行、华为FusionStorage、青I等

主要产品特点和现状，详细可以参考我分享的文档

VMware 的EVO：RAIL：提供纯软件部署，硬件由认证的合莋伙伴提供只支持VMware vSphere；EMC推出了vxrail，卖的比较火最大支持64节点。

华为FusionCube：采用自家定制的x86刀片服务器什么是一体机化产品。但是部分产品存儲节点和计算节点是分开的只能算是什么是一体机机。

青云QingCloud什么是一体机机：预集成了虚拟化平台、云平台管理软件、SDN网络和分布式存儲但是最近青云好像热衷于提供基于超融合架构的私有云服务，卖服务比较多产品比较少。

SMARTX：主要是软件配置管理一套系统，支持沝平扩展支持商用x86服务器。现在也有硬件产品Halo什么是一体机机，整合了SMARTX的ZBS分布式存储管理软件适合不同用户选择。

Zetta(中科云)：中科融匼存储系统是一款自主研发、针对海量数据及高并发I/O应用而设计集硬件平台、先进的分布式存储系统和智能管理功能于什么是一体机的存储产品。

深信服：而相比于国外厂商深信服的超融合方案会更加全面。除了存储和计算资源还特别是包含了网络资源，并且提供完整的2-7层网络服务

领导者领域：Nutanix排第一，毫不意外SimpliVity与Nutanix极为接近排第二，然后Pivot3第三这就让人意外了。

Pivot3为什么得分这么高?部分归因于它的“高龄”——比Nutanix或SimpliVity建立要早另外还有市场表现力好——该公司自称拥有超过1600位客户，还是最大的两个超融合数据存储集群之一的核心

引用Forrester的结论就是“Pivot3是一个强大的参与厂商，尤其是当要求包含PB级数据存储时它的空间有效数据保护还可以降低成本。”

1.Atlantis对比而言算是后起之秀拥有较小的市场领域但因为其综合能力而处于强势地位。

2.Gridstore在微软专用化方面独一无二目前仅支持Hyper-V和集成微软的环境，Gridstore解决方案嘚一个特别之处在于它的服务质量能力允许多个类型虚拟机的定义，并确保最大和最小值输入/输出(I/O)的性能水平

3.EMC对加入全行业转向软件萣义基础设施环境处在有利位置。(报告中并不包括VxRack只有VxRail。)

4.在厂商群中Stratoscale是拥有更高级的工作负载与数据迁移功能的厂商之一并集成高可鼡性。

5.VMware宣称VSAN拥有4000以上用户这将使它成为该市场部署最广泛超融合解决方案的厂商。

6.思科的HyperFlex处于早期阶段影响了思科的本次评级，Forrester对思科的基础UCS平台给予了极大的认可HyperFlex的“仕途”应该会扶摇直上。

7.HPE的产品也处于它的早期阶段它在HCI细分市场的地位随着时间的推移将迅速妀善。

8.华为提供FusionCube支持不同的虚拟机管理程序，其产品看来技术成熟但数据服务是弱项，界面使用相比其他厂商更为方便

ScaleComputing的总结是：“一家小型公司但有一个很大的用户基础。”

超融合是存储市场热点之一具有很大的发展潜力。随着厂商试图吸引和掌握市场份额竞爭渐趋白热化。

超融合的市场还在成长阶段未来的盘子足够大，各个玩家之间的关系其实是竞合关系尤其是超融合厂商，由于在计算岼台领域是中立立场既支持VMware，也支持OpenStack以及KVM、Hyper-V等其它架构因此在未来与另外两大阵营之间有更多合作的可能性。

2.国内外厂商关于超融合產品的目标细分市场定位以及技术发展趋势

不管是国内厂商还国外厂商，超融合产品的目标市场都是替换现有数据中心的虚拟化环境簡化IT架构。

那些目前运行在物理硬件上的应用最好还是继续保持运行在物理硬件架构上所以，除了那些目前仍然需要直接运行在物理硬件环境中的应用程序外，都是超融合架构的目标市场

在技术的发展上，国外产品都以自有产品为主包括Nutanix和VMWARE的VSAN。如果部署了以后只能按照厂商的这条技术路线去扩展。而国内由于技术能够有限基本都是以开源技术深度优化和整合为主。优势是比较开放可以支持多種虚拟化平台，用户选择可以多一些

3.超融合基础架构产品对于数据共享的具体应用方案？

超融合基础架构产品基本采用软件定义存储SDS来解决了虚拟化存储问题提供一个大容量的数据存储池，这里需要说明的是SDS是指ServerSAN由超融合基础架构产品提供分布式块存储。而当前的客戶在生产环境还是对虚拟机及物理机都有着数据共享的需求比如应用程序的HA等，这就需要分布式文件系统或者NAS存储系统目前超融合架構产品普遍缺乏，在实际环境还是需要独立部署外部的NAS存储系统当前哪一家超融合架构产品可以提供相应解决方案？

很多超融合厂家针對底层数据存储采用cephCeph是一个分布式存储系统，支持对象文件，块接口

分布式存储的应用场景相对于其存储接口，现在流行分为三种:

1.對象存储: 也就是通常意义的键值存储其接口就是简单的GET,PUT，DEL和其他扩展如七牛、又拍，SwiftS3等。

3、文件存储: 通常意义是支持POSIX接口它跟传統的文件系统如Ext4是一个类型的，但区别在于分布式存储提供了并行化的能力如Ceph的CephFS(CephFS是Ceph面向文件存储的接口)，但是有时候又会把GFSHDFS这种非POSIX接ロ的类文件存储接口归入此类。

众所周知很多传统厂商如日立、富士通等存储大厂也采用了Ceph作为它们存储硬件的载体，Ceph能提供企业级的存储服务一定有它的优势才能让传统的存储厂商弃而采用开源的存储方案。

弹性的数据分布策略和物理拓扑输入实现了高可用性和高持玖性Ceph的高性能重构还体现在利用CRush算法对数进行约束，避免数据分布到所有的集群的一个节点上利用Ceph设计并提供的一个由CRush算法来支持一個高自由化的存储集群的设计，实现高可靠性高持久性，高性能

对于数据共享当前很多超融合架构产品都可以提供相应解决方案的！

4.超融合的应用范围？

是不是超融合大多适用于大数据分析上主要是在线分析型应用和数据库？

首先超融合系统适用于IT环境的所有应用類型。

其次超融合系统的首要目的是管理虚拟化环境，那些目前运行在物理硬件上的应用最好还是继续保持运行在物理硬件架构上所鉯，除了那些目前仍然需要直接运行在物理硬件环境中的应用程序我不认为存在一种特殊的应用程序不能被部署在超融合的基础架构中。

最后只需超融合群集规模足够，能提供的足够的性能超融合架构是可以跑在线分析型应用和数据库的。

5.超融合是否可以支持一切系統

公司现有业务系统多套，OA、CRM、MAIL、等等20多套现每个业务系统都跑在不同的X86服务器、POWER小机上，后期管理十分繁琐需要不同的专业人员。

数据日益增多现有数据3T，每年会有500G的增长量现还需考虑媒体文件存档，大概一年需要800G文件存档

1、OA、CRM、ERP等大型信息系统，是否能跑茬超融合上如何设计架构？

2、Oracle是否能够跑在超融合上

3、超融合概念是“软件定义一切”，但经过了解目前只是软件定义存储CPU、内存昰否也能够融合，CPU使用高时如何解决这个瓶颈？

4、数据量较大增长量快速，是否适合超融合架构与传统存储有什么优势？

超融合以現阶段的产品能力而言主要用于支持应用运行小型数据库，而不适合大型的数据库所以你问题里的OA、CRM、ERP理论上都可以，但数据库组件建议放置在外

1、大型信息系统理论上可以跑超融合，只要超融合的规模足够大整个超融合架构群集的性能要大于大型信息系统的需求，就可以上架构上都是分布式部署，根据性能需求配置节点数量

2、Oracle目前有单独的超融合架构系统，类似于ORACLE推出的什么是一体机机可鉯保证性能和稳定性，但是一般的超融合架构不建议上

3、软件定义一起，在CPU和内存上还是遵循虚拟化层的定义这个主要看你选用什么樣的hypervisor，例如VMware就可以动态调节CPU负载这个已经是成熟的技术，超融合只是将不同的hypervisor整合到一个统一的设备中

4、数据量较大，增长量快速非常适合选用超融合架构，因为超融合架构在扩展上非常灵活需要扩充时，只需要按需增加节点而不会影响原有的节点，而且还会提升整个超融合架构的性能与传统存储相比具有按需扩展，使用灵活系统使用率高等特点。

6.超融合架构如何帮组企业实现最好的转型

隨着时代发展，采用的 x86 服务器网络共享存储的传统三层架构逐渐显露出越来越多的弊端给业务的快速扩展造成了较大的影响。主要表现茬以下几个方面：

首先随着各种业务的不断推出，虚拟机的数量不断快速增长物理服务器和传统集中存储已不能满足业务快速增长的需求；

其次，在服务器扩展方面由于传统物理服务器解决方案部署复杂、实施周期长，不能实现快速交付从而延缓了公司业务的快速擴展；

第三，在购买方面传统解决方案购买流程复杂，周期长难以实现按需购买；

第四，在运维管理方面管理窗口多，部署和运维囚员多运维难度大，对专业技术人员也有大量需求这给企业带来了较大的人力成本压力；

第五，在售后服务方面需要服务器和存储廠商等多方技术进行支持，因而在故障发生的时候实效型很差，增加丢数据的风险

在仔细分析公司的实际需求之后，采用新的 IT 架构解決这个难题并对新架构提出了如下需求：

首先，由于机房空间有限需要采用高密度的架构解决方案。在有限的空间里满足网络、存储、计算的要求；

其次要求该架构弹性可扩展，并且具有稳定可靠、易于维护、高性能的特性；

第三由于传统架构无法实现持续的可扩展性，使得性能无法保证很多创新业务转型，互联网规模化的特点都需要高可靠及可持续的服务能力；

最后互联网金融企业的规模化增长，业务规模无法预测资源的变更频繁，需要及时满足不同业务的资源配置需求持续降低运维成本和机房设施成本。
因此新的 IT 架構应采用与互联网企业类似的 IT 架构——超融合架构。

国内外超融合产品的主要区别

1.各个厂商之间的超融合产品的区别是什么

HCI基础架构产品主要分为两大类：

第一种：纯软件方案，例如Nutanix和VMware的EVO:RAIL支持安装到X86架构的服务器上，只需要购买软件许可授权即可使用方便灵活。

第二種软硬结合，例如Nutanix软件联想X86服务器就变成了联想HX超融合什么是一体机机VMware的EVO:RAIL EMC(DELL)的X86服务器就变成了VxRail超融合什么是一体机机。购买硬件的好处昰使用方便开箱即用，稳定性也比自己组装的要好安全可靠有保障。

目前市场上的超融合架构产品都是基于这两类产品进行销售

二鍺怎么选择？建议技术型企业选择软件方案使用灵活又可以降低成本。如果想省事就直接购买硬件产品，部署又快又方便

以下是目湔主流的5个厂商的超融合架构产品分析，可以看到：

1、国外产品在虚拟化产品支持方面比较保守只支持特定的Hypervisor ，而国内的厂商除了华为（只支持自家的和VMware）对Hypervisor 的支持都比较好。

2、群集规模除了Nutanix，或多或少都有一些限制都不是完全能够做到无限扩展，因为群集规模越夶管理和性能平衡上都是一个巨大的挑战。

3、目前国内外厂商都有纯软件和什么是一体机机的方案大家可以按需选择。

4、分布式存储技术做为超融合的核心技术，目前各超融合厂商的技术都做的比较好但是国外的厂商Nutanix和VMware VSAN都是自己研发的，国内的厂商都是基于开源产品自己优化和修改的优点是开放性比较好，缺点是稳定性可能会稍弱一些

5、在管理方式上，各家都有自己的管理工具都支持B/S的管理模式。

下面是一些产品的优势对比分析：

超融合基础架构市场的领导者Nutanix已经部署在全球6000 家企业，并且是公认的最领先的分布式文件系统拥有美国专利与商标局正式批准的分布式软件架构专利(US8,601,473).

Gartner：魔力象限，Nutanix是集成系统的领导者

品牌知名度很高具有深厚的技术沉淀，产品功能稳定完善超融合生态链中具有无可比拟的优势。

合作伙伴Veeam中科慈航，英迈中国偉仕佳杰，博雅软件长虹佳华等。

只提供什么昰一体机机的方案价格昂贵，不支持服务器利旧

如支持的Vmware和Hyper-V计算虚化，客户需要从第三方单独购买授权

Nutanix是VMware的合作伙伴，但现在已经變成最大（潜在）的竞争对手虽然合作尚在。

松耦合带来CVM消耗资源较高至少要24GB内存，8个vCPU

计算和存储分离，出故障容易扯皮；

①VxRail 最小規模4节点起配扩展时只能以2 节点为单位进行扩展，只能扩展同型号节点由于VxRail目前的配置型号是固定的，无法灵活定义计算资源和存储資源的数量；

③只支持vSphere快照VMware 推荐快照链不超过2-?‐3 个，且单个快照不超过24-?72小时以免影响虚拟机性能；

④无内置链接克隆功能，无法快速、批量部署虚拟机；

⑤不支持冷热数据分层70%的SSD 作为Cache 使用；

⑥不支持数据本地化，尽可能保留数据在节点本地避免不必要的跨网络数据訪问，以实现快速的本地IO吞吐；

⑦不支持数据自动平衡无法对每个节点本地磁盘容量进行数据平衡，在不影响数据本地访问的情况下保证所有节点磁盘利用率基本一致；

⑧Dell由三家公司组合而成，内部关系复杂有竞争有合作，产品整合任重道远；

⑨本地响应过慢、定制需求无法实现

品牌知名度高，渠道丰富

深信服做网络安全出身所画即所得的部署模式和网络层的深度集成却让人印象深刻，非常适合SMB愙户从网络安全到基础架构的一揽子交付需求

配合虚拟桌面方案，优势明显（虚拟桌面的性价比很高）

深信服超融合系统采用GlusterFS其优势：

2015年10月份加入了超融合的战场，坦率的说在狭义的超融合架构（服务器存储虚拟化）上平淡无奇

GlusterFS不是一个完美的分布式文件系统，这个系统自身有许多不足之处包括众所周知的元数据性能差和小文件存储效率和访问性能很差。

①底层文件系统更适合一次写入多次读取實际处理性能会比元数据系统差很多。当集群规模变大以及文件数量达到百万级别时性能直线下降。（销售内部不推超过10个节点以上的方案）

②集群管理模式采用全对等式架构大规模集群管理应该是采用集中式管理更好，不仅管理简单效率也高。

③全对等式架构导致烸次文件读写请求响应都是广播行为所有节点都要参与一致性检查，其网络负担比较重

大品牌，大集成商大客户，大规模软硬件產品线丰富，各种集成方案

Huawei从FusionCube拆分出来的FusionStorage通过Hypervisor集成或作为其堆栈的一部分而摇身一变成为时髦的“超融合”，但从规格、指标来看与“原生”的超融合架构仍然存在差距（仍然基于存储SAN 架构)

专业专注其硬件销售，华为华三互为主要竞争对手关注于大型方案，对中小企業客户关注不多整体方案硬件成本高，采用传统服务器产品

超融合不需要存储，但一定要部署在服务器上而服务器则是联想企业级朂强的地方，与Nutanix合作推出的超融合HX系列基于最好的x86服务器System x，目标成为超融合市场的标杆产品

联想自身，没有自己的存储核心技术（缺尐存储技术底蕴）

多条产品线，内部竞争和销售策略混乱

产品推广问题多多：联想除了推荐自己的LenovoAIO产品线同时还收购了SmartX的产品线。在OEM嘚Nutanix产品的同时还跟SimpliVity进行产品合作，国内还跟Maxta产品合作SimpliVity是Nutanix的主要竞争对手。而SimpliVity又是联想服务器在全球主要竞争对手的——思科(全球x86服务器市场联想排第3，思科排第4)的战略合作伙伴后者的OEM销售额占到了SimpliVity收入的20%。

2.国内外超融合架构/方案的差别具体体现在哪些方面

国外厂镓都基本采用自己的产品，而国内厂家基本采用开源的方式。除了产品成熟度方面国外厂商产品一般在技术上比较封闭。国内产品比較开放支持的虚拟化平台也比较多。

还有就是价格方面了国内肯定要便宜一些。

3.传统制造企业在超融合系统上的对比选择?

客户现有几囼物理服务器各自单独运行OA、ERP、测试等业务系统，又新买了2台IBM3650服务器

但是现在，客户出于数据安全（不丢数据）的考虑出于业务系統稳定性的考虑：

1.在传统存储和超融合之间选择困惑？简单说明即可

2.比较倾向超融合但是超融合又在国外大厂VMware VSAN、CISCO 超融合和国内华为、以忣国内炒的比较多的深信服之间选择困惑？这几家优劣或区别是什么?如何选择能在低风险的情况下降低成本

(一) 传统架构的短板

1.业务系统為典型的传统三层数据中心架构，即存储、计算、网络分离数据IO的处理效率底。业务端的数据最终都是要落到磁盘端的当业务数据产苼后需要经过计算、网络、存储三层才能完成交互，数据IO需要在各层之间中转总体IO处理效率水平底。

2.客户使用的传统SAN存储存在单点故障。采用传统的RAID冗余保护机制性能提升只能靠购置更高端设备或增加RAID中磁盘数量。每次升级都需要对数据存储空间重新配置不能在线岼滑升级，需要中断业务后才可操作

3.缺少对于生产磁盘故障的连续保护能力，当前存储系统仅实现了磁盘RAID组功能一旦RAID组坏盘降级，存儲系统将处于无保护的“裸奔”状态若此时再坏盘，数据将有可能丢失所以在当前生产系统环境下，数据安全性和业务的连续性将面臨极大挑战

(二) 运维和扩容的难点

1.数据中心臃肿，多种业务、多种设备不断建立设备差异，业务业务信息孤岛异构环境，给IT管理成本增加数据中心规模增大，也带来了能耗UPS配备、灭火器、精密空调设备、7x24小时运行、监控服务等，这种数据中心的运行成本非常高

2.随著业务的不断发展，考虑未来业务系统对底层架构性能、容量、扩展性、处理效率等方面需求增长以及实时备份策略对性能、扩展性和網络环境要求，需要建立面向云数据中心的基于横向扩展的超融合架构支撑未来备份乃至存储业务的发展要求

3.业务数据增长迅速，如果按传统备份存储方式操作当前存储和备份设备均为Scale-up纵向扩展架构设备，容量扩展通过后端SAS链路串接扩展柜实现存在天然的扩展瓶颈（增加扩展柜后会带来SAS链路信号衰减问题，性能衰减严重）未来备份系统包括存储系统将会承载非常大的数据压力且存在扩容瓶颈。

各家嘟各有特色优缺点也很明显，超融合目前没有很完美的还在发展，还需要方案验证！个人推崇Nutanix但是很贵！深信服更贴合它的虚拟桌媔卖。纯粹超融合的方案缺少大规模部署案例，因为他目前的底层GFS文件系统不适合大规模部署（具体可以百度GFS补足）

超融合未必比传統架构便宜。

问题1、在传统存储和超融合之间选择困惑

如果选择超融合架构，存储就可以不用考虑了

数据安全性，超融合一个数据可鉯有2-3个副本安全性高于存储。

性能超融合需要达到一定规模，性能才能高于存储如果业务量小，规模下只买几个超融合服务器，性能肯定不如存储

看你虚拟化怎么选，如果认定VMWARE虚拟化软件那就用VSAN。华为也只支持自己的FusionSphere和VMWARE如果有多种虚拟化平台，就选国内比较開源一些的

成本上，国外产品一般都比较贵

降低风险，选择产品前先做POC测试然后尽量选择什么是一体机化硬件产品。Nutanix（联想HX）、VMware（EMC VxRail）、华为（FusionCube什么是一体机机）、SMARTX（Halo硬件）、大道运行（FlexCube硬件）不要选择软件产品，自己组装

4.超融合是否可以支持Power设备，与Power设备区别

茬企业采购越来越多的设备的同时应该更多的考虑设备的数量，空间功耗等方面，排除应用结合平台和架构的耦合性来说超融合在节能减排上是如何的一个考虑，是否可以支持Power 设备强劲的处理能力环境

超融合基础架构起源：Web-scale IT：如Facebook，谷歌等公司新一代数据中心实现灵活性、扩展性基础架构服务

事实上，这一概念最早源于存储初创厂商将Google、Facebook等互联网厂商采用的计算存储融合的架构用于虚拟化环境为企業客户提供一种将存储做到计算服务器中的融合产品。“因此超融合架构最核心的改变是存储，而这一概念的最初推动者也都是来自于互联网背景的存储初创厂商

目前定义的超融合是基于X86服务器的，Power设备很难融入

超融合基础架构（简称“HCI”），是指在同一套单元设备（x86服务器）中不仅仅具备计算、网络、存储和服务器虚拟化等资源和技术而且还包括缓存加速、重复数据删除、在线数据压缩、备份软件、快照技术等元素，而多节点可以通过网络聚合起来实现模块化的无缝横向扩展（scale-out），形成统一的资源池

在POWER设备内，只能做到POWER VM虚拟囮网络和存储无法进行虚拟化，需要依靠传统网络和存储设备所以单独依靠POWER设备是无法超融合的，在节能减排上只能做计算资源虚擬化。

5.请问下国内这些厂商提供的超融合产品价格和传统架构区别

请问现在提供的超融合产品价格大概在什么位置？要切换到这套东西需要做哪些事情呢

融合价格体系是这样的，和传统架构比举个例子：

在达到相同性能的前提下，X86服务器超融合软件的价格一定会低于X86垺务器存储虚拟化软件的架构大约会便宜1/3左右。

切换到超融合架构需要了解现有虚拟化环境的配置和将来的需求，根据需要规划超融匼架构的规模然后在选择合适的产品进行采购部署。

6.对比一下宏杉的存储和深信服的超融合架构

如题，想了解下应该继续使用传统嘚存储，在存储端做文章还是使用服务器类型的超融合架构！对于中小型医院讲！后期的维护将来的发展趋势应该选择那种！感谢！

我昰这样理解的，传统的存储架构（混合存储、高端存储、全闪存阵列）相比超融合架构还是有一定的优势的。

超融合强调的是融合建設服务器、网络、存储之间的交互和故障节点，但是性能和安全可靠和传统的存储还是无法相比，这就好比鸡蛋都放在一个篮子里是一個道理

传统的存储（混合存储、高端存储、全闪存阵列），架构和技术都相对成熟应用场景较多，应用类型较多案例较多。

超融合通过服务器内安装软件将服务器内的硬盘作为存储设备，本身和专业做存储的OS和架构上（例如FPGA超融合是无法使用的）相比，存储的功能、性能、安全、可靠等都是无法相比的例如超融合必须使用SSD（用来作为缓存）的，这些在专业的存储平台上是有好多专门的技术来實现的。

存储平台的好多特性超融合也是无法做到的（分级存储、存储双活等）。

再说说医院的HIS 、LIS 、CIS、 PACS这些业务系统，有些是需要高IOPS低延时的（可以采用全闪存阵列）有些是需要高吞吐量的（PACS）大容量的，如果要想统一解决这些问题还需要传统的统一存储，超融合昰无法满足的

最后说说宏杉，是一家专业做存储的公司好多医院也在使用，品牌口碑都不错

国内外超融合产品的技术问题

1.超融合设備是否有类似openstack产品升级问题？

作为一款开源解决方案openstack 确实火的不行，很多云环境也是基于openstack进行建立但是在openstack在建设的过程当中，由于部汾模块的缺陷导致在一个版本里不能解决问题除非升级才有可能解决，但是升级的风险同样是巨大的那么作为超融合产品是否很好的解决了这方面的问题呢？

每一家超融合厂家都有自己的升级方式但是不影响业务不断服务一定是最最基本的要求。这个升级肯定是静默赽速的

最后拼的还是技术底蕴和专业服务。超融合是一套私有云的运维平台厂家支持必不可少的。

超融合基础架构其实还是软件是軟件定义的基础架构，只要是软件肯定会有产品升级问题，openstack 遇到的问题超融合架构一定也会有。

所有产品都会有BUG和升级问题就拿ORACLE来說，已经是很成熟的商业版本软件了但是一个新版本的发布都会问题不断，升级又很麻烦耗时间耗人了，折腾的不行

风险都是同样存在的，就看我们怎么处理和应对了

2.超融合技术核心部分是否就是一款软件？普通X86服务器能否加入

如题，如果某一位领导问你什么昰超融合技术，如何概括为一句能让他大体上“听得懂”的语言描述之是否是一款软件融合服务器及存储与什么是一体机的架构？对于峩们现有的机房中的普通X86服务器是否能够直接加入“这个圈子”也就是说需要什么特殊硬件要求吗？

超融合架构将围绕虚拟化计算的存儲、网络集成到了同一个硬件盒子中生态系统涵盖软件和硬件厂商，因其核心是软件超融合架构的每个机箱，就是一个含有运算与存儲资源的基础积木单元再透过分布式软件将多台机箱组成丛集，就像堆积木般组成适合不同应用情境的集群。只要将更多节点加入到集群中就能扩展整个集群的效能与容量。

①使用通用服务器硬件构成基本单元：使用标准的X86服务器硬件构成集运算与存储单元于一身嘚基础单元。

②以软件定义方式来运用硬件资源：以虚拟机(VM)为核心、软件定义式的型式来运用硬件资源资源调派均不涉及底层实体硬件嘚组态设定调整，纯粹以软件定义方式来规画与运用底层硬件资源然后向终端用户交付需要的资源。

③集群化架构：透过集群或分布式系统软件结合多个基础单元机箱成为集群，藉由集群来提供IT环境所必需的硬件资源规模、服务与数据的可用性以及扩展能力。

④便于赽速部署：产品已预先完成软硬件安装测试用户只需设定基本环境参数便能开始使用。

超融合基础架构核心是一款部署在X86服务器上的软件部署完成后（至少需要2-3台服务器和交换机），你的这个X86服务器群集就能提供存储资源计算资源和网络资源了。

核心部分是分布式存儲管理软件如果没有这个，这几个服务器仍然需要一个统一存储设备那么就不叫超融合了。

下面是超融合基础架构定义”：

超融合基礎架构（简称“HCI”）是指在同一套单元设备（x86服务器）中不仅仅具备计算、网络、存储和服务器虚拟化等资源和技术，而且还包括缓存加速、重复数据删除、在线数据压缩、备份软件、快照技术等元素而多节点可以通过网络聚合起来，实现模块化的无缝横向扩展（scale-out）形成统一的资源池。

3.超融合产品的扩展性怎么样会不会绑定某种基础组件或基于某种组件无法扩展或修改？

如：绑定了某些组件但是這些组件客户不想使用或修改后使用

超融合产品扩展能力非常强，通常一个群集的规模可以达到在3-200多台超融合产品的扩展一定基于同一款超融合架构软件才能实现的，组件一般都是可选的按照功能需求进行选择，组件可以不要不使用但是不能修改。

4.超融合是基础架构但是否可以进行定制个性化？

超融合架构作为基础架构是厂家弄好了直接用还是说可以进行定制，比如自己团队进行一些定制其技術是否开放？

超融合架构产品主要分为两种销售模式：

第一种：纯软件方案例如Nutanix和VMware的EVO:RAIL，支持安装到X86架构的服务器上只需要购买软件许鈳授权即可，使用方便灵活

第二种，软硬结合例如Nutanix软件联想X86服务器就变成了联想HX超融合什么是一体机机，VMware的EVO:RAIL EMC(DELL)的X86服务器就变成了VxRail超融合什么是一体机机购买硬件的好处是使用方便，开箱即用稳定性也比自己组装的要好，安全可靠有保障

以上，你可以买厂家弄好的吔可以买软件，自己安装到X86服务器上自己组建超融合基础架构。定制的话你可以选择超融合软件的功能，不能自己做二次开发

比如，对于超融合基础架构存储你可以选择是否支持压缩、自动分层、重删等功能，副本数量2或3个是否支持复制等。但是厂商没有的功能就定制不了了。

关于开放性部分超融合支持的虚拟化平台是开放的，比如VMWARE或OPENSTACK等

5.超融合感觉还在用传统的虚拟技术，未来会与现在流荇的docker这套东西整合吗?

会国内已经有生产案例了。

docker还在发展中～超融合很多都采用opstack管理框架自然使用融合没有问题.

超融合和docker的发展其实並不冲突，超融合其实是基础架构设施包括计算服务和存储服务。未来会与docker融合在一起的而且有了超融合基础架构，docker还可以更方便的使用因为docker也只能替代一部分VM的功能，也就是计算服务数据存储服务还需要超融合基础架构实现。

6.超融合下的备份和集中监控如何实现

超融合下的虚拟机和存储通常都是虚拟化之后的文件，各家厂商都不一样那对于备份来说，是基于传统的备份还是有专门的备份方式？能否详细介绍下

集中监控是采用传统的方式还是和超融合软件一起封装了？能否实现统一集中化的监控

在备份方面。超融合架构備份没有差别！跟传统架构的备份一样！超融合架构和传统备份基本没有什么区别但是备份这块，超融合还有一个优势就是超融合的数據存储是多副本的一般都为2-3份甚至多个COPY，即使一部分服务器坏掉数据也不会丢所以在数据安全性上要高一些。基于这个基础超融合嘚备份工作量可以减少一些，不是说不需要备份在备份的数据量和保留周期上都可以适当缩短一些，减少备份投资成本

在集中监控方媔。现统一集中化的监控是必须的！！！

超融合就是计算存储网络的虚拟化技术加上一个完整的统管平台～

有自研的，有openstack修改的就是┅套监控平台。

有时间看看Nutanix的产品架构很容易理解。

超融合架构下的监控都是各个超融合基础架构厂商自己的产品超融合基础架构对設备的管理要求比较高，因为一个超融合架构需要许多物理机组成如果没有监控管理平台是无法想象的。所以在超融合架构下一定是集中监控的，就看你选用哪个厂商的产品了都配置有相应的集中监控平台。一个超融合平台计算服务、存储服务、网络服务和监控服務都是融合在一起的。

}

这里将告诉您关于容器迁移、运維、查错与监控你想知道的都在这里了,教程操作步骤:
作者 | 邱戈川（了哥）阿里云智能云原生应用平台部高级技术专家
本文根据云栖大会铨面上

这里将告诉您关于容器迁移、运维、查错与监控，你想知道的都在这里了,教程操作步骤:

作者 | 邱戈川（了哥）阿里云智能云原生应用岼台部高级技术专家

本文根据云栖大会全面上云专场演讲内容整理关注阿里巴巴云原生公众号，回复“迁移”获得本文 PPT

今天上午王坚博壵讲了一句话我比较有感触大家做系统的时候，一定要想下你的系统的数据是怎么流转这些系统的数据是怎么形成闭环。我们在设计阿里云的 K8s 容器服务 ACK 的时候也是融入了这些思考

首先是和大家先看一下整个容器上云的解决方案。首先因为你已经做过容器所以当你容器上云的时候，实际上这个事情是非常简单的我们只需要提供的相应的工具，帮助大家把容器镜像迁入阿里云同时通过工具把 K8s 的配置迁箌阿里云以及可以用 DTS 工具把数据库迁入到阿里云。这样我们就可以完成一个完整的容器化上云的过程

所以这个过程其实非常简单，但昰上完云之后不是说我们的 K8s 原来怎么玩现在还是怎么玩。我们希望大家从上云的过程中有些收益所以我们希望提供一些更高效敏捷的┅些方式给到大家，包括怎么去做 DevOps包括我们怎么去做安全的软件供应链，以及我们做灰度发布

同时我们希望成本更优一点，关键是大镓上完云之后的成本怎么去核算以及怎么去节约。所以容器上云后我们怎么去做更好的弹性伸缩、做自动化的运维这个是大家需要在仩云的过程中去考虑的问题。同时我们需要更好的管理我们的系统一定要做到更好的高可用，而且要做到一个全局的管理包括现在很哆的公司已经在做混合云管理，这个也是大家在上云的过程中需要考虑的问题

阿里云的 K8s 容器服务 ACK 到底长什么样，给大家一个概览图：

中間的 K8s 部分就跟大家去玩开源自建是一个道理这个 K8s 没有什么本质上的区别。但是上了阿里云之后我们希望给到大家的是一个完整的体系，而不是单单一个 K8s所以我们会把底下的部分跟我们的 GPU 服务器、跟我们弹性计算 ECS、跟我们的网络 VPC、跟我们的 SLB 打通。这个在上完阿里云 ACK 之后我们一键的方式把它全部集成好，所以大家不用再去关心阿里云的 IaaS 层应该怎么去做我们希望给大家屏蔽掉这一层复杂性。

存储也是一樣的道理存储的话，就是所有的阿里云的存储我们全部都已经支持完了但是现在我们还在做什么事情？我们在把阿里云的日志服务、阿里云的中间件服务包括我们 APM 的 ARMS、我们云监控、以及我们高可用服务 Ahas 等全部对接在一起，让大家有一个更高可用的环境以及一个更安铨的环境。

我们给到大家一个 K8s 还是个原生态的 K8s大家可能会问我们你的 K8s 跟我自己的 K8s 到底有什么区别，所以还是很简单的回答大家这个问题首先我们在上云的过程中给到大家永远是一个非云厂商锁定的 K8s。就是你在线下怎么玩 K8s在线上也可以怎么玩 K8s。如果你哪天你想下云的时候你一样是可以下去的，所以这是我们很坚持的一个宗旨就是我们不做任何的锁定。

是我们会注重什么事情

首先我们会去考虑怎么莋好安全，就是当你的 K8s 有问题时我们怎么做快速响应，做 CVE 快速修复然后我们怎么去打补丁，我们怎么做安全加固；第二就是我们跟阿裏云的整个生态做结合因为阿里云是我们更熟悉，所以我们跟阿里云的底层技术设施怎么打通这个事情我们自己会做得更好一点。

我們现在也跟神龙服务器在一起我们知道怎么让神龙服务器发挥更好的性能。同时我们还有很多创新这样可以帮助大家更好的做好弹性。最重要的一点实际上是：我们做了那么久已经积累了超过几千家的在线客户，这也是我们最大的优势所以我们从几千家的客户里面濃缩回来大家所需要的最佳实践，我们收集完、整理完之后要返回给大家帮助大家去用 K8s 上生产，这也是我们给客户最大的一个核心价值

上完云之后，怎么用好 K8s怎么提升你的整个管理能力、提升你的系统效率？这个是我们要讲的“进攻”的部分我们主要分三个方面去講：

第一个，怎么跟我们阿里云的裸金属服务器做结合；第二个我们会提供性能比较优化好的网络插件 Terway；第三个，怎么做好灵活的弹性物理裸金属服务器神龙

神龙裸金属服务器已经跟我们的容器平台 ACK 做了无缝融合。它最大的好处是什么在容器化的时代，我们不需要再詓考虑虚拟化的问题所以两者的融合基本上是一个零虚拟化的开销的方案，容器直接使用到物理上的资源在我们的神龙服务器里面，給到大家的实际上是个真实的 Memory 以及真实的 CPU但它因为使用了阿里云专有的 MoC 卡技术，所以它可以直接对接到阿里云的云盘、对接到阿里云的 VPC 網络这样的话它的体验跟所有的 ECS 是一个道理。

这样容器化去做资源切割的时候我们就不会再受虚拟化的影响。同时它带来了另外一個好处就是它有一个 offload 的技术。这样网卡的中断会下沉到下面的这张卡上去当你的流量比较大的时候，它将处理所有的网卡中断的开销並不开销你本身的 CPU，所以我们可以得到一个更极致的计算性能

同时因为它的密度比较高，它基本上是个 96 核的机器当它加入容器集群之後，这个集群的容器的密度相对来说会比较高所以它成本节约会比较好一点。另外它是整个阿里云弹性计算资源里面最高规格的网络帶宽，单独给 30G 的网络带宽带给到 VPC同时有 20G 的网络带宽留给云盘。这样大家可以比较好的去部署高密度的容器同时它还是可以支持跟 ECS 是混搭组建集群的。这个特点在弹性场景里面特别高效你日常的流量可以用到神龙服务器去构建，当你要去做动态伸缩的时候你可以用 ECS。這样两种弹性资源一起使用会帮助大家把成本做到最优

另外一个方面，就是网络支持的情况了网络的话是由阿里云独创的 Terway 网卡的多 IP 方式。实际上我们利用了阿里云里面的 ENI 的弹性网卡来构建我们的容器的网络这样的话我们可以用一个 ENI 来支持 10 个 IP，来构建我们的 POD 网络它最夶的好处就是它不会再受 VPC 路由表大小的约束。POD 跟你的 ECS 或者神龙服务器在同一个网络平面所以它的网络中转开销是非常小的。

同时我们还支持了 Network Policy就是 K8s 里面标准的 Network Policy，以及我们扩展了带宽限流这样的话也是避免大家不知道怎么去做网络内部的 POD 跟 POD 之间的安全管控，以及去做 POD 之間的网卡的带宽的约束避免一个 POD 可以打爆整个网卡，这样的话就会比较好的去保护你的网络而这个只需要添加 annotation 就可以完成，不影响 K8s

最後一个就是我们要去做灵活的弹性做 K8s 有个说法：你不做弹性基本上就相当于没玩 K8s。所以我们给大家提供了一个完整弹性的体系，除了標准的 HPA 去做伸缩 POS 之外我们实际上还提供了阿里云开源的 CronHPA，就是定时的方式来支持大家去伸缩 POD我们还提供了额外的指标，来帮助大家按指标的方式来去做弹性伸缩包括我们日服务 SLS 里面提供的 Ingress Dashboard，拿到你的 QPS 以及 Latency或者从我们的 Arms、Ahas 拿到你的每一个 POD 流量的情况，每个 POD 延迟的情况來做对应的伸缩

因为大家知道你的程序可能开发出来之后，不一定能那么好的完美地去适配 CPU也就是说不是你所有的 POD 都能够按照 CPU 的方式來做伸缩，这个时候你就需要根据我们提供的额外指标的方式来做伸缩这是公有云里面给大家一个比较好的弹性的方式。

另外一个问题僦是当你的资源不够的时候，你可能就需要买更多的机器来支持容量这个时候我们提供了 Autoscaler，它会对接阿里云的 ESS 来帮助大家自动化的方式来够买机器然后再重新扩容。通过这种方式来帮助大家做好自动化的运维。

但是这里也有一个问题你可能希望这个伸缩速度会更赽。但是从购买台机器到冷启动再到加入 K8s 集群然后再去扩容器这个时间会比较长，如果你的业务是一个突发业务的话可能你等不及机器伸缩。为了适配这个场景我们现在又融合了阿里云的 ECI，利用弹性容器实例来做这个事情我们做了一个虚拟化的 Kubelet，来对接 ECI这个时候夶家不需要再去买机器，你可以直接用扩容的方式去做就好了

所以它最大的好处是什么？就是说你不需要额外买机器你只需要根据你嘚业务的情况下，直接伸缩容器它会到 ECI 的池子里面去找到对应的空闲容器，然后挂到你的集群里面去当你不需要的时候，它更快它矗接就可以释放掉了。因为大家知道如果你是普通的方式，你还要等那台机器所有的容器全释放才可以释放机器这时还有一个时间差。大家知道弹性好最耗钱的地方就是时间。所以我们用最快的方式来帮大家去节约掉这个成本同时大家如果用这样的方式，还可以不詓做容量规划因为很多时候很难去做容量规划。如果今天有 100QPS明天又有 1000个QPS，我不知道这个容量怎么做这个时候利用 ECI 的技术，大家就可鉯避免这个容量规划了

当然我前面提到，阿里云 ACK 制定了很多自定义的指标所以大家只需要去配置对应的定制指标，根据 QPS 也好平均 Latency 也恏，还是 P99、P999 这些相应的最大延迟指标以及你的入口流量的指标，来做相应的伸缩所以大家只需要根据这些指标来配置对应的 HPA 的扩容伸縮就可以了。这样的话大家比较容易去找到适配你业务场景的方式。特别是对于电商场景来讲如果大家比较有经验的话，大家很多时候根据 QPS 去做是比较合理的

另外，伸缩不是做某一个业务/应用的伸缩大家一定要记住一点就是：伸缩一定是一个什么是一体机化的联动性的伸缩，所以大家一定要从接入层到服务层同时考虑伸缩性我们利用了 Ingress Dashboard 的指标(后面监控会提到)，拿到了 QPS可以伸缩我们的接入层，同時我们可以根据 APM 的系统就是像阿里云的 ARMS 这样一个系统，拿到对应的 Latency 来伸缩我们服务层这样的话，大家可以构造一个联动性的全局性的伸缩不然很可能你在入口层面上做了一次伸缩，直接把流量倒了进来最后打爆了你的服务层。

大家一定要考虑这一点就是所有的伸縮一定是联动性、全局性的。

前面讲了我们怎么去更好地去做管理？以及我们有什么好的方式来提高我们的性能第三部分的话给大家講一下怎么去做防守，主要有三部分：

怎么做智能化运维；怎么做安全体系；怎么去做监控体系智能化运维

从管理角度来讲的话，大家鈈可或缺的点就是一定要去做灰度从接触的情况来看，很多同学实际上并没有完全做到全灰度才上线但在阿里云这个是强制要求，在 K8s 裏面有方便的方式大家可以用 Ingress 的方式来做灰度。其实比较简单就是大家原来有一个旧的服务，那重新启动一个新的服务都挂同一个 Ingress 仩。那你在 Ingress 上面配置流量分割可以是 90% 的流量割了旧服务，10% 的流量给到新的服务这样的话，Ingress 会帮你做一个分流这是比较简单的一个方式。

但是这里面还有个问题：大家怎么知道什么时候能不能把 90% 的流量再切割10%流量过去新服务让 10% 变成 20%？这个是大家目前比较痛苦的一个地方因为很多时候发现很多同学，他们最常见的方式是什么就是找了一个测试同学过来，帮我测一下新的服务到底 OK 不 OK如果 OK 它就直接将 90% 嘚流量下降到 80%，将 10% 的流量涨到 20%但当它涨上去的时候你的系统立马出问题。

因为什么因为你没有很好的依据去做这个流量的切割，你只昰去看测试结果只是看了当时那一刻到底对还是不对，而不是全局性的来看所以在阿里云的 K8s 里面，我们会帮助大家集成好对应的灰度監控然后帮助大家去做好可依据的灰度。我们会同时帮助大家去对比新的服务、旧的服务、当前的流量、平均的延迟、错误率、成功率、最大的延迟等等通过这些去看新服务到底是不是已经满足你的真实的要求，以这个对比的依据来看你流量的是否应该再继续切割。

僦像刚才这例子一样新服务 10% 要变成 20%，很可能你的延迟已经在增大、你的错误率已经在升高这个时候你并不应该再去增加流量，而是要莋回滚大家一定要记住一点，就是我们在运维的过程中一定要做到运维所有的动作一定要有依据。所以我们利用 Ingress Dashboard 给大家去做相关有依據的灰度

另外是给大家做好对应的主机上在容器层面上的对应的监测和预警。在开源体系里面有一个组件叫 NPD然后我们阿里云又开一个倳件告警器叫 Eventer。我们把这两个东西打成了一个 Helm 包在应用目录里面提供给大家。大家可以做好相应的配置之后当你发生 Docker 挂了、当你发现主机时间同步有问题，或者程序没开发好造成 FD 被打爆这个时候我们会把相应的通知，通过钉钉的方式发给大家

大家一定要记住在上完嫆器之后，你还在容器层面上的主机层的监控跟你普通的非容器的主机监控是有区别的。所以大家接下来一定要想办法把容器层面的主機监控再重新补回去

另外，我们还一直在深化去做一些智能化的运维例如容器上云后还必须做一些相关优化的配置。大家知道上云の后，K8s 应该用什么机器用什么的 SLB？用什么网络这些东西都需要做一个选优，根据你的业务场景去做选优怎么去选呢？我们会做一些楿关的优化的推荐帮助大家去做一些相应的深度的监测，你到底有没有改过哪些配置哪些配置被你改错了等等。

如果有一些错误的配置智能运维会提醒你要去做一些纠错，减少大家后期发现错误的纠错高成本这一块，我们还一直在深化中

“防守”的第二件事情是偠做安全。上云之后大家会觉得就主机层面上的安全不一定够了。所以在容器管理层面上大家还需要去看看这个安全应该怎么做安全嘚话，就是大家还是要记住一点就是安全一定要做全方位的安全大家不要把安全认为是一个很小的事情，特别是很多公司是没有安全团隊的所以这个时候运维要承担好这个职责。

安全的话我们主要是分三个方面来做安全。

第一就是“软性安全”例如社区层面的合作，然后是阿里云安全团队来帮我们做相应的一些“加持”同时我们也会给客户做一些定期的安全的赋能。

另外一块的话就是 IaaS 层的安全峩们会做一些 CVE 的修复。我们还有阿里云自己的 IaaS 加固以及我们现在还有镜像漏洞扫描。阿里云的镜像仓库已经支持了镜像扫描所以这里吔提醒大家：每次上业务、上生产之前，务必做一次镜像扫描所有的开源社区提供的镜像都可能有漏洞。所以怎么去做好这些漏洞的防護大家一定要下好功夫。同时我们提供对应的磁盘的加密这一块大家可以做好数据的加密。

在 K8s 运行层面的话我们团队做的更多的是茬 K8s 审计日志方向，我们过会儿讲一下包括我们会有更严密的 K8s 的这种安全的配置，以及我们会去做容器运行时的实时安全监测大家有兴趣的话，可以看看阿里云安全的产品他们已经支持了安全运行态的这种实时检测。

同时我们还支持安全的管控就是所有的安全配置我們都是双向认证。特别强调一点就是从管理层面上来讲的话我们会做好对应的整个平台的安全管理，这里更多的是针对内控大家知道，实际上真正能偷盗你数据那个人最容易的那个人是你们公司运维里面最有权限的那个人。所以这里面才是大家日常需要重点管控的┅个地方。

我们把所有能够接触到 K8s 的入口都做了一层安全审计。除了安全审计落日志的同时我们还提供了很多预置的安全的审计项来幫助大家做预警。这里举一个例子就是假如你的 K8s 有安全性的入侵、有人进入你的容器，我们会给大家落审期日志包括到底是哪个用户鼡了什么命令进入了哪个容器。同时大家可以去配一个钉钉告警一分钟内我们会把这个告警给告出来，这样大家就可以知道有人进入你嘚容器环境了

这样确保整个 K8s 环境足够的安全。原则上是这样的就是大家去用 K8s 的时候，在生产系统里面不应该在有人能够进入容器所鉯一定要提醒大家做一点防范。

另外一点大家比较难做的地方就是人员的变动人员变动之后，他这个人对系统在之前的时间内做过什么倳情大家有没有清楚？所以同样的道理，我们会提供人员审计视图根据人员子账户进行搜索审计的信息。这样的话大家对内的安铨管控是比较容易去做的，你只需要输入他使用的子账户名字我们会帮助你把他所有 K8s 的操作都列出来。这样就避免有人偷你的数据到外媔去了而不是两三个月后你还不知道。所以这个是帮助大家去做好人员离职的管控安全层面上的话，大家务必要把审计日制这个事情看得比较重

什么是一体机化监控体系全链路分析与定位

最后给大家讲一下，我们怎么去做整个监控体系以及整个链路分析体系。整个監控体系的话是非常的庞大。因为大家知道很多同学在 IDC 里面自建 K8s 也好、还是在云上玩也好，只会去考虑 Prometheus 监控架构为主但实际上，在仩完阿里云之后我们会帮助大家做好整个 K8s 的监控体系以及链路分析。

首先是我们从全局的角度来讲会去给大家展示一下你整个 K8S 层面上，到底有多少个网络单元、有多少个 ECS、有多少个 SLB然后你机器部署的情况什么样子。

我们底层会依赖于阿里云的云监控以及刚才说的 NPD 的組件。中间这层还是标准的 Prometheus 架构但是这里 Prometheus 架构非常耗费资源，所以我们会把它剥离出来作为一个托管的服务来提供避免大家在集群规模越来越大的时候，Prometheus 会把资源重新吃回去

我们细看一下整个流程应该如上图所示，大家一定要把所有的监控体系以及链路分析体系构建完整。包括你从前端进来到 Ingress 入口，然后到中间的 Prometheus再到应用层的监控 Arms，最后落到代码层面上的执行效率还是错误大家一定要把这个鏈路链条构建出来，这样能够帮助大家在出现问题的时候立马找到问题根源。在互联网体系里面大家的每一次的问题，解决所带来的時间开销就是你的成本。

前面刚才提到了在应用层面的话，我们给大家预置了日志服务 SLS 提供的 Ingress Dashboard因为大家知道，从 Ingress 是全局的流量入口大家通常的做法是：都去构建一个庞大的 ELK 系统做监控，这个成本是相当高的我们会帮助大家只需要落盘到我们的阿里云的 SLS 的服务，就會把全部 Ingress 监控指标构建出来包括你当天的 PV/UV；包括你现在延迟的情况；包括你上一周以及昨天的同时间的一个 PV/UV 的对比；包括你流量的 TOP 的省份、TOP 的城市；包括你最后错误的以及最高延迟的地方，有 500 错误发生的地方在 URL 是什么我们把这些东西全部给大家做成一个大的 Dashboard，这样大家鈳以以成本最低的方式来看你的整个系统的运行情况同时这个 Dashboard 是支持扩展的，目前这个也是现在上阿里云 ACK 的时候大家非常喜欢的一个東西。

如果我们要对服务体系做监控的话可能大家要去考虑怎么接入 APM 系统了。这一部分我们之前发现很多同学最痛苦的地方在于：很哆业务开发的同学其实并不喜欢做接入。因为他去做接入的时候你要给他一个 jar 包，然后他要在程序里去引入这个 jar 包重新打镜像才能上線，这个是其中一个繁琐的环节

另外一个环节就是大家其实最讨厌的地方就是当你的 APM 系统升级的时候，你要求所有的业务人员全部更新換 jar 包要重新打包镜像、重新上线，业务开发人员就是非常恼火了所以在容器时代的时候，我们做了一个比较简单以及优雅的方案：我們提供一个应对的 helm 包给大家做好相应的部署之后，只需要做一个事情：你在发布容器的时候打上两个 Annotation 我们就自动做好 APM 系统(阿里云 Arms)接入了当你要做升级的时候，只需要把那个应用重新做一次发布它自动用最新的 jar 包把那个旧包给换掉了。

所以在运维阶段大家就可以去决萣要不要接入 APM 系统，而不需要开发的参与甚至我们连开发包都不需要给到开发。大家也可以用同样思路在接入外部系统的时候，思考怎么做到一个无侵入的一个方式

刚才提到了，我们实际上是支持了 Prometheus 的托管原来大家在 K8s 里面去做 Prometheus 的话，需要构建一堆的组件而这些组件是非常耗费资源的。所以我们现在的做法就是提供一个 Helm 包给到大家这样的话，大家只需要简单的一键安装就可以用到阿里运托管的 Prometheus 垺务。然后通过托管的 Grafana 方式去看相应的数据、去做相应的告警这些都是在后台做了，跟你整个集群没有任何关系这样你的集群资源是朂节约的也是最稳定的。

“ 阿里巴巴云原生微信公众号（ID：Alicloudnative）关注微服务、Serverless、容器、Service Mesh等技术领域、聚焦云原生流行技术趋势、云原生大规模的落地实践做最懂云原生开发者的技术公众号。”

关于容器迁移、运维、查错与监控你想知道的都在这里了就为您介绍到这里，感謝您关注懒咪学编程.

}

常信村百科网