宏富云通过云端实现自动化,提高运营效率

2020-07-22 09:53

作为云解决方案服务提供商CSP和云管理服务提供商MSP(托管服务提供商),宏富云(CloudRiches提供定制的云服务解决方案来满足客户的应用程序需求。 并协助客户在云端之前进行架构咨询和评估,安全建议和检查,制定和实施迁移计划,在云端之后提供客户管理和监视资源,7x24小时技术支持热线,定期对客户资源运行状况进行检查和架构优化建议。 客户办公室地址是深圳市南山区沙河西路深圳湾科技生态园5号楼C座,当前的客户数量是200+


该项目是SAP HANA。用户更加关注HA,并希望从手动到自动无缝切换。由于外国用户访问网络存在延迟,因此以前部署在本地计算机机房中的SAP对高可用性的自我实现提出了挑战。因此,Amazon Web Services已成为行业领导者,绝对优势是客户的首选。首次在EC2上为HANA部署SAP时,他们不需要执行硬件购买过程。Amazon Web Services 区域已经满足许多重要的行业要求。项目可以在需要时启动,而无需任何预先的财务承诺。随着业务和人员的增长,企业的财务帐目,业务和报告数据没有统一的来源,并且经常出现偏差并担心无法控制生产由于SAP HANA结构极大地简化了平台上构建的应用程序,消除了在基于传统磁盘的数据库解决方案上优化应用程序所需的许多传统开销,并且亚马逊云科技具有出色的网络和计算资源,因此决定为HANA部署SAP基于内部讨论,对宁夏地区的亚马逊云进行了研究。


客户面临的挑战


①企业正常经营。

②自动从发生故障的主节点切换到另一个亚马逊云科技 AZ中的辅助节点。

③自动重新配置SAP HANA系统,以便停止从主节点到辅助节点的复制。 辅助节点被提升为新的主要节点,然后可以为SAP使用者提供服务。

④自动关闭发生故障的组件,以避免进一步损坏数据库。

⑤以这样的方式自动更新Amazon Web Services网络拓扑:将使用者定向到先前的辅助节点,该节点自动成为主节点。


使用的亚马逊云科技服务包括:EC2,ELB,S3,EFS。


在应用程序级别,需要进行服务负载平衡以转移两个可用区域。 其中,工作量将集中在HA起搏器部署,路由表设置,IP漂移设置和测试调整上。 而且由于亚马逊云科技中国没有用于HANA的SAP官方AMI,因此我们决定从本地VMWare机器重建AMI,并在迁移到Amazon Web Services时激活许可证,数据层的高可用性在本地基于NFS 由于以上两个部分需要熟悉亚马逊云科技SAP的团队的帮助,因此拥有专业SAP团队的伊克罗德(eCoudrover已获得客户的认可。


如果满足以下主要标准,则客户将把该项目视为成功的项目:功能,性能,HA和成本, 这四个指标是客户最关心的。


就像我们在上面提到的那样,我们的客户希望在亚马逊云科技 CN NingXia区域上部署SAP。 他们会通过此POC知道亚马逊云科技是否满足他们的需求。 我们eCoudrover,如下澄清他们的需求。 在这种情况下,如果我们可以通过POC证明客户关心的指标,那么这个项目对我们来说将是成功的。

a. 可以在正常环境的3层(PRD / QAS / DEV)中部署上载的本地映像。

b. 高可用性

c. DR解决方案的自动备份设置

d. 根据不同的用户角色访问Amazon Web Services 云资源


ASSUMPTIONS:

· 不需要eCloudrover来执行与此项目有关的任何业务应用程序开发;

· 根据客户和eCloudrover的同意,可以在客户的设施现场提供完成此项目所需的某些服务。 完成该项目所需的某些服务可以远程提供,也可以在eCloudrover确定的位置提供。

· 客户将及时向eCloudrover提供与项目相关的任何客户投入和资源。 客户的投入和资源可能包括。

· 与适当的人员接触

· 使用适当的设施和工作区

· 访问适当的文档和系统

· 需要性能指标


Out of Scope:

· 开发API程序

· 系统功能调整

· 购买任何软件许可证


在这个项目中,CloudRiches上传了他的环境映像以进行部署,从而考虑到兼容性问题,给予了足够的时间进行部署。 客户拥有第三方实施团队,因此需要由三个方面进行讨论和实施,这也非常耗时。


使用的亚马逊云科技服务包括:Amazon EC2,ELB,S3,EFS。


伊克罗德提供的解决方案


SAP All-on-Amazon Web Services体系结构。 在亚马逊云上运行的SAP环境通过我们自己构建的VPN连接与本地系统和用户集成。 SAP路由器部署在公共子网中,并分配了可从Internet访问的公共IP地址,以通过虚拟网络计算(VNC)连接与SAP OSS网络集成。 网络地址转换(NAT)网关使专用子网中的实例可以连接到Internet或其他亚马逊云科技服务,但可以阻止实例接收由Internet上的某个人发起的入站流量。 部署时还应注意3层(PRD / QAS / DEV)分离。 相关人员希望拥有不同的权限。 IAM策略将进一步细化权限的粒度。


伊克罗德根据客户需求设计以下架构图:

该项目涉及:

1. 计划

2. 网络设计

3. 部署SAP Hana(应用程序级别HA,数据级别HA)

以下是项目实施的要点:


1、 基础设施

选择地区时,请考虑以下因素:

i. 邻近您的本地数据中心,系统和最终用户,以最大程度地减少网络延迟。

ii. 数据驻留和法规遵从性要求。

iii. 计划在该地区使用的亚马逊云科技的产品和服务的可用性。

综合考虑后,选择CN宁夏地区。


2、 联网

考虑以下因素:


1) 直接互联网连接

连接到在亚马逊云科技上运行的SAP系统的最快,最简单的方法包括使用具有单个公共子网和Internet网关的VPC来启用Internet上的通信。


2) 点到点/硬件VPN

亚马逊云科技 Site-to-Site VPN通过Internet协议安全性(IPsec)隧道将您的数据中心或分支机构扩展到云,并支持同时连接到虚拟专用网关和Amazon Transit Gateway。您可以选择在IPsec隧道上运行边界网关协议。


3) 专用网络连接

通过Amazon Direct Connect,可以轻松地建立从您的房屋到AWS的专用网络连接。使用Amazon Direct Connect,您可以在Amazon与数据中心,办公室或托管环境之间建立私有连接。在许多情况下,与基于Internet的连接相比,这可以降低网络成本,提高带宽吞吐量并提供更一致的网络体验。经过综合考虑并降低成本后,选择站点到站点VPN作为问题解决方案。


3、 安全最佳实践

为了提供端到端的安全性和端到端的隐私,Amazon根据安全最佳实践构建服务,在这些服务中提供适当的安全功能,并记录如何使用这些功能。此外,Amazon客户必须使用这些功能和最佳实践来构建适当安全的应用程序环境。使客户确保其数据的机密性,完整性和可用性对于Amazon至关重要,维护信任和信心也是如此。


i. 安全组充当关联的EC2实例的防火墙,在实例级别控制入站和出站流量。

ii. 网络访问控制列表(ACL)充当关联子网的防火墙,在子网级别控制入站和出站流量。

iii. 路由表由一组称为路由的规则组成,这些规则确定将网络流量定向到何处。 VPC中的每个子网都必须与一个路由表关联。该表控制子网的路由。

iv. 流日志捕获有关往返VPC中网络接口的IP流量的信息。


4、 环境部署三层(PRD / QAS / DEV)

Amazon EC2提供了广泛的实例类型选择,这些实例类型经过优化以适合不同的用例。实例类型包括CPU,内存,存储和网络容量的各种组合,使您可以灵活地为应用程序选择适当的资源组合。每种实例类型都包含一个或多个实例大小,从而使您可以根据目标工作负载的需求来扩展资源。


在Amazon上部署的需要SAP支持的SAP系统必须在EC2实例上运行。ASCN区域没有官方的AMI,因此我们决定使用VM Import / Export作为解决方案,并且将suse用于SAP15 SP1作为作为主要选择。我们决定使用BYOL启动实例,自带许可证/订阅(BYOL)–将您现有的操作系统许可证或订阅带到Amazon Cloud。


5、 HA(起搏器+复制)

使用SUSE Linux Enterprise Server设置起搏器集群。排队复制业务情景的SAP应用程序15。目标是匹配SAP NWHA-CLU 7.40认证规范和目标。我们建议使用我们的自动化解决方案SAPHanaSR设置性能优化的系统复制方案。 SAPHanaSR自动化应该在自己的两个节点集群中设置。在单独的最佳实践中介绍了该设置,可在最佳实践页面上找到。



本文档中描述的三节点方案的完美增强是实现SAP HANA系统复制(SR)自动化。




6、 共享存储

在我们的设置中,目录/ usr / sap是根文件系统的一部分。 当然,您也可以为该区域创建一个专用文件系统,并在系统引导过程中挂载/ usr / sap。 由于/ usr / sap还包含SAP控制文件sap系统和sap主机代理,因此不应将目录放置在群集节点之间的共享文件系统上。我们需要在可能能够运行SAP资源的所有节点上创建目录结构。 SYS目录将位于所有节点的NFS共享上。



在所有节点上创建挂载点和挂载NFS共享

# mkdir -p /sapcd

# mkdir -p /sapmnt

# mkdir -p /usr/sap/HA1/{ASCS00,D02,DVEBMGS01,ERS10,SYS}

# mount -t nfs nfs1:/data/nfs/suseEnqReplNW740/HA1/sapmnt /sapmnt

# mount -t nfs nfs1:/data/nfs/suseEnqReplNW740/HA1/usrsapsys /usr/sap/HA1/SYS

# mount -t nfs nfs1:/data/SCT/media/SAP-MEDIA/NW74 /sapcd…



7、 验证测试

i. 检查sapcontrol或SAP管理控制台的输出中是否显示了SUSE群集解决方案的名称。此测试检查SAP NetWeaver群集集成的状态。

ii. 检查HA配置测试是否未显示任何错误。iii. 检查使用HA工具手动迁移ASCS是否正常。

iv. 检查使用SAP工具(如sapcontrol)移动ASCS实例是否正常运行。

v. 检查节点故障后ASCS实例是否正确移动。

vi. 检查是否正确处理了SAP资源的就地重新启动。 SAP实例不应故障转移到其他节点,它必须在已停止的同一节点上启动。

vii. 自动重启ASCS(模拟RKS)。

viii. 检查消息服务器进程的可恢复和不可恢复中断。

ix. 检查SAP排队服务器进程的不可恢复中断。

x. 检查SAP Enqueue复制服务器的中断。

xi. 检查中断并重新启动sapstartsrv。

xii. 如果可能,请检查滚动内核切换过程(RKS)。

xiii. 检查升级模拟。

xiv. 检查集群资源故障的模拟。


项目成果

1. 节省成本:在检查,优化和调整系统架构之前,可以节省30%的初始帧。

2. 速度和敏捷性:关键系统的灾难恢复环境比内部部署更快地获得云计算和存储资源,从而降低了关闭关键系统的操作难度。

3. 灵活的使用设置:通过将自动脚本与Amazon API集成,可以减少日常维护负担。

4. 提高运营效率:使用定制的CloudWatch主动监视SAP HANA内存数据库的使用情况,然后减轻系统管理员在日常系统检查中的负担。 伊克罗德提供7×24小时运维托管服务,为客户节省运维人员成本。

5. 低延迟访问:使用亚马逊云科技从网络级别提供低延迟访问并提高业务效率。

6. 安全性:根据亚马逊云科技最佳安全性实践,业务应用程序基础架构的稳定性和安全性得到了增强。


使用的亚马逊云科技服务:

· Amazon Identity and Access Management (IAM)

· Amazon S3

· Amazon CloudTrail

· Amazon CloudWatch

· Amazon EC2

· Amazon Site-to-Site VPN

· Amazon VPN

· Amazon Key Management Service (KMS)

· Amazon Elastic File System (EFS)

· Amazon VPC

· Amazon EBS

· Amazon Simple Notification Service (SNS)


经验总结


1. 积极的代理资源滥用和滥用事件-由于SAP系统需要调用海外API或SaaS服务,因此无法直接安排中国区域中的服务器,因此需要前向代理服务器来执行代理工作。在此过程中,我们发现了资源滥用现象。


解决方案:Amazon VPC安全组和Squid ACL配置为仅允许SAP和内部网段中的服务器进行呼叫。同时,EC2的实例大小已从t3.small增加到m5.xlarge。测试1周后未发生滥用行为和非法滥用行为。


2. 升级SUSE Linux ENA驱动程序问题-为了提高SAP系统的冗余性和容灾能力并执行DR夜灯的POC测试,必须安装Cloudendure代理。由于内核的原因,当前的SUSE Linux不支持Cloudendure代理的安装,并且需要安装一些其他的GCC和相关的依赖程序包文件。在安装过程中,内核已升级到4.12.14-95.57-default。内核不包括NVMe驱动程序和ENA驱动程序,从而导致AWS EC2无法正常重启。


3. 错误的网关配置导致服务器无法正常连接-在项目的早期阶段,需要经常更改网络配置,但是错误的更改将使得无法通过SSH登录服务器。


解决方案:我们已经在服务器上配置了系统管理器代理和相应的角色。这样,如果发生问题,则可以使用浏览器查看问题,或者通过系统管理器在命令行上进行操作。


解决方案:删除当前的基于内核默认值的内核,然后安装基于内核默认值的内核。恢复NVMe驱动程序和ENA驱动程序。