COMS集群优化管理系统 >>

  建立计算机集群系统的主要目的就是用低廉的价格来实现超级计算机的强大功能和计算能力。因此,如何使集群系统像超级计算机一样的工作是集群建设过程中的最大挑战。另外,如何保证系统软件和用户的应用程序在集群环境下的效率和可靠性,也是一个需要认真考虑的问题。正如IDC的研究报告中指出的那样,集群系统建设的“最大挑战来自于集群系统的管理和软件的复杂性”。如何克服这些挑战,就成为衡量一个集群系统好坏的关键,而集群优化管理系统软件COMS的出现,为应对和解决这些问题提供了一个完美的答案。

  COMS是北京中传蓝海彤翔科技有限公司自主研发的集群管理软件。该系统从集群管理的实际需求出发,在结构上充分考虑了灵活性、扩展性、稳定性和开放性;功能上实现了对集群多个层次的全面管理,包括系统状态、软硬件资源、计算任务、用户数据以及计费信息等,通过将集群所有节点从异构的、松散的状态整合成一个紧密的具有单一映像的“虚拟超级计算机”,实现对集群系统资源有效的管理和维护;此外,在使用上为用户和管理员提供一个友好的Web界面,降低了集群系统的使用及管理难度。如下图所示,从功能上来说,采用Top-Down策略可以将COMS分解为集群状态监控、集群资源管理、集群计费管理、集群个人作业管理、集群数据管理和集群系统管理等六个子系统。

  COMS目前的主要客户包括中科院理论物理所、中国航天二院、长春理工大学、长春光机所等。

COMS的主要特点:

  COMS在Red Hat Enterprise Linux 4 for EMT-64版本的操作系统下实现其各个子系统的功能。Web用户界面的开发基于Apache服务器,采用PHP编程实现。

  COMS的实现不但充分体现了各个子系统之间相对独立性,而且每个子系统也都采用了N-Tier的软件架构,实现了用户界面和业务逻辑的分离。当用户界面接收到通过Web浏览器发出的请求以后,首先对数据进行必要的预处理,然后调用业务逻辑层模块进行处理,待处理完成后,再由用户界面层加载相应的页面模板动态生成HTML页面,并返回给用户。这不仅增强了系统的可维护性,还允许用户定制适合自己的界面,从而提高系统的易用性。另外,在用户界面的开发上使用了AJAX技术,以改善系统的用户体验。

  COMS是一个专业性很强的业务系统,为了简化系统维护的复杂性,在实现时将系统用户分为系统管理员和普通用户两类。其中,系统管理员主要负责集群系统的管理和维护工作,而普通用户主要通过集群系统完成计算作业。为此,将系统管理子系统实现为一个基础平台,除了完成用户/用户组的管理,以及用户的认证、授权以外,还提供了一个集成其它几个子系统的框架。在安全性方面,首先采用了基于PAM(Pluggable Authentication Modules for Linux :可插拔认证模块)的认证机制。LINUX的PAM模块提供了认证(Authentication)管理、帐户(Account)管理、凭证(Credential)管理、会话(Session)管理等多种服务,它允许系统管理员能够灵活地配置应用程序的认证模式。通过配置文件,设定了严格的认证要求,包括帐户有效性、会话模式、密码复杂度等等,用户在登录以及执行任何操作时都必须首先通过系统的认证;其次,系统管理子系统会根据用户类型的不同,在页面上动态生成不同的功能菜单项,而且用户访问某个页面时系统都会对其权限进行确认;最后,当用户进行某项操作时,系统管理子系统都会将其操作以日志的形式保留下来。

  COMS把最先进的技术、开放源码的灵活性和商业级的专业技术支持和服务三方面紧密结合在一起,为各组件提供可靠的、兼容的集成,并及时跟进它们频繁不断的更新。可以说,COMS系统是目前集群系统管理最理想的解决方案之一。

  除了上述的优越性之外,用户采用COMS还将得到一个重要的应用优势:蓝海彤翔作为COMS软件开发者,能够在后续的技术支持服务过程中根据用户应用软件的需要对COMS做出相应调整与优化,是使用其它第三方免费集群管理软件的供应商所无法比拟的。

归纳起来,COMS软件主要特点包括:

  ♦ 集中式的系统管理

  在硬件层次上,对同构或异构的计算机系统实现统一的应用程序安装和硬件指标的实时监控等功能,并解决并行计算的环境设置和底层驱动问题,简化管理大批量计算节点安装、配置和监控工作。在应用程序层次上,提供一套“热插拔”式应用管理机制,实现快速地应用注册、发布、订购、消费和使用统计等功能。

  ♦ 资源的合理分配

  在硬件层次上,集群系统应提供像大型机一样的“动态分区技术”,可以灵活地将节点分组,使集群保持完整性的同时,可以在功能上被分组成独立的区域,提供独立的计算服务。在用户层次上,需要有一种机制确保所有用户都能公平合理地使用计算资源,防止有的用户恶意抢占资源;同时还要提供优先级管理,确保优先级高的用户能优先访问计算资源,并且在计算资源不够的时候,还能抢占优先级较低用户正在使用的资源,以运行高优先级用户的作业。

  ♦ 负载均衡

  提供强有力的负载均衡能力,保证计算服务器的任务分配尽可能均匀,避免出现机器忙闲不均的现象。并且可以根据服务器的负载指标(如:CPU利用率、可用内存数、IO等),采取保护性措施,避免因为任务过多导致系统忙而无效甚至死机。

  ♦ 核算和计费

  提供计费和成本核算机制,对各部门、项目组或人员的资源使用量和使用成本进行统计,包括不同用户、用户组以及单个作业使用的集群计算资源。以饼图、柱状图的方式显示了资源使用的比例关系,以列表方式详细显示了所有的集群使用记录。

  ♦ 安全性管理

  提供完善的用户认证和授权机制,采用集中式的用户管理。管理员能够增加和删除用户帐户,以及设置这些帐户的访问权限,从而确保系统、应用以及用户数据的安全。

  ♦ 用户友好

  基于Web浏览器的管理界面。结构清晰的操作选项,组织良好的系统信息,使集群的管理安全、方便、随处可用。在Web页面上,用户可以方便地提交作业,监控系统负载, 服务状态,任务状态,完成进程控制和文件传输与删除等各种操作。

COMS的服务优势:

  ♦ 提供本地化的集群管理及优化系统

  可根据用户的需求,提供中文或者英文版本的COMS系统。并可根据用户的使用习惯,集群系统管理和应用使用方面的实际需求对COMS系统进行相关的定制开发,充分满足用户的应用需要;

  ♦ 提供快速及时的技术支持和服务

  专业的技术服务人员7×24小时处于待命状态,随时准备为客户提供周到的技术支持和咨询服务。蓝海彤翔拥有三套不同的集群系统以及丰富的软件资源,在接到客户的服务请求之后,一支由以博士和博士后为骨干力量的开发人员和技术支持工程师队伍可以在第一时间模拟出客户所遇到的问题,并以最快的速度给出解决方案。然后由专业技术人员直接通过电子邮件、电话形式为客户提供技术支持,也可以根据客户的实际需求提供上门服务。彻底解决客户的后顾之忧,为集群用户提供最贴心周到的技术服务。



COMS集群优化管理系统的集群状态监控实例