近年来,随着大规模科学计算应用的不断发展,其对计算机处理能力、存储能力及高性能可视化的要求在不断增加。计算机处理或存储能力受技术及成本等因素的制约,为每个用户配备高性能计算、存储及可视化设备既不经济也不现实。一种可行的解决方法是将计算及存储任务分配给不同的计算机,通过共享不同研究机构的计算、存储及可视化资源来实现大规模科学计算及可视化应用。这种方法可以有效地节省成本,提高资源的利用率。
与此同时,当今科学计算问题的复杂性在不断增加,它需要不同领域、不同国家的科学家共同协作才能取得突破性的成果。因此,必须构建一个高速网络将这些科学研究工作者、高性能计算及存储设备、高精密仪器及可视化设备关联起来,实现不同地理位置之间海量数据的高效传送。光子网格(opticalgrid)是在上述背景下发展起来的一种新兴技术.它通过光网络将终端用户、计算、存储等资源关联起来,从而实现远程海量数据的高速传输。
光纤及光网络传输设备的大范围敷设及广泛应用为互联高性能计算机、大型存储设备、高清晰显示设备及大型科学仪器提供了可能。目前,在10Gbit/s及更高速率上,与IP交换机相比,光交换机具有更低的功耗和成本。光网络可以提供低成本、高带宽、高可靠性光连接,已被绝大多数研究机构甚至一些个人用户所接受。
光子网格不等于简单地用光网络来提供大数据传输。要有效地支持网格应用,传统的光通信网络及网格技术面临着一系列的挑战。
首先,要支持网格应用,需要为大量的用户和终端设备提供从Mbit/s至Tbit/s量级的传输带宽。用户对带宽的请求具有突发性、并行性、大规模、多种粒度并存的特点,而光网络的带宽资源及网格的计算与存储资源均是有限的。很显然,为每个用户任务提供专用的光通路既不经济也不现实。因此,光通信系统需要支持不同类型、多粒度、突发性带宽需求,具有按需分配带宽的能力;提供组播和广播能力;同时,系统为满足应用需求,还需要为用户或应用提供自组织、自管理和自控制分布式网络资源的能力,支持灵活、快速的通道建立。
其次,网格应用不同于通信网络上的点到点通信业务,它具有分布式、多任务流的工作特点,多个任务可以分配至不同的计算资源上并行运行,不同的任务分配方式会导致不同的光网络资源分配方式。即使计算资源分配方案是确定的,由于光通道源、宿节点对之间可以有不同的路由选择,因此光网络资源将有不同的调度方案。而不同的任务分配方法又会导致不同的任务完成时间。因此,要在给定的限制条件下高效地完成一个给定的业务,系统必须支持大规模的分布式并行网络服务,必须合理地描述各业务流程之间的相互关系,并通过一种全新的方式来协同调度计算资源及光网络资源,否则将直接导致系统运行效率及资源利用率的降低。
再者,目前网格计算在完成资源发现、任务调度的过程中,通常不考虑网络资源的限制及可用性,并且缺少从网络中获取可用的网络资源信息的发现机制。而在实际应用中,网络资源是一个影响系统效率和应用功效的重要因素。因此,必须寻找一种新的资源描述、资源发现及资源更新机制,以实现对计算资源和网络资源的统一管理和合理利用。
最后,网格应用的多业务流、大数据量特性要求通信网络具有更高的安全性及数据正确性保证。虽然网格具有一定的容错机制,网络也具有一定的保护/恢复能力,但是如何根据用户的QoS需求,通过光网络和网格的协同操作来实现更高级别的系统容错,以保证网络的安全性及网格用户与通信网络接口的安全性,也是需要解决的问题。
|