计算机科学杂志
好友分享
  • 主管单位:国家科学技术部
  • 主办单位:国家科技部西南信息中心
  • 影响因子:0.94
  • 下单时间: 1-3个月
  • 国际刊号:1002-137X
  • 国内刊号:50-1075/TP
  • 全年订价:¥ 1000.00
  • 起订时间:
  • 创刊:1974年
  • 曾用名:计算机应用与应用数学
  • 周期:月刊
  • 出版社:计算机科学
  • 发行:重庆
  • 语言:中文
  • 主编:朱宗元
  • 邮发:78-68
  • 库存:187
  • 邮编:401121
投稿咨询 免费咨询 杂志订阅
相关期刊
服务介绍

计算机科学 2015年第01期杂志 文档列表

计算机科学杂志2013年全国高性能计算学术年会
基于随机Petri网的高性能计算系统作业调度及InfiniBand网络互连的性能分析 作者:李智佳 胡翔 焦莉 王伟锋 单位:中国科学院软件研究所 北京100190 中国科学院大学计算机与控制学院 北京100049
33-37

摘要:基于模型的分析技术在系统研究和设计中发挥着重要作用,它具有简单灵活、可扩展性强、高效等优点,其中随机Petri网在性能评价方面得到了广泛的应用.使用随机Petri网为高性能计算机的作业调度系统进行抽象和建模,并将其与InfiniBand网络互连结构相结合来整体分析用户作业的延迟等性能指标.实验表明,该方法是可行的,且具有相对较高的精度.

二阶多面体网格中关键特征控制的表面重建技术 作者:刘鹤丹 王成恩 单位:东北大学流程工业综合自动化国家重点实验室 沈阳110819 东北大学辽宁省复杂装备多学科设计优化技术重点实验室 沈阳110819
38-43

摘要:针对基于二阶多节点多面体网格的表面重建过程中存在的准确拓扑及绘制、传输代价等问题,提出了一种基于关键特征控制的表面重建技术.研究并分析了二阶多节点多面体单元等参插值函数的性质特征,在网格单元棱边插值计算曲面轮廓点,在网格表面及体内提取曲面的几何特征关键点;根据3类插值关键点间的逻辑关系制定了令拓扑准确唯一的面片三角化规则及修复策略,设计了基于关键点的三角面片压缩索引结构.实验结果表明,该方法可准确计算并描述基于二阶多节点多面体网格单元的曲面几何拓扑结构,反映网格单元内部面片的真实凹凸性质,克服了拓扑二义性,具备对不同精度要求的适应性,并有效降低了绘制与传输代价.

基于Julia语言的并行计算方法初探 作者:巩庆奎 张常有 张先轶 张云泉 单位:中国科学院软件研究所并行软件与计算科学实验室 北京100190 石家庄铁道大学信息科学技术学院 石家庄050043
44-46

摘要:Julia语言是一种在MIT许可证下免费的开发中脚本语言(beta 0.2.0),目标是降低并行程序的编程难度.基于Julia现有语法机制,逐步增强Julia语法特性,结合公交线路的平均走行时间统计案例,研究Julia并行编程框架和程序逐步精化的方法.Julia程序支持本地多核心/多CPU并行计算.为充分发挥实验平台的计算潜能,尝试了提高Julia程序计算性能的策略.对案例程序的实验分析表明,Julia并行程序在管理计算核心方面耗费了一定的工作时间,但随着问题规模的增大,其影响可逐渐忽略,从而可获得接近线性的加速比.

考虑虚拟机间性能互扰基于排队网的多层Web应用性能分析模型 作者:杨雷 代钰 张斌 王昊 单位:东北大学信息科学与工程学院 沈阳110819 东北大学软件学院 沈阳110819
47-49

摘要:多层Web应用性能分析是实现资源动态分配和管理、保证多层Web应用性能的重要因素之一.传统的多层Web应用性能分析模型往往假设服务器部署在无性能互扰的服务器环境中且忽略了逻辑资源服务能力对多层Web应用性能的影响.随着云计算的发展,底层物理资源可以通过虚拟化方式形成虚拟资源并向外提供服务,这为多层Web应用的性能保证提供了有效支撑.因此,如何考虑虚拟机性能互扰以及逻辑资源服务能力对多层Web应用性能的影响已经成为云计算环境中多层Web应用性能分析所需解决的关键问题.为此,构建了一个基于排队网的多层Web应用性能分析模型,该模型通过丢弃队列来对目前多层Web应用性能分析模型在并发数限制方面进行扩展,在考虑虚拟机间性能互扰的基础上,提出了多层Web应用性能分析模型参数求解方法.实验结果验证了所提出的多层Web应用性能分析模型的有效性.

渐进式智能回溯向量化代码调优方法 作者:赵博 赵荣彩 徐金龙 高伟 单位:信息工程大学 郑州450002 数学工程与先进计算国家重点实验室 郑州450002
50-53

摘要:为了充分发挥高性能计算机的计算能力,缓解程序员设计和编写并行程序的压力,扩充可用软件集合,设计并实现了利用交互界面深入挖掘程序中的可向量化语句,优化生成代码中的向量化语句,提高生成代码的执行效率.该方法对充分发挥高性能计算机的计算能力,增强系统可用性和扩展应用范围具有重要的意义,同时能够提供有效的辅助手段和工具支持.渐进式智能回溯向量化代码调优架构通过对用户提交的串行程序进行程序分析和变换,采用串行程序分析、数据依赖分析、向量化分析等技术手段,根据分析结果对程序进行变换和优化,自动生成最终的向量化代码.该方法通过分析串行程序中潜在的并行性,将其自动变换为等价的向量化代码形式,大大简化了程序员的工作.

高能物理计算环境中存储系统的设计与优化 作者:程耀东 汪璐 黄秋兰 陈刚 单位:中国科学院高能物理研究所计算中心 北京100049
54-58

摘要:高能物理是典型的数据密集型计算,数据访问性能对整个系统至关重要并与应用的计算模式密切相关.从剖析高能物理的典型计算模式入手,总结出其数据访问的特点,提出针对操作系统I/O调度、分布式文件系统缓存等多个因素的优化措施,优化后数据访问性能和CPU利用率明显提高.大规模存储系统对于元数据管理、数据可靠性、扩容等可管理性等功能也有较高要求,结合现有Lustre并行文件系统的不足,提出了Gluster的高能物理存储系统设计,在进行数据管理以及扩容等方面的优化后,系统已经正式投入使用,数据访问性能能够满足高能物理计算的需求,同时具有更好的可扩展性和可靠性.

基于CUDA的并行AES算法的实现和加速效率探索 作者:费雄伟 李肯立 阳王东 杜家宜 单位:湖南城市学院信息科学与工程学院 益阳413000 湖南大学信息科学与工程学院 长沙410008
59-62

摘要:网络应用服务(尤其是电子银行和电子商务)需要数据加密提供安全通信.很多应用服务器面临着执行大量计算稠密的加密挑战.CUDA(统一计算架构)是在GPU进行并行和通用计算的平台,能够利用现有显卡资源,以低成本的方式提升加密性能.在Nvidia GeForce G210显卡上实现CUDA的AES(高级加密标准)并行算法并且在AMD Athlon 7850上实现串行AES算法.实现的AES并行算法避免了同一线程块的线程同步和通信,提升了GPU的加速性能,加速比要比Manavski的AES-128并行算法提升2.66~3.34倍.在大数据量(至32MB)加密环境下探索AES并行算法的性能模型,并首次从加速效率角度分析加速性能.该并行AES算法在16核的GPU上能最高达到15.83倍的加速比和99.898%的加速效率.

一种基于实测的自动负载建模算法 作者:刘旭 莫则尧 安恒斌 曹小林 张爱清 单位:北京应用物理与计算数学研究所 北京100094
63-66

摘要:负载平衡是影响大规模并行计算效率的一个关键因素,准确的负载建模是负载平衡的基础.提出了一种基于实测的自动负载建模算法.该算法无需用户提供信息,具有良好的理论保证以及近似线性的计算复杂度和完全的并行性.2400个进程上的分子动力学模拟表明,该算法执行速度快,同时能够保证60%以上的负载平衡效率.

高能物理计算环境中KVM虚拟机的性能优化与应用 作者:黄秋兰 李莎 程耀东 陈刚 单位:中国科学院高能物理研究所计算中心 北京100049
67-70

摘要:高能物理是典型的高性能计算的应用,对CPU计算能力要求很高,并且CPU利用率的高低直接影响高能物理的计算效率.虚拟化技术在实现资源共享和资源高利用率方面表现出很大的优势.基于KVM(Kernel-based Vir-tual Machine)虚拟机进行性能测试和性能优化.首先对KVM虚拟机的处理器、磁盘IO和网络IO等参数进行测试,给出虚拟机和物理机的性能差异和定量分析,然后从KVM虚拟机架构上分析影响KVM性能的各种因素,从硬件级、内核级对影响性能的因素包括扩展页表EPT(Extented Page Table)和CPU的亲和性(CPU affinity)展开研究,以对KVM进行性能优化.优化结果表明,KVM的CPU性能的损失率可以降低至3%左右.最后,给出了高能物理计算的虚拟集群,结果显示虚拟机群的计算性能能够满足高能物理计算的需求.

程序阶段性分析和阶段检测技术 作者:张海博 安虹 贺松涛 孙涛 王涛 彭毅 程亦超 单位:中国科学技术大学计算机科学与技术学院 合肥230027
71-74

摘要:对称多处理器的飞速发展和近年来提出的动态异构处理器(DHMP)为性能优化提供了新的机遇.一个机遇是找出程序每个阶段的性能瓶颈,提出了静态程序阶段分析方法,即通过分析结构参数和计算相似度矩阵来找出程序每个阶段的资源瓶颈;另一个机遇是给出动态异构处理器重构的时间节点,提出了DPDA和HTPD两种动态阶段检测算法,检测出阶段的变化能够为动态可重构处理器提供重构的时间节点.DPDA算法效果很好且软硬件实现代价小,而HTPD算法是目前为止第一个使用统计学方法进行动态检测阶段的算法.实验表明,与BBV相比,DPDA和HTPD能避免BBV离线、动态算法需添加额外硬件、结果与编译器相关等限制,并且阶段划分的稳定性和正确率与BBV相当.DPDA和HTPD算法由于本身不依赖额外硬件,因此都能直接在主流处理器和动态异构处理器(DHMP)中使用.

在Intel Knights Corner和NVIDIA Kepler架构上OpenACC的性能可移植性分析 作者:王一超 秦强 施忠伟 林新华 单位:上海交通大学 上海200240
75-78

摘要:OpenACC是一套基于指导语句方式的并行编程语言标准.编程者可以通过在代码中添加符合该标准的指导语句,经OpenACC编译器的编译,将串行代码并行化地移植到加速器或者协处理器上,进而获得异构加速器所带来的加速效果.OpenACC与CUDA和OpenCL这类异构并行编程技术的不同之处在于,它的目的是使编程者在应用移植过程中不需要考虑加速器或协处理器的底层硬件架构,从而降低编程难度.同时它也具有仅需维护一套代码便可在不同硬件平台上运行的优良跨平台性.因此,OpenACC是一个值得研究的并行编程标准.如今的异构加速硬件设备呈现出多元化趋势.在2013年11月的Top500榜单上排名第一的“天河二号”使用了48000块构建在IntelKnights Corner架构之上的协处理器.与此同时,不久的NVIDIA公司最新的Kepler架构GPU产品由于多年来的GPU市场积累也迅速形成了可观的用户群体.对于并非追求性能极限的应用移植者而言,寻求应用性能和移植简易性之间的平衡是相当重要的议题.只需要编写一套代码便可运行在这两种硬件平台上的OpenACC正迎合了用户在移植简易性上的需求.解决了移植的简易性之后,同一个应用在不同硬件平台上的性能表现便成了用户最想了解的问题.通过实验和构建性能模型向读者展示使用OpenACC移植的应用在Intel Knights Corner和NVIDIA Kepler架构硬件上的性能可移植性.

GF(2^m)上椭圆曲线标量乘的硬件结构实现 作者:邬贵明 郑方 谢向辉 吴东 严忻恺 单位:数学工程与先进计算国家重点实验室 无锡214125
79-81

摘要:基于Reyhani Masoleh提出的GF(2^m)高斯正规基乘法实现了三拍非流水的正规基乘法器,并基于该乘法器实现了一种高性能López-Dahab标量乘硬件结构.Reyhani-Masoleh算法利用乘法矩阵的对称性降低了乘法的复杂度;而López-Dahab标量乘算法由于采用投影坐标,计算速度快且可以有效降低存储需求.基于Reyhani-Masoleh乘法器的López-Dahab标量乘结构可以有效利用两种算法的优势,可以达到目前最好的标量乘硬件结构的性能.

一种基于GPU集群的深度优先并行算法设计与实现 作者:余莹 李肯立 郑光勇 单位:衡阳师范学院计算机科学系 衡阳421002 湖南大学信息科学与工程学院 长沙410082
82-85

摘要:深度优先搜索算法在GPU集群中大型图上的简单执行,会导致线程间的负载不平衡和无法合并内存访问的情况,这使得算法的性能较低.为了明显提高算法在单个GPU和多个GPU环境下的性能,在处理数据之前通过采取一系列有效的操作来进行重新编排.提出了构造线程和数据之间映射的新技术,通过利用前缀求和及二分查找操作来达到完美的负载平衡.为了降低通信开销,对DFS各分支中需要进行交换的边集执行修剪操作.实验结果表明,算法在单个GPU上可以尽可能地实现最佳的并行性,在多GPU环境下可以最小化通信开销.在一个GPU集群中,它可以对合有数十亿节点的图有效地执行分布式DFS.

基于布谷鸟搜索的多处理器任务调度算法 作者:杨辉华 张晓凤 谢谱模 韦向远 单位:桂林电子科技大学广西信息科学实验中心 桂林541004 北京邮电大学自动化学院 北京100876
86-89

摘要:多处理器系统在高性能计算中扮演着重要角色.为提高系统的并行性能,基于布谷鸟搜索算法,提出一种新的多处理器任务调度算法.该算法以全部任务的最晚完成时间最小为目标,利用基于任务优先权的编码方式使连续的布谷鸟搜索算法适用于离散的多处理器任务调度问题.实验结果表明,所提算法不仅求解质量高,而且求解速度最快,与目前广泛采用的遗传算法和粒子群算法相比其执行时间缩短超过60%.

基于Pthreads的并行DSRC压缩算法设计与实现 作者:詹科 张云泉 王婷 郑晶晶 张鹏 单位:中国科学院软件研究所并行软件与计算科学实验室 北京100190 中国科学院计算技术研究所计算机体系结构国家重点实验室 北京100190 广州中国科学院软件应用技术研究所 广州511458
90-91

摘要:高通量测序仪产生大量的DNA数据,FASTQ是被广泛使用的存储DNA数据的数据格式.对FASTQ格式的数据进行压缩处理,能有效地节省存储空间.DSRC算法具有压缩比高的优点,因此对DSRC算法进行并行能提高压缩FASTQ格式的DNA数据的效率.基于Pthreads,实现了并行DSRC算法.测试结果表明,当使用4线程时加速比达到3.5.