国产申威HPC放异彩 多核DSP不甘寂寞

上月国内首台全部采用国产中央处理器(CPU)和系统软件构建的千万亿次计算机系统引起不小轰动,外媒也大肆报道中国在HPC以及CPU领域的进展。装机8704片16核的“申威1600”处理器,由国家高性能集成电路(上海)设计中心自主研发,采用自主指令集,济南中心神威蓝光系统性能功耗比超过741MFLOPS/W(每瓦功耗所获取的运算性能)。不过据悉申威是在DEC alpha ISA的基础上发展而来,我国有关部门江南所多年改进而来。

长久以来CPU,GPU始终是HPC设计的不二选择,不过最近TI公司突然发现本为4G通信而在DSP中加入的浮点运算单元可能使其DSP产品线成为高性能计算领域的强有力竞争者。TI公司多核DSP商务经理Friedmann表示最新一代多核处理器完全胜任HPC需求,问题只在于应用实现的完美程度。

胜任这一伟大使命的是TI公司于2010年11月最新推出的TMS320C66x系列DSP,40nm工艺,有单核,双核,四核以及八核规格。与前一代C64x系统只支持定点运算相比,C66x增加了4G通信处理所需的浮点指令。架构基于TI最新的KeyStone,包括8阶VLIW架构,高速交换架构TeraNet,多核调度以及DMA引擎。用于数据和指令的L1 Cache 32KB,每核有专有L2 Cache 512KB。对于主频1.25GHz的8核C66x,单精度Gigaflops为160,功耗仅为10W,即16 SP gigaflops/watt.

据Friedmann介绍,已经有“相当多”的大学和商业HPC客户对DSP技术产生兴趣并安排人手移植应用,TI公司专门成立HPC部门。
第一款适用于HPC的C66x产品将是由4个运行在1GHz主频的八核DSP组成的PCIe板块,由Advantech代工的这块半长PCIe板卡功耗为50W,提供 512 SP gigaflops性能。板载内存大小为4G 1.333GHz DDR3 Memory。Nvidia最新的Tesla 20系列板卡功耗为225W,性能为1331 SP gigaflops,两者的性能/瓦特比分别为10和6。对比双精度运算,TI DSP性能为单精度性能的3/8,Tesla GPU则为1/2。总体来讲,TI DSP在能耗方面都更胜一筹。也许随着Nvidia在2012年推出Kepler,Intel在2013年推出Many Integrated Core (MIC)协处理器以后会提供性能/瓦特比更高的产品,但是TI应该也会相应推出升级产品。

一个待解的问题是如何在DSP上开发HPC风格的软件。

好在DSP与GPU和FPGA不同,它与CPU近似,TI的DSP不需要特殊的编程语言也无需主处理器驱动。通过传统的C语言工具,配套OpenMP或者MPI,整套应用都可以跑在DSP核上。TI的软件开发套件已经提供必备工具,包括C编译器,runtime以及对浮点运算和并行编程的支持。

TI的HPC部门也意识到同Intel和Nvidia成熟的并行编程环境相比还需要提升自身的软件工具,所以如果客户需要,TI甚至考虑移植OpenCL到DSP中。

目前TI的一个8-10人小团队正在基于最新的DSP做benchmark测试并移植一些潜在客户的代码,他们希望能展现出DSP在HPC领域的潜力,同这个领域的主流厂家Intel,Nvidia,AMD一决高下。

2010年半导体供应商排名出炉 博通杀入前十名

2010年半导体供应商排名

前三甲中Intel已经连续19年排名第一,awesome!排名第二、三的Samsung和Toshiba都依靠NAND业务维持不变。

最给力的是Broadcom博通终于杀入前十名排名第十位,三个BU – 宽带/移动、无线及基础架构/网络部门都表现良好,因此在2010年BRCM依靠高于业界平均水平的利润率比2009年增长了53%。

另外值得一提的是排名第四的TI德州仪器。美国时间18号TI公布了第一季度的利润为 $3.39 billion,净收入 $666 million,尤其是前两个月业绩超出预期。关于此次日本地震CEO Templeton认为影响和削弱了对无线基带芯片的需求。

有得意的笑就有失意的泪,AMD和Infineon双双跌出前十名。英飞凌预计截止3月31日的季度表现抢眼,利润大致在994 million euro (about $1.42 billion) ,但是没有了基带业务,退出前十也是必然的。