![]() Intel 终于在今年 8 月处理器业界年度盛事之一的 IEEE HotChips 29,公布了针对深度学习最佳化的新款 Xeon Phi「Knights Mill」,Intel 鸭子划水多年的 MIC(Many Integrated Core,整合众核架构)总算又多了一点曝光度,但你知道 Intel 的超级多核心产品线,是早在十年前,酝酿于极度疯狂的「x86 处理器架构显示卡」吗? 喔齁。 2006 年底至 2007 年中的显示卡市场,正处于 GPGPU 随着 DirectX 10 与统一着色器架构的实用化,而开始萌芽的关键时刻,nVidia GeForce 8 系列成为初代 CUDA 的载具,AMD Radeon HD 2900 则开双倍浮点精确度之先河,因此一谈到绘图晶片通用运算这档事,完全不缺抬槓的话题。 但当时最欢乐异常的焦点,并非集中在显示晶片双雄的新产品,而是聚焦于 Intel,着手超级多核心多执行绪 x86 处理器架构的「显示卡」,你可把它当成「Intel 的 GPGPU」,虽然它从未在市场现身过。 Intel 首度在 2007 年 4 月北京 IDF(Intel Developer Forum)公开 Larrabee 这个研发代号,并公开呛声「Larrabee 出现后,会使显示核心在两到三年内消失」。但事实上,早在 2006 年底某份未刻意保密的研讨会简报,详细描述了 Larrabee 规格概观,规格比较表还不小心一併爆破了从希伯来文的「砂桥」(Gesher)正名而来的 Sandy Bridge 处理器。 像 Intel 这样的大公司,很难隐藏所有祕密,不提公开的专利,光历年 IDF 和各类学术活动的议程简报,就多次无预警避开该公司法务和行销的耳目,让多年后才会开花结果的机密计画,提前曝光在世人眼前。 加上该文件内,出现某张爆炸性的显示卡架构图,和大剌剌的「Discrete High End GPU」字样,国内外无数知名网站的讨论区,就开始暴动了,还意外波及乏人问津到连蚊子都不想骚扰的笔者部落格,甚至还有电脑杂誌的编辑,高潮到写下「因为一切软体搞定,这将是历史上首款往前相容未来 3D API 的显示卡架构」。 一图胜千言,你可清楚看到,这是 16 核心的 x86 处理器,实际上核心数绝不会这幺少。 接着你就了解,每个支援四条多执行绪的循序执行(In Order)核心,那显眼的 SIMD-16,意谓整颗 16 核心处理器,每个时脉可进行 256 个 32 位元单倍浮点精确度 SIMD 运算,帐面上优于 nVidia 最高阶显卡 GeForce 8800 GTX 的 128 个。 但你会不会隐约感觉到……有什幺恐怖的祕密藏在这张简报里?似乎有什幺不能告人的机密,被前面的方块图挡住了? 各位,欢声雷动吧,感谢原始文件是 PowerPoint 格式,移除挡在前面的动画图片,世界奇观般的「x86 处理器架构显示卡」,包括 GDDR 记忆体、外接电源、视讯输出、音讯输入等近代显示卡的必备特徵,一丝不挂在读者眼前裸奔了。 接连几年的故事,就是 Intel 慢慢面对现实,被迫承认如此疯狂的构想,无力追赶急速进步的 GPU,而「转进」高效能运算和人工智慧的过程。 Larrabee 全貌如下: 现在开始插播脑残问答时间。 Larrabee 是什幺?Larrabee 不是什幺特殊品种的蜜蜂(不过谣传 Intel 内部相关团队的电子邮件签名档,全员都会统一放一只蜜蜂的图示),而是 Intel 发神经搞出来的超级多核心/多执行绪 x86 处理器,号称「单晶片运算能量 1 Tera Flops」,沿用已成骨灰、设计图捐给美国政府的 P54C 等级、连 MMX 都没有的 Pentium 核心,笔者还满担心大多数读者,早就遗忘初代 Pentium 长得什幺样子了。 兼具「CPU 的可编程性」与「GPU 的高平行度」,完美的交会点就是 Larrabee,充分彰显了 Intel 内 x86 义和团的疯狂野心。 看在 AMD 在 2006 年购併 ATI、摆明要整合处理器和显示晶片、与未来两者指令集架构的份上,输人不输阵,Intel 势必有所回应,只是让人意想不到 Intel 所谓「重新启动独立显示晶片计画」竟是让众人眼镜碎满一地的夸张设计,从 i740 到 Larrabee,根本是时空跳跃等级的差距。 在高效能运算市场,nVidia 的 CUDA,是对 Intel 更明显的威胁,对 Intel,开发 Larrabee 是不得不为。 那 Intel 干幺吃饱太闲,要用 x86 指令集,而不是 XScale(前 StrongARM)或 IA-64(Itanium)?看在既有 x86 庞大软体资源的份上,在编译器领域长期投入庞大投资的 Intel,可尽量多卖出几套他们的软体开发工具。事实上,Intel 最热中谈论 Larrabee 的部门,就是急速膨胀的软体事业群。 此外,太多显示晶片技术专利掌握在 nVidia 和 AMD 手上,假若 Intel 不希望被拿着 ATI 专利的 AMD 天天找上法院喝咖啡,这的确是避开专利麻烦的途径,还很可能是唯一的手段。 像 Intel 的 GMA-X3000 的 Triangle Setup 竟然还是用统一着色器硬干出来的,「专利地雷」的潜在威胁有多大,由此可见一斑,欢迎来到专利恐怖主义的时代。 Larrabee 是史上第一颗「单晶片 1 Tera Flops」的产品?完完全全不可能,2008 年底 AMD Radeon HD 4800 就先声夺人了,而且 Larrabee 是起码拖到 2009 年才会问市的产品,在这之前,IBM、Sony 也肯定推出理论运算效能到达 1 Tera Flops 的新版 Cell 处理器。2007 年宣布注定落后竞争对手、还呛可让竞争者 3 年内消失的高技术风险产品,想想也满屌的。 Larrabee 最疯狂的地方是?几乎纯软体的可程式化绘图管线。请见 Intel 自己的呈堂证供,不要吓坏。 Intel 的思维不外乎「老子就是市场的领导者」,宁可发挥自己的影响力,逼迫其他人跟进。更何况,Intel 并不希望 3D 绘图的基础架构诠释权,长期被微软等软体厂商把持。从当初 Intel 蛮干 IA-64 一路到 Larrabee,思考逻辑一点都没改变。 nVidia 黄仁勋当时曾批评,未在可程式化与固定硬体功能取得平衡的 Larrabee,在老旧 x86 架构的拖累下,主要绘图运算都靠可程式化实作,表现势必糟糕,可惜最终我们也无从得知,到底会惨烈到什幺程度。 纯软体绘图管线有什幺好处?可充分发挥 x86 指令集号称易于开发的「潜力」,也可对运算资源做出最大限度的利用。Intel 曾列举了 3 款知名游戏,做为其印证其理论基础所言不虚的令箭。 为何 x86 处理器必须一路叠床架屋,延续指令集相容性,处理器微架构一用就好几年,而显示晶片却相反,微软 DirectX 的 Shader Model 在短短几年就出好几版,显示晶片架构却动辄大兴土木?你有听说过一台个人电脑,开机前要安装「处理器驱动程式」吗?当然没有,但显示晶片却可透过驱动程式,与 I/O 装置的间接性,维持对过往老旧应用程式介面的相容性。 既然如此,我们也可想见,以 nVidia 与 AMD 为首,内建巨大可程式化着色运算单元的高效能显示晶片,其底层指令集架构与相对应的实作加速机制,不像 x86 之类的泛用指令集,有着巨大的历史包袱,可随时针对绘图需求量身订做。 那幺,Intel 选择 x86 指令集第一个问题点就浮现出来了,x86 处理器与绘图晶片双雄的 GPU 相比,两边底层指令集架构的「血统纯正度」,根本天差地远,而我们也有充分的理由相信,后者绝对远比前者更适合绘图系统的需要。 指令品质,以卵击石?也许你会质疑,Intel 只要新增绘图专用指令,不就得了?事实上,Larrabee 并非 Intel 首度尝试将泛用处理器导入绘图应用,早在 1988 年号称「Cray on a chip」的 i860,就为此特别增加绘图相关指令与 3D 绘图功能单元。 但 x86 毕竟就是 x86,其先天不良加上后天失调的原罪,也限制了日后扩充的弹性。以暂存器数目来说好了,在 AVX 和 LRBni 之前,受限于指令编码栏位,导致历代 x86 指令集扩充一次顶多增加 8 个暂存器,但微软 Shader Model 4.0 光是「暂存用的」暂存器就高达「4,096」个。 x86 的双运算元指令格式(像 a+b=b)则是另一个问题点,除了大幅降低暂存器的利用效率(因会摧毁其中一个暂存器的资料,如需重複利用,就必须把资料搬移到其他的暂存器),也难以实作图学常用的乘积和指令(Multiply-Add,如 a×b+c=d),必须使用记忆体当其中一个来源运算元(Source Operand),这也是到了 AVX 之后,才逐渐克服的瓶颈,但仍远远不够。 种种不利因素累积下来,Intel 想拿残破不堪的 SIMD 指令集扩充,去对抗重武装的 GPU,无异以卵击石。细心的读者也可以注意到,Larrabee 第一阶快取记忆体存取延迟只有 1 cycle,摆明用来弥补暂存器不足。但能否迎刃而解,笔者二话不说,打上大大的问号。 其实很多重要观念,早已陈述于先前《一窝疯「人工智慧晶片」前,你需要知道的几件关于 GPGPU 的事》,请有兴趣的读者有空多看几次。 纯软体的 3D 绘图管线是否可行?行文至此,读者心中会产生疑惑:我哪管 x86 指令集适不适合,只要 Intel 真的有本事硬干出一颗真的拥有 1 Tera Flops 效能的 x86 处理器,光凭藉着巨大的「赛猪公」数字,就充满了无限的想像空间和璀璨光明的未来。 这让笔者想起,十几年前,某份描述 PS3 心脏 Cell 处理器的专利被曝光后,「单晶片浮点 1 Tera Flops」成为看似伸手可及的愿景,就有不少人在猜测,PS3 会不会就此放弃独立显示晶片,整个 3D 绘图管线统统透过软体手段实作。 事后证明,还好 Sony 没有发疯,在 PS3 内,乖乖的摆了一颗 nVidia 从 G70 衍生而来的 RSX 显示晶片,而 PS3 搭载的 Cell 处理器,也仅为「完全体」的四分之一规模。 「纯软体 3D 绘图管线可不可行」是非常複杂且需长篇大论解释的题目,唯一可以确定的是,就算要纯软体实作,x86 指令集的适用性,也肯定远远不及 Cell 的设计(如果不嫌弃 SPE 记忆体搬搬乐很麻烦)。Intel 公布的 Larrabee 架构图标明了「Fixed Function」,Intel 看来也没有丧心病狂到把全部的希望,都寄託在一堆简单 x86 核心身上。 用 x86 处理器硬干出显示晶片是一回事,Intel 总得提供驱动程式给用户下载吧?很不幸的,那时候的 Intel 绘图驱动程式品质满糟糕,自己也承认这方面不如绘图晶片双雄,连「正统」GPU 驱动程式都写不好,变态至极的 Larrabee 难道会比较简单?还可支援「未来」的 3D API?无异缘木求鱼。 Larrabee 真正的杀手级应用是什幺?回归原点,Larrabee 真正的优势,在于结合 x86 指令集的巨大软体资源,与 Intel 的高效率编译器,进军高效能运算应用。 姑且不论 Larrabee 能否实现单晶片 1 Tera Flops 的效能表现,Intel 的确颇有机会藉 Larrabee,大举入侵原本由特化 RISC 处理器独领风骚的超级电脑市场,如 IBM 的 BlueGene。 事后证明,Intel 误打误撞走上一条正确的道路,只不过到头来,不得不脱下裤子跟 nVidia 拚了。 国王的晶片Intel 在 2008 年积极宣传 Larrabee,不仅与显示卡製造商洽谈产品案,同时也设法说服 Sony、任天堂和微软,使用 Larrabee 打造新一代游戏机。江湖传言,时任 SCEI 代表取缔役社长、现任 Sony 执行长的平井一夫,曾受邀至 Intel 总部整整被洗脑了一週,差点决定採用 Larrabee 为 PS4 的心脏。 但时程一再延宕,才是 Larrabee 最大的罩门,原先预定 2008 年提供样品、2009 年上市,却整整延后了一年,偏偏 2009 到 2010 年这段期间,又是 nVidia、AMD 开始 GPGPU 硬体规格熟成期「顶上决战」的起跑点,Intel 只能默默站在一旁看戏。 结果 2009 年 11 月 4 日,Intel 正式宣布 Larrabee 不会有消费性绘图产品问世,变相判了「软体实现一切昔日硬体实作功能的梦幻个人电脑 x86 处理器架构显示卡」不可重新上诉的唯一死刑。 2010 年 5 月 25 日,Intel 透过官方部落格,昭告天下,Larrabee 也不会做为图形处理器,而是转进高效能运算市场,与 nVidia 的 Tesla 等专业运算卡正面较量。 同场加映:2008 年,已经和 AMD 长达 3 年合作关係的梦工厂(DreamWorks),转向与 Intel 合作,改用 Nehalem 微架构处理器,搭配 Larrabee 专业绘图卡,做为新世代的动画绘製硬体平台,还由公司高层出面解释琵琶别抱的缘由。让人满好奇 Larrabee 转职为「国王的晶片」后,这档惨剧最后如何收尾。 骑士行进曲:再次放弃独立显示卡市场,转战高效能运算最佳化的整合众核架构后来就是我们熟知的 MIC 发展史,一连串悠扬的「骑士行进曲」,然后 Intel 其余的研究案,像 48 个 x86 核心「单晶片云端电脑」和 80 个 96 位元宽度 VLIW 核心组成的 1 Tera Flops 单晶片,在此就先束之高阁了: 我相信胸怀大志的电脑玩家,内心一定会有一股「有为者亦若是」的冲动: 当年无缘一亲芳泽 3dfx 末代产品 Rampage,网路仅流传几张初版晶片的开机照片,好遗憾,假如可以弄到一张 Larrabee 显示卡,装在自己的电脑跑跑看,一定很酷。天啊,用 x86 处理器做的显卡耶! 即使有 87% 的机率,跑起来慢得要命。 |
宝马娱乐登录网址_新濠天地588|关注民生新闻|获得消费经验|网站地图 宝马娱乐登录网址_聚星注册线路a 宝马娱乐登录网址_大时代登录地址