网络知识 娱乐 亚马逊芯片掌舵人自述:我们还有更多自研计划

亚马逊芯片掌舵人自述:我们还有更多自研计划

来源:内容由半导体行业观察(ID:icbank)编译自amazon,谢谢。

Nafea Bshara是亚马逊网络服务副总裁兼杰出工程师,也是亚马逊于 2015 年收购的以色列芯片制造商 Annapurna Labs 的联合创始人,他和他的朋友兼 Annapurna 联合创始人Hrvoye (Billy) Bilic一样,长期以来都很低调。

“我们几乎不做任何采访;我们的理念是让我们的产品说话,”Bshara 解释道。

自 2015年以来,这个团队推出的产品和硅创新已经引起了广泛关注,因为此次收购带来了五代AWS Nitro 系统、三代(1、2、3 )的定制开发的,基于Arm的Graviton处理器以支持数据密集型工作负载,以及AWS Trainium和AWS Inferentia 芯片,这些芯片针对机器学习训练和推理进行了优化。

一些观察家将美国和以色列Annapurna Labs的芯片描述为 AWS 的“秘密武器”。

Nafea 的芯片之旅始于以色列的Technion 大学,在那里他获得了计算机工程的学士和硕士学位,并且在那里他第一次遇到了 Hrvoye。两人随后继续为总部位于以色列的 Galileo 工作,该公司生产用于网络交换机的芯片和用于网络路由器的控制器。Galileo 于 2000 年被美国半导体制造商 Marvell收购,Bshara 和 Bilic 在那里工作了十年,然后才决定自己创业。

“我们一起开发了至少 50 种不同的芯片,”Bshara 解释说,“所以我们拥有良好的行业记录,并且对客户需求和市场动态有第一手的了解。我们可以看到一些细分市场的服务不足,在我们的配偶 Lana 和 Liat 以及我们的资助朋友 Avigdor [Willenz] 和 Manuel [Alba] 的支持下,我们创办了 Annapurna Labs。”

那是 2011 年年中,三年半后亚马逊收购了这家公司。这两个朋友在亚马逊继续他们的旅程,他们团队的工作不言自明。

去年,行业分析师 David Vellante 称赞 AWS 的“系统架构革命”。

“与 AWS 过去十年定义云运营模式的方式非常相似,我们相信它再次引领未来系统。支撑这些创新的秘诀是专业设计……我们相信这些举措使 AWS 能够适应跨越云、数据中心以及近端和远端边缘的各种工作负载。”David Vellante说。

近日,Amazon Science 与 Bshara 联系,讨论了 Annapurna 的历史、公司和行业在过去十年中的发展历程以及未来的预示。

问:您在 11 年前与他人共同创立了 Annapurna Labs。为什么是Annapurna?

答:我与我的长期合作伙伴比利以及一群相信这一使命的优秀工程师和领导者共同创立了这家公司。我们创办 Annapurna Labs 是因为我们研究了芯片行业对基础设施和数据中心的投资方式;当时它是微不足道的,因为每个人都在追逐手机、智能手机和平板电脑的淘金热。

我们认为该行业对移动设备的投资过度指数化(indexing ),而对数据中心的投资不足。数据中心市场服务不足。再加上人们对开发芯片的低效和非生产性方法越来越失望,尤其是与软件开发相比。软件开发人员的生产力在过去 25 年中显著提高,而芯片开发人员的生产力自 90 年代以来并没有太大提高。在评估这个机会时,我们看到了一个服务不足的数据中心市场,以及一个以更高的生产力和更好的商业模式重新定义芯片开发的机会。这些因素促成了我们创办 Annapurna Labs。

问:过去11年,芯片产业如何发展?

答:芯片行业意识到这一点有点晚,但仍然意识到需要解决生产力和产品上市时间问题。虽然 Annapurna 一直是提高生产力和缩短产品上市时间的先驱,但许多其他人正在追随我们的脚步,并过渡到以构建块为中心的开发思维方式,类似于软件行业如何转向面向对象和面向服务的软件设计。

芯片公司现在已经过渡到我们所说的以知识产权为导向或以 IP 为导向的正确设计方法。其次,芯片行业采用了云。云的采用导致构建芯片的计算能力爆炸式增长。使用云,我们能够以“突发”方式并行使用计算。如果没有云,我们和我们的芯片行业同事就无法交付我们今天所做的硅片。这就驱动创建了一个健康的市场,芯片公司意识到他们不需要在内部构建所有东西,就像软件公司意识到他们可以从开源或其他库提供商那里购买库一样。该行业已经成熟到现在有一个健康的商业模式,可以从Arm、Synopsys、Alphawave或Cadence等成熟供应商购买构建块或 IP。

问:Annapurna Labs 以喜马拉雅山最高的山峰之一命名,该山峰被认为是最危险的攀登山峰之一。你认为你必须攀登的最高峰是什么?

答:我在云端,我不需要爬任何东西[笑]。是的,Billy和我选择 Annapurna Labs 这个名字有几个原因。首先,Billy和我最初计划在我们创办公司之前攀登Annapurna 峰。但后来我们对这个想法感到兴奋,获得了资金,突然间,时间变得至关重要,所以我们搁置了攀登计划并创办了公司。我们之所以称它为 Annapurna,是因为当时——即使在今天也是如此——创办一家芯片公司的进入门槛很高。挑战很陡,风险也很高,所以就像攀登Annapurna峰一样。我们还相信我们想要到达云层之上的一个点,在那里你可以非常清楚地看到事物,而且没有混乱。作为一家公司,这一直是我们的口头禅:避免混乱,并看得更远,以清楚认识到客户需要什么。

问:与更通用的 CPU 设计相比,您在设计用于 ML 训练和推理的芯片时面临哪些独特挑战?

答:首先,我想强调一下我们不必担心挑战:凭借我们为交付多代 Nitro 而建立的强大基础、方法和工程实力,我们对我们在构建芯片和制造方面的执行能力充满信心,他们也能够以高容量和高质量完成这些事。所以这是我们不需要担心的一件大事。机器学习设计是最具挑战性的任务之一,也是我有幸参与的最有价值的任务。现在对机器学习的需求是永不满足的,所以任何拥有好的产品的人都不会遇到任何问题客户需求。需求是存在的,但也存在一些挑战。

首先是客户想要“行之有效”的解决方案,因为他们有足够的挑战在科学方面工作。因此,他们正在寻找从现有的(比如基于 GPU 的机器学习)到AWS Trainium或AWS Inferentia 的无摩擦迁移. 我们最大的挑战是隐藏所有复杂性,因此我们在内部将其称为无聊的迁移。我们不希望我们的客户、科学家和研究人员不得不考虑从一个硬件转移到另一个硬件。这是一个挑战,因为现有的 GPU,特别是 NVIDIA,在开发广泛采用的技术方面做得非常好。客户不应看到或体验我们在开发芯片方面所做的任何艰苦工作;客户应该体验的是,过渡到 Inferentia 和 Trainium 是透明且无摩擦的。这是一项艰巨的任务,也是我们作为一个团队的内部挑战之一。

第二个挑战是更外部的;事实上,科学和机器学习发展非常迅速。作为一个构建硬件的组织,我们的工作是预测客户在未来三、四、五年内需要什么,因为芯片的开发周期可能是两年,然后部署三年。生命周期大约为五年,试图预测科学家和机器学习社区的需求在这段时间内将如何演变是很困难的。与发展不快的 CPU 工作负载不同,机器学习工作负载是非常快速的,并且跟上步伐有点像一门艺术。我会给自己一个高分,而不是一个完美的分数,在执行和成本方面的效率,同时仍然是未来的证明。这是预测三年后客户需要什么的艺术,同时仍按时按预算执行。这些东西只有经验才能带来,我很幸运能成为一个优秀团队的一员,该团队有经验在成本、进度和产品的未来验证之间取得适当的平衡。

问:在最近的 re:MARS 会议上,亚马逊高级副总裁兼 Alexa 首席科学家 Rohit Prasad 表示,语音助手每周与客户互动数十亿次。Alexa 由使用 AWS Inferentia 芯片的 EC2 Inf1 实例提供支持。为什么 Alexa 工作负载利用这种专门的处理而不是更通用的 GPU 更有效?

答:Alexa 是我们希望为尽可能多的人带来的亚马逊技术之一。这也是亚马逊飞轮(flywheel)的一个很好的例子;使用它的人越多,它提供的价值就越大。我们的目标之一是以尽可能低的延迟和尽可能低的成本提供这项服务,并随着时间的推移改进 Alexa 背后的机器学习算法。当人们说改进 Alexa 时,实际上意味着处理更复杂的机器学习、更复杂的模型,同时保持性能和低延迟。使用 Inferentia芯片和 Inf1(实际托管所有这些芯片的 EC2 实例),Alexa 能够以比标准通用芯片更低的成本和更低的延迟运行更先进的机器学习算法。不是通用芯片做不到这些,但如果这样做,代价是更高的成本和更高的延迟。借助 Inferentia,我们可以降低延迟并支持更复杂的算法。这可以让客户获得更好的 Alexa 体验,并从更智能的 Alexa 中受益。

问:人工智能被称为新电力。但正如您刚才所讨论的,随着 ML 模型变得越来越大和越来越复杂,也有人担心 AI 模型训练和推理的能源消耗会对环境造成损害。在芯片层面,可以做些什么来减少 ML 模型训练和推理对环境的影响?

答:我们可以在芯片级别,在EC2级别上做的实际上是在三个向量上工作,这也是我们现在正在做的事情:首先是通过使用更先进的硅工艺来快速降低功耗。每次我们在先进的硅工艺中构建芯片时,我们都在利用新的半导体工艺,其中晶体管更小,相同的工作需要更少的功率。由于我们专注于高效执行,我们可以每 18 个月左右向 EC2 客户交付基于更现代、更节能的硅工艺的新芯片。

第二个向量是构建更多技术,尝试在硬件和算法方面加速,以更快地完成训练和推理。我们处理训练和推理的速度越快,消耗的功率就越少。例如,我们在上一个 Trainium 芯片中创新的技术之一是一种称为随机舍入(stochastic rounding)的技术,这种技术能根据您正在寻找的某些神经工作负载的度量,它可以将神经网络训练速度提高 30%。当您说减少 30% 的时间时,这意味着减少 30% 的功率。

我们在算法级别做的另一件事是提供不同的数据类型。例如,历史上机器学习使用 32 位浮点。现在我们提供多个 16 位版本和几个 8 位版本。当使用这些不同的数据类型时,它们不仅可以加速机器学习训练,还可以显着降低相同工作量的功耗。例如,对 16 位浮点数进行矩阵乘法运算的总功率不到 32 位浮点数的三分之一。在算法级别添加诸如随机舍入或新数据类型之类的能力为相同数量的工作负载提供了功耗的阶梯函数改进。

第三个载体是 EC2 和 Nitro 系统的功劳,我们为客户提供了更多的选择。有针对不同工作负载优化的不同芯片,客户节省能源的最佳方法是遵循经典的亚马逊口号——万能商店。我们提供所有不同类型的芯片,包括多代 Nvidia GPU、Intel Habana 和 Trainium,并与客户分享托管这些芯片的每个实例的功率配置文件和性能,以便客户可以为正确的工作负载,并以最低的成本优化可能的最低功耗。

问:我主要关注机器学习。但是,让我们将注意力转向在云中运行的更通用的工作负载,以及您在用于 Amazon EC2 的 Graviton 处理器上的工作。

答:是的,在某种程度上,Graviton与我们在机器学习方面的工作相反,因为重点是为在 EC2 中运行的通用工作负载构建服务器处理器。通用芯片市场已经存在了三十、四十年,而工作负载本身并没有像机器学习那样快速发展,所以当我们开始设计时,我们的目标很明确。

由于该行业的这一部分发展速度没有那么快,我们认为我们面临的挑战是更快地推动行业发展,特别是在性能方面提供阶梯函数改进,并降低成本和功耗。很多时候你制定计划,尤其是芯片,最初的计划是美好的,但随着开发的进行,你必须做出权衡,实际的产品与最初的承诺相去甚远。在第一代 Graviton 中,我们遇到了相反的情况;我们惊喜地发现,性能和电源效率都比我们原来的计划更好。这在我们的行业中是非常罕见的。

Graviton2 也是如此。正因为如此,亚马逊内部发生了一场大规模的运动,将一般工作负载转移到 Graviton2,主要是为了节省电力,但也降低了成本。对于相同的工作负载,Graviton2 的平均功耗将比同代竞争产品低 60%,我们正在将这些成本节省转嫁给客户。在亚马逊之外,AWS 的前 50 名客户中至少有 48 家不仅进行了测试,而且还在 Graviton2 上运行了生产工作负载。

5 月,Graviton3 处理器面世,但到现在仍然只是开始,因为我们只有三代人进入这个旅程。我们有更多代的计划,但听到客户迁移到 Graviton 是多么无聊,听到所有客户的成功故事总是非常令人满意和有益的。每天来上班,听到数以万计使用 Graviton 的客户的成功故事,真是令人难以置信的满足。

问: 您的工作页面上有 100 多个职位空缺。你在寻找什么样的人才?在 Annapurna Labs 取得成功的员工有哪些特点?

答:我们正在寻找喜欢从事尖端技术工作的人,并以原则优先的方式应对挑战,因为我们面临的大多数挑战以前都没有得到解决。虽然实际经验很重要,但我们更看重正确的思维和原则至上的心态,或从第一原则推理。

我们也重视那些喜欢在动态环境中工作的人,在这种环境中,解决方案并不总是相同的锤子和相同的钉子。鉴于我们以原则为先的方法,我们的许多挑战在芯片级、终端级和系统级都得到了解决,因此我们寻求具有系统理解能力并擅长跨学科工作的人才。对于一个拥有单一学科或单一领域知识的人来说,不愿意通过跨领域学习来挑战自己,很难在Annapurna取得成功。最后但同样重要的是,我们寻找在团队环境中专注于交付的个人。我们认识到创意是“便宜的”,而与众不同的地方在于将创意一直交付到生产。想法是一种商品。执行这些想法不是。

问:我知道Billy和你拥有一样的信念,如果你能梦想,你就能做到。那么您对未来芯片开发的梦想是什么?

答:确实如此,这也是我和Billy想要加入 AWS 的主要原因,因为我们有一个共同的愿景,即我们可以为客户带来如此多的价值,而 AWS 领导层和亚马逊总体上愿意长期投资于这一愿景学期。我们同意被亚马逊收购,不仅是因为资金和我们共同的长期愿景,还因为为我们自己的数据中心构建组件将使我们能够快速交付客户价值。出于多种原因,我们对这种关系感到非常满意,但主要是因为我们有能力在全球范围内对客户产生影响。

在亚马逊,我们的运营规模如此之大,客户种类如此之多,以至于我们能够进行特定于应用程序或特定领域的加速。机器学习就是其中一个例子。我们为 Amazon Redshift 使用Aqua(高级查询加速器)所做的工作是我们为分析提供基于硬件的加速的另一个示例。这些天来,我们最大的挑战是决定优先考虑哪个项目。不乏创造价值的机会。我们能够采用这种方法的唯一方法是 AWS。开发芯片需要大量投资,而从该投资中获得良好回报的唯一方法是进行大量且具有成本效益的开发,而且我们已经能够使用 AWS 开发一个庞大且成功的客户群。

我还应该补充一点,在加入亚马逊之前,我们认为我们确实有长远的眼光。但是,一旦您参加了亚马逊会议,您就会意识到长期战略思维的真正含义。我每天都在学习如何掌握它。可以这么说,我们有一个产品路线图,以及一个延伸到 2032 年的技术和投资战略。尽管未来存在很多不确定性,但我们在一些事情上非常有罪,我们正在对它们进行投资,即使他们可能已经过了十年。我显然不能透露未来的产品计划,但我们会继续代表我们的客户梦想成真。

★ 点击文末【阅读原文】,可查看本文原文链接!

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第3115内容,欢迎关注。

晶圆|集成电路|设备|汽车芯片|存储|台积电|AI|封装

原文链接!