英特尔以数据为中心的全栈创新 解锁智能未来

发布时间:2023-10-14 点击:123
“由于5g的普及,人工智能技术的成熟,再加上现在已经非常完善的数据中心以及云计算技术,我们会有很多的机会能够从一些新的数据里面挖掘出新的价值,能够去洞察各行各业,获得更多的效率提升,带来更多的可能性,从而实现更高质量的数字化转型。”英特尔市场营销集团副总裁、中国区数据中心销售总经理陈葆立表示。为了构建以数据为中心的产品组合,英特尔提供了涵盖cpu、gpu、fpga、asic等不同计算架构满足于各类应用负载的解决方案,并进一步在制程&封装、架构、内存&存储、互连、安全、软件等领域提出六大技术支柱,以满足从云端到网络到边缘的多元化客户需求。
在英特尔看来,这些关键性的技术创新能够彼此作用形成相乘的效应,“我们称之为‘智能x效应’,例如5g可以让人工智能无所不在,人工智能又可以让边缘、5g的连接更加智能化,这种边缘智能不仅是在设备端,还可以在数据中心和任意的地方。万物互联之后,带来了数据量的‘爆炸’,会有更多的机会能够让我们对这些数据进行分析,加速数字化转型。如果有企业没有跟上这个大潮流,没有使用到新的技术、洞察数据的价值,可能就会落后于市场上的其他公司。”
2019年,英特尔投入了占公司营收近19%%u7684130亿美元资金用于研发,除了持续的技术创新投入,英特尔也在加速将包括至强、凌动、fpga、以太网、硅光、傲腾持久内存在内的一系列新品或新技术推向商用市场,以实现数据“传输更快、存储更多、处理一切”的目标。例如在集成ai加速的英特尔第三代至强可扩展处理器中,支持bfloat16使得其在深度学习加速中能够以一半的比特数和更少的软件调整,达到与fp32同等水平的模型精度。同时,其支持的傲腾持久内存200系列可提供每路至多4.5tb的容量,平均内存带宽增加了25%%u3002
英特尔第三代至强可扩展处理器
第三代至强可扩展处理器分为两个产品系列,先行发布的cooper lake定位4-8个处理器插槽,今年晚些时候亮相的ice lake则会支持1-2个处理器插槽,而代号为“sapphire rapids”的下一代至强可扩展处理器预计将在明年下半年发布。未来10年,人工智能和数据分析无疑会成为关键的工作负载,要想让客户在任意平台都能获得高效的数据处理能力,将硬件和软件的融合创新赋能于数据中心、边缘、传感器、移动计算、自动驾驶等各个领域,就变得至关重要。
人工智能和数据密集型服务,是第三代英特尔至强可扩展处理器关注的两个焦点,借助升级后的dl boost技术,以及在深度学习加速架构下的vnni神经网络指令支持bfloat16数据格式,第三代至强可扩展处理器较上一代平台cascade lake 8280在处理图像分类时,计算性能可提升1.93倍。通过支持更多的内核、更高的主频,配合更多的内存通道数和更快的内存速度,第三代至强可扩展处理器在处理计算密集型任务时较以往四路平台的计算性能提高了92%%u3002
据了解,第三代至强可扩展处理器的处理器插槽之间通过upi总线以拓扑架构实现互联,upi通道数较上一代平台翻倍,upi端口数量增至6个,即每个插槽会有6个接口,两两之间就有两个upi总线,多一个upi总线意味着带宽变高了,有利于支持更多的cpu内核、更大的内存、更高的计算速度,相当于有更宽的高速公路,可以让数据在不同的插槽之间传输。“在多路处理器当中,这是非常重要的架构创新。”一位资深的英特尔技术专家称。
内存方面,内存通道每个插槽有6个通道,八路48通道时每个通道都可以支持最高3200mt/s的速度,容量上基于16gb颗粒可在单条内存用rdimm支持64gb、用lrdimm支持256g,搭配傲腾持久内存则可以让每个插槽最高支持4.5t,这样一来,八路最高36t的容量就足以应付各类密集型的应用。
在多路平台上,英特尔对ras功能格外重视,提供了非常丰富的相关支持,可以处理可能出现的内存错误、pcie设备错误,或是cpu内核的错误,利用ras特性实现更好的错误隔离和故障诊断。
为了帮助客户更加灵活的配置多样化的业务系统,英特尔推出了第二代speed select技术(sst),包括sst-pp、sst-cp、sst-bf、sst-tf四种功能。其中,sst-pp(performance profile)是指一个cpu的供电和散热的边界条件是确定的,在这个边界条件下,根据业务的不同需求选配该cpu允许使用多少个核,在使用相应核数时,会提供对应的频率让其运行。同时,也可以在另一种场景下关掉一些或打开一些核,使其工作在另一个频率上。由此,可以在设备平稳运行时通过“一键切换”来满足单线程或多线程的负载,让机器的使用效率最大化。
sst-bf(base frequency)和sst-tf(turbo frequency)可以动态调节运行不同应用时,根据优先级的高低来调配基频或睿频频率,可以保证整个处理器的供电和散热在边界条件下,其他的核会比高优先级的核的温度低一些。
sst-cp(core power)能够在cpu接近满载快要达到供电和散热边界时,自动降频处理来保护cpu和服务器。与之前降频保护时将所有内核“一同下降”不同,sst-cp可以允许客户制定一些核运行高优先级业务,其他的核运行低优先级业务。当运行的负载较满时,可以先减少低优先级的核来保证高优先级的核不受影响。
从int8到bfloat16,英特尔在指令集层面为客户的数据精度处理提供了最优的性能,可以解决各类通用的ai应用需求,并且对tensorflow、pytorch、mxnet等主流框架均进行了优化,完成了对avx-512、dl boost的支持。在提供更高的运算性能、运算效率和内存读写效率的同时,bfloat16对精度的影响甚微,而且数据位宽只有fp32的一半,与升级后的dl boost搭配可让ai训练性能提升93%%u3001推理性能提升90%%u3002同时,英特尔为openvino工具包和onnx runtime环境提供了bfloat16优化,以简化推理的部署工作。
如果使用int8,在不同的深度学习算法、不同的应用数据对象中会有1%%u4ee5内的准确率影响,而对于推荐系统、语音识别、nlp等特定ai领域的应用,通常会需要更低甚至是接近完美的推理加速方案,bfloat16以其6数据位宽的特性实现了降噪效果,获得了更高的精度。
在蚂蚁金服,英特尔与其合作基于3d-cnn i3d video深度学习模型研发了视频分类应用,去识别拍摄视频中的物体正在进行的动作或行为,借助dl boost和bfloat16将训练能力较此前的fp32技术方案提升了12倍,在模型推理上也提升了1.8倍的性能。整个合作工程中,客户只需要把平台切换至第三代至强可扩展处理器即可,选择支持bfloat16的ai框架,无需进行额外的代码和参数调整。
英特尔技术专家介绍称,随着英特尔“one intel”软件战略的推出,英特尔的mkl-dnn软件也进化到了“one dnn”,与最新的tensorflow2.2x版本进行了集成,使得蚂蚁金服直接使用tensorflow就能够体验到bfloat16的优势。
在医疗行业,卫宁健康使用dl boost加速技术进行ai诊断,通过openvino获得了基于各类深度学习框架的支持,在进行胸部影像检测时得到了数十倍的性能提升。在tensorflow应用中,性能提升8.24倍,精度影响仅有0.17%%uff0c在对3个pytorch模型进行加速的过程中,性能有数十倍至百倍的提升。
作为第三代至强可扩展平台的一部分,英特尔傲腾持久内存200系列在单条512gb和dram的配合下,可为客户提供每路最高达4.5tb的容量,以进行内存数据库、密集虚拟化、分析及高耗能计算等数据密集型工作负载的管理。在单dimm的部署下,有着25%%u7684内存带宽提升,并且在之后的ice lake平台可以获得更大的系统性能增长。在数据写入时,傲腾持久内存200系列较nand flash有超过200倍的提升,主要体现在nand ssd的访问延迟在100微秒左右,而持久内存只有几百纳秒的延迟。
在运行模式上,傲腾持久内存200系列同样支持两种模式,其一是memory mode,特点是持久内存会和dram组成一个新的内存整体,由cpu内部的硬件逻辑实现控制。如果客户希望数据可以长久保留,也可以使用app direct mode(又细分为块设备访问或应用直接对内存对象访问),当软件把数据写入之后,下一次可以从原来的地方可以直接取出来,断电之后的数据是存在的,这种模式下,既可以作为内存对象,在写入后保留数据,也可以作为块存储,兼顾对软件应用的兼容性。
英特尔傲腾持久内存200系列
面对云计算时代的弹性需求,传统的数据中心内存难以满足资源灵活配置的需求,持久内存较dram有很大的成本优势,可以通过取代dram的容量改善tco,并且单机里面也可以部署更大的内容容量,实现更高的应用部署密度。同时,持久内存还能够有效缓解i/o的瓶颈,衍生出更多新的内存和存储融合类的应用,像云计算的基础架构、数据库、ai/大数据分析等都是持久内存所擅长的领域。
rocksdb是一款由facebook开源的数据库引擎,既可以作为独立的键值存储方案,也可以作为像mysql等关系数据库的存储引擎,在写入性能上做了大量优化,被不少企业选用

云服务器怎么设置数据库文件
为啥木有D盘-其他问题
操作系统修改失败-虚拟主机/数据库问题
子站设置了首页但是打开-虚拟主机/数据库问题
虚拟主机网站搬迁到服务器
数字雄安.中国-域名及账户问题
微信小程序怎么用电脑打开
双十二为口碑网烧钱,背后是支付宝的焦虑