AI狂飙突进,存力需作先锋

article/2023/9/24 21:17:32

6378baa261ed0b8878129f860b3cb1b3.jpeg

5月30日,在2023中关村论坛成果发布会上,《北京市加快建设具有全球影响力的人工智能创新策源地实施方案(2023-2025年)》正式发布。《实施方案》要求,支持创新主体重点突破分布式高效深度学习框架、大模型新型基础架构等技术,着力推动大模型相关技术创新。

这被业界视为中国将强力推动大模型发展的又一力证。事实上,近期从中央各部委到地方省、市,对于发展AI技术,把握大模型机遇的政策倾斜度不断上升,无论是政策出台密度还是整体战略高度,都达到了惊人的水平。

3605f746fc68635844e2e3ec72c9b1ca.png

有理由相信,中国将实现一场以大模型为突破点的AI狂飙突进。自2017年开启新一代人工智能发展战略以来,中国将在目前机遇窗口中得到再发展,推动AI产业全面爆发。

我们都知道,抓住AI发展机遇,需要以技术突破与基础设施建设为基础,而提到AI产业的基础设施,普遍会提到AI芯片、深度学习框架、预训练大模型,却经常会忽略另一个关键问题:大模型将带来巨大的数据压力,数据存储也是AI发展进程中的支柱。

ChatGPT是这一轮AI爆发的引线,而接下来大模型规模化应用带来的数据难题,其实也早已写在了ChatGPT当中。

面对这种即将到来的压力,中国存力准备好了吗?

从ChatGPT

看AI崛起带来的数据挑战

555392faa54da09f43cd1a15f7412571.png

从2018年谷歌发布BERT,业界开启了预训练大模型之路。大模型的特点是训练数据规模与模型参数庞大,这将给存储带来严峻考验,这一点在ChaGPT中也展现无疑。

预训练大模型所谓的“大”,体现在模型的深度学习网络层数多、链接多、参数复杂,以及训练所用数据集种类更复杂,数据数量更丰富。在深度学习算法刚刚诞生时,主流模型只有几百万参数,而BERT发布时模型参数就已经过亿,将深度学习推进到了大模型阶段。到了ChatGPT这个阶段,主流模型已经有几千亿参数,甚至业界已经开始规划万亿模型。几年时间里,AI模型的参数提升几千倍,如此庞大的数据与模型都需要进行存储,这就成了AI爆发给存储的第一大考验。

此外,大家目前会广泛提到AI大模型采用了全新的模型结构,因此对非结构化数据会有更好的吸收效果与鲁棒性,这对于AI最终效果非常重要,但也带来一个衍生问题:我们需要妥善处理存储和调用海量的非结构化数据。比如说,ChatGPT在升级后加入了识图等多模态能力,因此其训练数据也需要在文本基础上加入大量图片,再比如自动驾驶车辆,每天要将大量实地测试视频存储起来作为模型训练依据。这些非结构化数据,带来了AI相关数据的海量增长,也带来了存储和处理这些数据的难题。

c1b90581ccc244848f13116ba26aaba8.png

据统计,当前全球新增数据有80%都是非结构化数据,年复合增长率达到38%,应对多元化的数据激增,已经成为大模型时代必须克服的困难。

还有一个问题,大模型往往需要频繁读取和调用数据。ChatGPT的数据访问使用量达到单月17.6亿次,平均响应速度在10秒以内,并且AI模型的工作流程包括采集、准备、训练、推理四部分,每个阶段需要读写不同类型的数据。因此,大模型对存储性能也带来了要求。

此外,围绕ChatGPT展开的一系列数据主权、数据保护争议,也提醒我们AI大模型带来了数据安全方面新的风险。试想一下,如果不法分子攻击数据库,从而令大语言模型生成错误信息欺骗用户,其危害结果既严重且隐蔽。

综合来看,ChatGPT虽好,但其对数据存储的规模、性能、安全等方面都提出了挑战。当我们致力于发展大模型和类ChatGPT应用的时候,存储这关不得不过。

4ba25f40a944d693b2e3c50a0e494080.png

中国存力,准备好了吗?

最近几年,我们都在说算力就是生产力。但有算就要有存,存力的极限,也决定了数字化生产力发展的上限。

那么,在接下来必然出现的中国大模型狂飙突进中,中国存力是否已经做好准备了呢?很遗憾,从几个方面来看,今天中国存力的准备依旧不充分,需要进一步升级和发展。我们可以一同来关注一下中国存力存在的几个问题,看看他们是否对应了大模型带来的数据压力。

1.存力规模不足,限制AI产业发展上限

大模型将带来海量数据,那么第一要务就是将这些数据进行妥善存储。但在目前阶段,中国依旧有着存力不够,大量数据甚至无法进入存储阶段的问题。从2022年数据来看,中国数据生产量已经达到了惊人的8.1ZB,位居全球第二。但中国存力规模只有1000EB左右,这意味着数据可存储率仅为12%,绝大多数数据无法得到有效保存。当中国已经明确数据作为第五生产要素的地位,智能化发展需要依靠数据、充分利用数据,却有海量数据难以完成保存,这之间的问题不可谓不严重。中国仍然需要保持高速、大规模的存力增长,才能把握大模型带来的AI技术发展机遇。

2.海量数据冲击下,管理效率和存取效率低

上文讨论过,AI大模型带来的主要数据挑战,是海量数据的管理效率和处理存取效率低。提升存取效率,要求数据以高效率、低能耗的方式完成存写,但目前在中国仍然有75%的数据在使用机械硬盘。相对于闪存盘,机械硬盘容量密度低、数据读取慢、能耗高、可靠性差,相对来说,全闪存具有高密度、低能耗、高性能、高可靠的一系列优点,但中国全闪存替换依旧有较长的一段路要走。

78436304b2e6a22b90769a0c025f5c67.png

3.多重数据隐忧,导致存储安全形势严峻

数据安全问题,已经成为AI公司乃至AI产业迫切关注的问题。在2020年美国的Clearview AI公司发生数据安全事故,造成2000多家客户的30亿条数据泄露。这个案例向我们展现了AI产业的数据安全形势十分严峻,我们必须从数据存储阶段开始重视安全。尤其当AI大模型在国计民生中扮演的角色愈发重要,就更需要存储提升安全能力,以应对各种可能存在的风险。

客观来看,中国存力已经保持了较高的发展速度,但在整体规模、全闪存占比以及技术创新能力上,依旧具有一定程度的不足。一场面向产业智能化需求与AI大规模落地的存储升级已经时不我待。

面向智能时代

存储产业的机遇与方向

e9962b19c7de88365e210ed799790f4c.png

结合ChatGPT所代表的AI大模型带给存储的压力,以及中国存力本身的发展现状,我们可以很清晰得出一个结论:中国存储必须支撑AI崛起,完成大规模的升级。

我们可以清晰看到存储产业的发展方向,这些方向的急迫性与广阔空间,构成了存储产业的重大机遇。

首先,需要扩大存力规模,加速全闪存建设。

全闪存替换机械硬盘的“硅进磁退”,是存储产业多年来的整体发展趋势。面对AI崛起的产业机会,中国存储产业需要加快全闪存替代的实施与落地,最大化发挥出全闪存高性能、高可靠等优势,以应对AI大模型带来的数据存用需求。

此外,还必须注意的一点是全闪存化分布式存储的机会正在加大。随着AI大模型的崛起,非结构化数据的爆发,数据重要性正在显著提升,同时AI已经深入到大型政企的生产核心,更多企业用户倾向进行本地化的AI训练,并且采用基于文件协议的数据存储,而不是数据放到公有云平台,这就导致分布式存储的需求得到提升和加强。

85f32d1a09614f904f004b2f1e683a46.png

二者结合,持续快速推动存储产业的全闪化落地,就成为了中国存储产业发展的核心赛道。

其次,需要提升存储技术创新,适配AI模型的发展需求。

上文提到,AI带来的数据考验不仅仅是数据规模大,更是数据复杂性与应用流程多样性的挑战,因此存储的先进性必须得到进一步提升。比如说,为了应对AI频繁的数据访问需求,存储的读写带宽和访问效率都需要进行升级。为了配合AI大模型的数据需求,存储产业需要进行全方位的技术升级。

在数据存储格式方面,传统的数据格式,比如“文件”“对象”,最初的设计意图并不是匹配AI模型的训练需求,并且非结构化数据的数据格式不统一,使得在AI模型调用数据的过程中,会产生大量对文件格式进行重新理解、对齐的工作,进而造成模型运行效率下降,训练算力消耗增多。

为此,就需要在存储侧形成新的“数据范式(Data Paradigm)”。以自动驾驶训练为例,不同类型的数据都参与到了数据训练的进程当中,如果在存储侧采用了新的数据范式,就可以帮助各种数据统一起来,更好地适配到AI模型训练当中,从而加速自动驾驶车辆的训练工作。打个比方,如果把AI想象为一种新的动物,它需要吃一种新的饲料,如果把传统格式的数据喂给它,就会产生消化不良的问题,而新数据范式,就是在存储侧构筑完全适合AI的数据,从而让“喂养AI”的过程丝滑顺畅。

在AI开发工作中,数据管理的工作量占比巨大,不同数据集之间还会存在数据孤岛问题,而数据编织技术能够效应对这些问题。通过数据编织,可以让存储内置数据分析能力,把物理逻辑上散布的数据整合起来,形成全局视图化的数据调度和流动能力,从而有效管理AI带来的海量数据,达成数据利用效率的提升。

这些存储侧的技术创新,可以让数据存力与AI发展形成更加紧密的契合关系。

此外,需要将安全能力纳入存储本身,强化主动安全能力。

伴随着AI发挥的价值越来越大,数据安全问题带给企业用户的损失也更多。因此,企业必须提升数据安全能力。其中最重要的一点是要提升数据韧性,让存储本身具有安全能力,从源头上守护数据安全。接下来,更多数据韧性能力将被内嵌到数据存储产品中,例如勒索检测、数据加密、安全快照和AirGap隔离区恢复特征等。

值得注意的是,目前业界已经有了面向AI大模型崛起,进行存储全面升级的探索与尝试。华为存储通过高质量的全闪存产品,融合先进的存储技术、内嵌的安全能力,实现了存储创新与AI发展的紧密契合,相向而行。

整体而言,存储产业的发展与中国存力的进步,对于AI大模型的落地,乃至千行百业的智能化升级,都有着举足轻重的意义。脱离了存储的发展,AI带来的数据洪潮将难以妥善化解,AI技术甚至可能由于缺乏数据支撑,变成无本之源,无根之木。

智能时代的机遇与责任,恰好同时摆在了存储产业面前。在华为等优秀品牌的存力探索下,中国存储正迎来史无前例的机会,也在承担时代给予的责任。

很多业界专家认为,大语言模型是AI历史上的“iPhone时刻”,那么AI技术带来的存力升级潮,或许也将成为中国存储产业的里程碑时刻,成为一个黄金年代的序章。

1d551f78aee5b82f2dcf6accbdb8c17e.gif


http://www.ngui.cc/article/show-1200657.html

相关文章

day46-动态规划8-单词拆分问题

139.单词拆分-完全背包问题区分求组合数和排列数 本题可以使用回溯算法进行暴力搜索,但是如何使用动态规划的思路进行求解呢。将字符串可以理解成一个容器,将单词可以当成物品,那么此时问题转化成利用物品能否装满容器的问题。这个时候由于返…

淘宝监控竞品sku数据接口

电商竞品数据监控查询可以通过以下几个步骤实现: 确定需要监控的竞品:首先需要明确自己店铺的产品定位和竞争对手,选择需要监控的竞品。 选择监控工具:根据需求和预算选择适合自己的电商竞品数据监控工具,例如谷歌分析…

archive log list :报错的解决办法

装好oracle数据库之后, 没事在练习sql语句, 看看一些基本的字典表啊啥的 但是当我执行 archive log list这个的时候居然给我报错, 这句话的意思是: 查看数据库的备份和恢复策略,并确定归档文件的具体位置&#xff…

Arthas-Class/Classloader相关命令使用

tip:作为程序员一定学习编程之道,一定要对代码的编写有追求,不能实现就完事了。我们应该让自己写的代码更加优雅,即使这会费时费力。 开头: 我们先说下生产使用频率较高的有哪些:dump、jad、mc、retransfo…

Django框架:优缺点、实用场景及与Flask、FastAPI的对比

Django是一个使用Python语言编写的高级Web框架,它提供了快速开发、可重用和可维护的Web应用程序所需的一切组件。在本文中,我们将探讨Django的get和post请求、优缺点、实用场景以及与Flask、FastAPI的对比。 Django的get和post请求 在Django中&#xff0…

leetcode95--不同的二叉搜索树 II(java)

不同的二叉搜索树 II leetcode95 -- 不同的二叉搜索树 II题目描述 解题思路代码演示二叉树专题 leetcode95 – 不同的二叉搜索树 II 原题链接: https://leetcode.cn/problems/unique-binary-search-trees-ii/ 题目描述 给你一个整数 n ,请你生成并返回所有由 n 个节…

1036 Boys vs Girls(38行代码)

分数 25 全屏浏览题目 切换布局 作者 CHEN, Yue 单位 浙江大学 This time you are asked to tell the difference between the lowest grade of all the male students and the highest grade of all the female students. Input Specification: Each input file contai…

Task 异步编程教程

系列文章目录 Task 异步编程教程 系列文章目录前言常见的用法: Task 异步编程教程目录1. 异步编程基础1.1 异步操作的概念和优势1.2 使用 async 和 await 关键字定义异步方法1.3 异步方法的返回类型和特点 2. Task 类的基础2.1 Task 类的构造方法和静态方法2.2 Task…

Linux :: 【基础指令篇 :: 文件内容操作:(4)】:: head / tail 指令 :: 指定查看文件的部分内容 | 查看前 n 行内容

前言:本篇是 Linux 基本操作篇章的内容! 笔者使用的环境是基于腾讯云服务器:CentOS 7.6 64bit。 学习集: C 入门到入土!!!学习合集Linux 从命令到网络再到内核!学习合集 注&#xff…

Java学习路线(21)——网络通信

一、网络通信三件套 1、IP地址: 设备在网络中的地址,唯一标识 概念: Internet Protocal,简称为IP,全称“互联网协议地址”。 常见分类: IPv4(32位) 和 IPv6(128位&#…