热点资讯
网上炒股配资网 你的位置:网上炒股配资网_实盘股票配资操作_国家合法股票配资 > 网上炒股配资网 > 知乎周源:AI训练中合成数据潜力巨大,但需明确标准和质量
知乎周源:AI训练中合成数据潜力巨大,但需明确标准和质量发布日期:2024-03-10 05:15    点击次数:157

2024年是全国政协委员、知乎创始人兼CEO周源履职的第二年。深切关注人工智能发展、“新职人”群体等话题的他,从行业经验和个人思考出发,带着五份提案和建议来到今年全国两会。

在接受南都记者采访时,周源表示,未来几年,大模型领域的中文语料数据短缺问题会非常突出,亟须各方重视。同时,今后合成数据在整个AI训练与研发过程中拥有巨大潜力,但需先明确定义其标准质量、使用范围等。

新质生产力指向提升经济发展的质量和效率

南都:今年政府工作报告提出,“大力推进现代化产业体系建设,加快发展新质生产力”位列2024年政府工作任务首位。你今年也带来一份关于推动新质生产力发展的提案,结合自身工作,请谈谈如何理解高质量发展中的“新质生产力”?

周源:首先,高质量发展不仅仅要注重数量和规模的提升,也是对经济发展提出更多科技创新要求的一种发展模式。高质量发展比较看重新技术所驱动的行业变化,看重绿色环保,以及充分就业、公平分配等等,其中还包含了持续加强国内统一大市场建设的要求。

说到新质生产力,我认为,这是科技创新和技术发展的背景之下,一种新产业、新业态和新模式的集合。新质生产力本质上代表了生产力发展的新趋势和新变化,它指向提升经济发展的质量和效率。从某种意义上来说,也可以认为新质生产力是高质量发展的必要条件,它确实是很重要的内在要求和着力点。

南都:从互联网行业来看,新质生产力有哪些发展方向?

周源:对这个问题,我想分享的观点是,可以把新质生产力拆分成人、生产资料和工具来看待。

首先,可以把整个互联网都当作一个工具,这个工具可以帮人们实现知识分享、信息交换,完成在线交易、娱乐活动等等。AI加上互联网又可以变成一个新的工具,可以认为AI是对原有互联网媒介形态的一种新的赋能。

其次是人。我坚信新的技术对人是一种赋能。互联网本身是一种工具之外,也聚集了大量的活跃用户,用户在网络上进行显性化交流并产生各种各样交易。人被AI赋能后,“AI +人”成为了新一类的互联网使用者。

举个例子,人每天只有24小时,每天能够完成的事情有限。但现在AI技术让人的能力得到拓展、时间得到释放,就好像汽车拓展了人的双腿,无线电放大了人的声音。

再者是生产资料。笼统地看,目前互联网生产资料都可以被看作是数据要素。无论是内容、商品,甚至是直播间里的一次对话都可以视作数据要素。当有了AI,这些生产资料都能转变为互动对象。

比如,以前商品本身具备很多信息,但它不能说话,所以需要人的介绍和推销以实现交易。有了新的技术后,商品就可以和顾客“互动”。设想一个场景,顾客询问商品“你能不能干这个?”,它能回答“我不行”;再问“你能不能干那个?”,它能回答“你加点配置就可以”。

新技术来临后,本身就拥有海量用户的互联网公司有机会在人的能力层、生产资料的新形式、工具的能力层三者基础上推动变化的发生。从这个层面来讲,我觉得有很大的想象力。

南都:你在提案中提到,“新职人”群体是拉动未来产业发展和形成新质生产的重要引擎。当下哪些新趋势给“新职人”带来了机遇?“新职人”似乎大多依附于互联网、数字经济等,未来是否有更多破壁出圈,与实体经济连接的途径?

周源:“新职人”的概念其实不只和互联网领域相关。最近,知乎社区里一位名叫张佳的用户引起了我的注意。他从事的是信息化养猪,在知乎社区上分享了很多养猪方面的心得。我认为他就属于先进农业领域里的“新职人”代表。

新趋势发生的背后,一个比较大的变量来自于人才流动。过去人才流动往往发生在一个行业或者某个专业内部。比如,一个人原来是产品经理,后来去了另外一家公司继续做产品经理,或者从产品经理变成产品总监,这些工作具有相似性。

但从近年来的情况看,跨行业流动已经构成国内人才流动的内循环。人才把原先所在行业里积累的技能、视野、知识带入另外一个行业,已经成为了常态,这也产生了知识流动的红利。

过去一段时间里,很多互联网人才流动到新能源汽车公司,他们带过去的财富并不只是写在企业代码中。互联网公司员工更加了解前端用户的需求,知道怎么去定义产品、怎么做用户运营、推进项目,怎么实现快速迭代等等,这些经验是可以复用的。当人才流动起来后,这些知识经验见解能迅速在其他行业产生“碰撞”。所以说,人才永远是流动的,从人才流动带来的行业变化看,一定可以发现很多新趋势。

中文语料数据短缺何解?合成数据潜力巨大

南都:连续两年全国两会,你都呼吁关注中文语料数据短缺问题,为什么?

周源:目前大模型训练的最大语料库来自UGC生态,也就是每个人在网络上传的知识经验等。但我认为在未来几年里,中文语料数据短缺的问题会非常突出,亟须得到足够重视。这好比如何先构建一个“水库”,再考虑合理使用的问题。然而,现在大家对于构建工作不够重视,反而更看重怎么去“打水”——比如关注如何爬取数据训练大模型等,而这可能还涉及知识产权、隐私安全等问题。

我想强调的是,从大模型新技术的迭代情况来看,中文语料数据短缺问题非常明显,没有好的语料,仅有算力、模型是远远不够的。

南都:面对高质量中文语料数据短缺的现状,不少观点认为,未来合成数据或将在整个AI训练与研发过程中发挥极其重要的作用,你怎么看?

周源:我认为合成数据非常有潜力,这也是一个新的趋势。同时,从现实角度来看,如何去定义合成数据的标准质量、使用范围等非常重要。

知乎上有这样一个问题——“如果互联网上AI生成的内容变得越来越多,到底是好事还是坏事?”问题下面有很多不同观点,引发了我的一些思考。

一个比较极端的情况就是,AI生成了海量内容,这些内容被搜索引擎收录,于是人们看到更多AI生成内容,接着大模型又学习这些AI内容,再去生成新内容……这就出现了生产端是大模型,消费端又回到大模型的情况。那么,这到底是一个正向循环还是负向循环?

人在社会中是会遇到问题的,但AI不会。AI只是一个语言模型,它可以把回答编得特别好,但是它不会遇到那些问题。因此,当AI形成一个绝对闭环的时候,就意味着和这个社会的真实情况脱钩了,它不指向真实性。在我看来,AI产出的新内容都应该来自于人类社会工作和生活中的新问题和新分享。

当然,从技术角度来说,合成数据一定有用武之地,尤其是在数据比较短缺的情况下,它会成为有力补充。但是,我认为一定要明确好合成数据的使用范围,定义好相关标准,因为互联网的真实性和人本身将会变得越来越重要。

网文是重要的IP“蓄水池”,应加大盗版处罚力度

南都:为打击网络盗版侵权行为,近年来国家频频开展“剑网”等专项治理行动。但是新型网络盗版模式仍层出不穷。你认为该如何保护网络文学市场?

周源:根据我的从业经验,盗版是一个很难杜绝的问题,但无法杜绝不代表这个行业不能健康发展,这个问题的评判标准是整个产业规模、产业从业者、产业创造的价值等。

据我观察,我们国家在这方面态度一直非常鲜明,如今网络文学的用户规模可能有五六亿人,整体产值规模十分庞大,且对文娱板块价值重大。网络文学是一个很大的IP“蓄水池”,因此非常有必要对网文行业进行更重点的针对性保护。

当前,新型盗版模式技术水平更高,行为也更加猖獗,打击盗版是一场技术的攻防战。另外,一个值得关注的问题是,著作权人的维权成本很高,但盗版者只要下架盗版作品就能了结纠纷,并没有太大损失。我希望今后加强行业监管和相关立法,让盗版者受到更严厉的处罚。

南都全国两会报道组

采写:南都记者樊文扬 王子黎 黄莉玲