数据为王:内容生产者正在重新定位 - FT中文网
登录×
电子邮件/用户名
密码
记住我
请输入邮箱和密码进行绑定操作:
请输入手机号码,通过短信验证(目前仅支持中国大陆地区的手机号):
请您阅读我们的用户注册协议隐私权保护政策,点击下方按钮即视为您接受。
双语电台

数据为王:内容生产者正在重新定位

数据资料成为AI时代的战略资产,内容生产者对此应该有更深刻的体会
00:00

{"text":[[{"start":8.33,"text":"作者李世达,本文只代表作者本人观点。"}],[{"start":12.43,"text":"在全球人工智能竞赛火热推进的当下,人们逐渐体认到,大模型进入推理阶段后,数据并不就此失去价值,反而因为动态知识需求而更显关键。“最后一哩”的语料质量与多样性,往往决定了一个大模型的优劣。"}],[{"start":29.12,"text":"这或许是脸书母公司Meta(META.US)斥资143亿美元,战略性投资AI数据公司Scale AI的主要考量。"}],[{"start":37.84,"text":"Scale AI是一家数据标注与数据清洗的公司,专为AI模型训练提供高品质语料。数据标注指为图片、文本或语音资料加上标签,例如标示出图片中的行人或文章的倾向等;数据清洗则是删除错误、重复、无效或不相关资料,提升资料准确性与一致性。Scale AI以海量人力与自动化流程,为OpenAI、Meta、Google等科技巨头提供高质量、结构清晰的数据资料。"}],[{"start":68.81,"text":"优质数据的价值还有另一个例子。美国媒体《纽约时报》宣布,已与科技巨头亚马逊(AMZN.US)签署新闻内容授权协议,将其经过编辑和事实查证的新闻内容投入大模型训练。而此前还有美联社对OpenAI的授权也是如此。"}],[{"start":87.24000000000001,"text":"虽然表面上是“新闻内容的授权”,但实际上也体现了“内容即资料、资料即服务”的逻辑,不仅反映了媒体对自身内容价值的再认识,也揭示了AI团队对高质量语料的迫切需求。"}],[{"start":100.63000000000001,"text":"相比之下,中文世界面临公开可用资源占比极低、专业标注与文化典籍难以大规模数字化等挑战,更凸显了中文语料在本土化AI发展中的关键地位。"}],[{"start":112.83000000000001,"text":"据阿里研究院发布的《大模型训练数据白皮书》指出,全球可爬取网路文本中,英文占比高达59.8%,中文仅1.3%,一旦放大至需要大规模预训练的场景,中文语料显得尤为稀缺。同时,维基百科作为常用开放语料,英文维基拥有超过700万篇条目,而中文维基则约为150万篇,二者相差超过三倍。"}],[{"start":137.70000000000002,"text":"中文语料相对稀缺"}],[{"start":140.18,"text":"在这种明显不均的环境中,中文大模型若缺乏足量的公开预训练语料,其基础语言理解与生成能力就会明显落后于英文对应系统,使得中文AI在理解表达及文化传承方面可能“喝洋墨水”过多、出现“水土不服”现象。"}],[{"start":156.49,"text":"当然,中国官方机构早已认识到此一问题,纷纷采取行动。人民网、新华社等官方平台积极构建“价值观对齐”的语料库,向AI开发方提供经过审核的新闻、评论与政策解读等高质量文本,为模型价值观安全层面的训练奠定基础。"}],[{"start":175.44,"text":"中国官方亦透过如“网信研究大模型”等项目,聚焦政策法规与官媒语料建设,强化价值观对齐。"}],[{"start":183.88,"text":"可以想像,对齐中国价值观是中国AI大语言模型的“基本功”。在中文世界,虽尚未有类似Scale AI规模如此大的公司,但已有多家企业与机构投入数据产业链建设,例如北京爱数智慧、云测数据、科大讯飞(002230.SZ)与海天瑞声(688787.SH)等公司提供大规模标注与清洗服务。"}],[{"start":204.48,"text":"市调机构IDC的数据显示,中国AI训练数据集市场规模在2023年约2.6亿美元,预计到2032年将增至约23.2亿美元,复合年增长率约27.4%。"}],[{"start":218.07999999999998,"text":"AI模型的进步,最终取决于它“吃进什么样的内容”。当新闻、评论、学术论文与文化资产被结构化使用时,其价值从即时资讯转化为可商用的数据资产。内容生产者不只是“提供素材”的角色,而是数据服务供应链的一环,包括新闻媒体在内的内容生产者,或许都应该认真思考自身的附加价值。"}]],"url":"https://audio.ftmailbox.cn/album/a_1750297370_5347.mp3"}

版权声明:本文版权归FT中文网所有,未经允许任何单位或个人不得转载,复制或以任何其他方式使用本文全部或部分,侵权必究。

洛克希德•马丁向英国推销导弹防御系统

美国防务集团希望在地缘政治紧张局势加剧以及美国投资“金穹”之际,为英国建造一个新的导弹防御系统提供帮助。

军事力量逐步就位,特朗普接近对伊朗发动打击

美国总统暗示将在数日内采取行动,美国已准备好能够打击福尔道地下核设施的部队。

普京召开的投资论坛未能吸引西方公司

俄罗斯的盟友们也只是向圣彼得堡派遣了低级别的官员和商人,但印尼总统是个例外。

微软准备退出与OpenAI的关键性谈判

ChatGPT开发商计划转型为营利性公司,促使这家软件巨头制定应对预案。

FT社评:特朗普需要慎重考虑伊朗问题上的命运抉择

美国总统可能会被拖入中东另一场寻求促成政权更迭的愚蠢行动中。

伊朗遇袭会引发核灾难吗?

以色列对伊朗铀浓缩设施的袭击造成了局部放射性,但污染似乎有限。
设置字号×
最小
较小
默认
较大
最大
分享×