摘要:当大模型不再稀缺,市场会逐步凝结共识:得数据者得天下。
我们根据公开信息不完全统计,目前国内至少已经有30多家大模型亮相,其中不乏参数规模甚至超过ChatGPT规模的大模型,厂商涵盖了互联网巨头、AI上市公司、服务器龙头企业、科研院所与一级市场创业公司。
市场会逐步凝结共识:得数据者得天下。数据成为大模型差异化竞争的关键,高质量的数据资源是推动GPT进化的重要抓手。垂直行业有绝佳数据卡位优势的企业,拥有巨头都难以切入的“护城河”。
彭博新闻社近期发布了专门为金融领域打造的大型语言模型(LLM)——BloombergGPT就是垂直数据优势“挑战”巨头通用大模型的案例。
在过去40年里,彭博收集了海量的金融市场数据,拥有广泛的金融数据档案,涵盖一系列的主题。使用该公司数据终端的客户遍布全球,包括交易员、投行、美联储、美国其他官方机构以及全球各大央行等。这些特有数据,使得BloombergGPT比ChatGPT拥有更专业的训练语料。
据彭博社发布的报告中可以看出,研究人员利用彭博社现有的数据,对资源进行创建、收集和整理,构建了一个3630亿个标签的数据集,并基于通用和金融业务的场景进行混合模型训练,以支持金融行业内各种各样的自然语言处理(NLP)任务。
所以,未来开发、存储、经营大数据的公司,对标很像新能源车时候的“锂矿”,这个金矿该是谁就是谁的,不是谁随便都能挖走的。
来源:摘自民生证券研报
未经允许不得转载:德讯证券顾问 » 当大模型不再稀缺,得数据者得天下
评论前必须登录!
登陆 注册