基于LLM的人工智能(AI)已经在许多领域都展示出令人兴奋的新应用。然而,由于金融行业的复杂性并且含有大量金融术语,我们需要一个专攻金融专业的模型。BloombergGPT的推出意味着这项新技术在金融领域的发展和应用已经迈出了第一步。该模型将帮助彭博改进现有的金融NLP任务,如市场情绪分析、命名实体识别、新闻分类和问题回答等。此外,BloombergGPT还将释放更多新机遇,调动彭博终端上的海量数据,将人工智能蕴藏的全部潜力带到金融领域。
过去十几年来,彭博一直都是在金融领域应用人工智能、机器学习和NLP的开拓者。今天,彭博能够支持各类型NLP任务,得益于全新的金融感知语言模型。彭博的研究人员开创了一种混合训练法,将金融数据与通用数据集结合起来训练模型,以达到在金融基准上取得最佳结果,同时在通用LLM基准上也保持足够的竞争力。
为实现这项里程碑,彭博的机器学习产品和研究小组和人工智能工程团队合作,利用彭博在数据创建、收集和整理方面的资源,构建了迄今为止规模最大的专业领域数据集之一。作为一家金融数据公司,彭博的数据分析师在四十多年的时间里收集和维护了充斥大量金融用语的文档。开发团队从这个由海量英文金融文档组成的档案库中提取并创建了一个包含3,630亿词例(token)的金融数据集。
这批数据又与另一个包含3,450亿词例的公共数据集叠加,成为了包含超7,000亿词例的大型训练语料库。彭博的研究团队利用该语料库的一部分内容,训练了纯解码器(decoder-only)因果语言模型,包含500亿个参数。团队还对训练出的模型进行了基准测试。金融领域的NLP任务采用了一套彭博的自有基准,各类通用NLP任务则采用市面上流行的基准,如BIG-bench Hard、 Knowledge Assessments、Reading Comprehension以及Linguistic Tasks。值得注意的是,BloombergGPT模型在金融任务上的表现远超类似规模的开放模型,而在一般NLP基准上的表现也达到甚至超过了平均水平。

表1. BloombergGPT在两大类NLP任务中的表现:金融专业任务和一般任务。
媒体联络人
顾歆悦:igu3@bloomberg.net +86-10-6649 7535
关于彭博
彭博是全球领先的商业和金融信息提供商,通过提供值得信赖的数据、新闻和洞察,为市场带来透明度、效率和公平。 彭博通过可靠的技术解决方案帮助连接全球金融生态系统中的具有影响力的社区,使我们的客户能够做出更明智的决策,并促进合作。
如需了解更多信息,请访问www.bloombergchina.com或申请产品介绍及演示。