语言差异成AI鸿沟?牛津新研究汉语训练费用是英语2倍
2023-07-31 18:20:26 来源:互联网
(资料图片仅供参考)
如今各大科技企业都在加速布局AI项目,不过也许世界各国的语言成为不小的障碍。
大型语言模型(LLM)可以理解世界上很多语言,甚至是一些记载较少的语言。不过,大模型处理不同语言之间时,其性能上存在很大的差异,这是由于模型成本与其所训练的语言紧密挂钩。
牛津大学最近进行的一项研究表明,从诸多语言模型的计费方式看,英语的输入和输出比其他语言的输入和输出要便宜得多。例如,西班牙语的成本约为英语的1.5倍,简体中文的价格约为2倍以上,缅甸掸语在15倍以上。
成本差异主要是因数据标记化所带来的。标记化就是将训练文本分解成更小的单元,这个更小的单元就是标记(Token)。这是一个人工智能(AI)公司将用户输入转换为计算成本的过程。
研究显示,使用英语以外的语言访问和训练模型的成本都更高。例如中文,无论是在语法上还是在字符数量上,都有更复杂的结构,从而导致更高的标记化(Token)率。
举例来看,基于OpenAI公司的GPT2模型,对于“国家不同,所得税的结构是不同的,税率和税率等级也有很大的差异”这句话的处理来看,在简体中文处理中运用到了66个Token,在英语处理中仅用到了24个Token,而在禅语处理中使用到了468个Token。
就每次输出所需的费用而言,汉语的成本是英语的两倍。所以在AI相关的费用中,英语的成本效益是最高的。
当涉及到语言模型时,设计者的主要目标是实现低成本和高效功能之间的平衡。随着AI领域的不断发展,科技公司必须仔细考虑语言选择对成本和可访问性的影响。
这种成本差异促使中国、印度等国家纷纷开发自己的母语LLM项目。
[责任编辑:]
相关阅读
- (2023-07-31)语言差异成AI鸿沟?牛津新研究汉语训练费用是英语2倍
- (2023-07-31)天津市防指紧急通知!永定河泛区人员立即转移
- (2023-07-31)宝来车的变速箱油多久换一次好(宝来车的变速箱油多久换一次?)
- (2023-07-31)人里人气!动物园一黑熊被指是员工假扮的 回应称是真的熊
- (2023-07-31)2023:人工智能的“奇点”,隐私计算的“原爆点”
- (2023-07-31)金店黄金价格多少钱一克(2023年7月31日)
- (2023-07-31)香港第二季经济增长放缓至升1.5%
- (2023-07-31)安徽出台《办法》加强法律监督与民主监督衔接
- (2023-07-31)械字号医用敷料市场发展正在迅速增长。随着人们健康意识的增强,医疗技术的不断进
- (2023-07-31)*ST商城股东户数下降10.92%,户均持股26.04万元
- (2023-07-31)京津冀定制快巴:部分班次无法按照预定点位停靠
- (2023-07-31)《浮石之旅》地牢钓鱼点怎么钓黑鲶 地牢钓鱼点黑鲶获取攻略
- (2023-07-31)GalaxyZFlip5你应该关心的唯一一款三星折叠手机现在只有一个问题
- (2023-07-31)2023年上半年河南经济发展最新通报:新设经营主体107.4万户、同比增长38.6%
- (2023-07-31)太平洋百货要关,上海六百要重建,徐家汇商圈未来会有这些变化
- (2023-07-31)商业医疗保险购买后多久生效?可以保障多长时间?
- (2023-07-31)最高法发布11件依法平等保护民营企业典型案例
- (2023-07-31)7月31日国内原油期货涨0.68%
- (2023-07-31)第七章,道家,丹道篇。
- (2023-07-31)涉外商事争议解决和知识产权热点法律问题研讨会举行
- (2023-07-31)北京门头沟区强降雨已致2人死亡
- (2023-07-31)发展产业、增加就业 创新模式持续带动脱贫户增收
- (2023-07-31)香江控股:已累计收到南方香江的业绩承诺补偿款17.37亿元
- (2023-07-31)北京延庆启动应急响应预案 齐心筑牢防汛安全堤
- (2023-07-31)宜兴再添文旅新地标 “蜀山陶集”正式亮相
- (2023-07-31)山东省政协原常委、社会法制委员会原副主任周立军被“双开”
- (2023-07-31)珞璜镇开展“八一”建军节走访慰问活动
- (2023-07-31)历史首只被摘牌转债诞生!“躺赢”时代结束 转债市场有望持续扩容
- (2023-07-31)中视文化拟出资不超过400万元回购股份 用于股权激励 | 新经济在海南
- (2023-07-31)延安医药董事会审议通过一系列北交所上市议案 | 新经济在海南