site logo: www.epochtimes.com

国庆日变10/1 中研院AI语言模型出包急下架

网友们发现,CKIP-Llama-2-7b的回答皆以“中国立场”为主。(网页撷图)
人气: 51
【字号】    
   标签: tags: , , ,

【大纪元2023年10月11日讯】(大纪元记者侯骏霖台湾台北报导)由中研院自行开发的正体中文AI语言模型“CKIP-Llama-2-7b”,日前遭爆使用中国资料库,经网友实测提出国庆日、国籍、国家领导人等问题,AI却回应“10月1日”、“我的国籍是中国”、“国家主席习近平”。中研院最新声明指出,AI有中国开源训练资料,测试版已下架,后续将成立风险研究小组、避免类似情况再度发生。

图为人工智慧(AI)示意图。
图为人工智慧(AI)示意图。(OLIVIER MORIN/AFP via Getty Images)

中研院资讯所表示,CKIP-LlaMa-2-7b的研究目标之一,是让meta开发的Llama2大型语言模型具备更好的正体中文处理能力,这项小型研究的经费仅新台币30万元、参数量达70亿(7 billion)。

不过,网友发现询问该语言模型“国庆日是何时?”、“中华民国国歌为何?”、“我国宪法?”、“国籍和国家领导人?”,AI却偏向中国立场回复“10月1日”、“中国义勇军进行曲”、“中国宪法”、“中国籍和国家主席习近平”。外界质疑中研院以中国资料库训练后,仅简转繁后就公开。

中研院坦言,训练资料有来自中国开源的任务资料集COIG,还包含台湾硕博士论文摘要、诗词创作、文言文和白话文互相翻译等阅读理解问答,并提供大众下载,作为学术使用或是商业使用。

他们强调,生成式AI易产生“幻觉”(hallucination),导致模型产生内容出乎预期,研究人员已将该测试版下架,未来相关研究及成果释出会更加谨慎,后续将厘清事件是否违反相关规定,并规划成立“生成式AI风险研究小组”,避免类似情况再发生。

中研院说,正体中文语料库是发展台湾大型语言模型的重要基础,下一步将整合正体中文词知识库,投入资源并规划管理机制,也会扩大召集AI相关的跨领域研究人员,以团队方式连结资讯科技、人文及社会科学人才进行跨领域研究。

责任编辑:郑桦

评论