国庆日变10/1 中研院AI语言模型出包急下架

网友们发现，CKIP-Llama-2-7b的回答皆以“中国立场”为主。（网页撷图）

人气: 51

【字号】大中小

更新: 2023-10-11 7:40 PM 标签: 中研院, AI, 语言模型, 中国

【大纪元2023年10月11日讯】（大纪元记者侯骏霖台湾台北报导）由中研院自行开发的正体中文AI语言模型“CKIP-Llama-2-7b”，日前遭爆使用中国资料库，经网友实测提出国庆日、国籍、国家领导人等问题，AI却回应“10月1日”、“我的国籍是中国”、“国家主席习近平”。中研院最新声明指出，AI有中国开源训练资料，测试版已下架，后续将成立风险研究小组、避免类似情况再度发生。

图为人工智慧（AI）示意图。（OLIVIER MORIN/AFP via Getty Images）

中研院资讯所表示，CKIP-LlaMa-2-7b的研究目标之一，是让meta开发的Llama2大型语言模型具备更好的正体中文处理能力，这项小型研究的经费仅新台币30万元、参数量达70亿（7 billion）。

不过，网友发现询问该语言模型“国庆日是何时？”、“中华民国国歌为何？”、“我国宪法？”、“国籍和国家领导人？”，AI却偏向中国立场回复“10月1日”、“中国义勇军进行曲”、“中国宪法”、“中国籍和国家主席习近平”。外界质疑中研院以中国资料库训练后，仅简转繁后就公开。

中研院坦言，训练资料有来自中国开源的任务资料集COIG，还包含台湾硕博士论文摘要、诗词创作、文言文和白话文互相翻译等阅读理解问答，并提供大众下载，作为学术使用或是商业使用。

他们强调，生成式AI易产生“幻觉”（hallucination），导致模型产生内容出乎预期，研究人员已将该测试版下架，未来相关研究及成果释出会更加谨慎，后续将厘清事件是否违反相关规定，并规划成立“生成式AI风险研究小组”，避免类似情况再发生。

中研院说，正体中文语料库是发展台湾大型语言模型的重要基础，下一步将整合正体中文词知识库，投入资源并规划管理机制，也会扩大召集AI相关的跨领域研究人员，以团队方式连结资讯科技、人文及社会科学人才进行跨领域研究。

责任编辑：郑桦

国庆日变10/1 中研院AI语言模型出包急下架

即时新闻

热门排行

台湾之光