人工智能的快速发展,为数字古籍的整理分类带来革命性变化。2022年10月,由字节跳动与北京大学数字人文研究中心合作研发的数字古籍平台“识典古籍”便是一个生动案例。
进入“识典古籍”的网站,记者看到《周易》《左传》《礼记》等陈列于首页上。随机点开一本,左侧为章节目录,右侧为正文,排版形式既顺应现代人的阅读习惯,又还原了古籍纸张的阅读美感。
“与一些数字化平台不同,‘识典古籍’是完全免费的,而且增加了简繁体转换、底本影像对照、全文检索等一系列便捷功能。”抖音集团企业社会责任部产品总经理唐垲鑫介绍,该平台主要应用了文字识别、自动标点和命名实体识别这3种技术,不仅能将影印本上的文字提取整理,还能通过序列标注识别文本中的人名、地名等信息,准确率达到96%至97%。
“平台已整理上线了685部经典古籍,共计7900多万字,主要来自《四部丛刊》。”唐垲鑫说,“识典古籍”已上线手机移动版,未来平台中的书目将持续更新。
业内人士预测,随着AI技术的运用,古籍文献中所蕴藏的古代历史文化知识将不断被抽取,构造成各种各样的知识库,并将以知识图谱的形式支持互联网前端应用。
跨界合作成趋势
事实上,在“识典古籍”上线之前,文保机构、科研院校与互联网公司的跨界合作已越来越普遍。比如,腾讯联合敦煌研究院开发了AI病害识别技术,帮助“问诊”敦煌千年壁画。
由于在产品研发、设计方面存在优势,互联网公司等社会力量的加入会进一步保障古籍数字化平台的服务质量。“我们有优秀的产品经理、设计师、软件工程师,能够不断优化数字古籍平台的产品功能。”唐垲鑫说。
“识典古籍”的诞生离不开专家学者支持。北京大学数字人文研究中心主任王军表示,北大在这次合作中负责人工审核与校对,弥补人工智能有识别错误率的短板,并利用自有学术平台,连接更多专业研究者和学生群体。 |