万维读者网 > 中国瞭望 > 正文  

古籍AI辨识 阿里巴巴达摩院准确率惊人

www.creaders.net | 2021-05-20 15:40:13  世界新闻网 | 0条评论 | 查看/发表评论

古籍AI辨识 阿里巴巴达摩院准确率惊人

阿里巴巴公益基金会、中国四川大学、加州大学柏克莱分校、中国国家图书馆及浙江图书馆等合作,研发古籍数位化,该系统已经能识别逾百本古籍,辨识度值准确率高达97.5%。(取材自北京日报)

古籍历史价值极高,为保存古文物之美,阿里巴巴达摩院、中国四川大学、加州大学柏克莱分校、中国国家图书馆及浙江图书馆等合作,研发古籍数位化,该系统已能识别逾百本古籍,辨识度准确率高达97.5%。

古籍数位化的方法主要分为两种:一、纯人工输入。主要靠人手,将内容全数输入至电脑中。二、电脑与人工相结合。由电脑利用光学字元辨识(Optical character recognition,OCR)技术识别一部分文字,电脑无法识别的文字,由专家人手录入,最终再由人工进行校对。

北京日报报导,中国古籍全部字符约有数十万,绝大部分不但不被现代字库收录,还会几乎找不到样本供人工智能(AI)学习。达摩院技术团队与四川大学专家,为了解决上述问题,合作研发一套全新的古籍识别系统。

新系统利用单字检测、无监督单字聚类、少样本分类、主动学习等有系统性的机器学习方法。并将会一边识别古籍,一边训练模型,以97.5%的准确率,完成约20万页古籍的整体识别。

目前该系统已经能识别逾百本古籍,并有覆盖逾3万字的古籍字典。随著古籍识别规模增加,机器会不断提升准确率和效率。与专家人工输入相比,将效率提升近30倍。藉“汉典重光”项目将古籍刻本数位化,供公众翻阅、检索。

阿里巴巴达摩院院长张建锋称,阿里计画将这套技术工具连同古籍数位化平台一并捐赠,交由权威公共机构长期运营。守护中华传世典籍,是科技工作者和文化工作者共同的使命。

达摩院成立于2017年10月,既有学术思维,也有产品思维和商业逻辑。阿里巴巴创办人马云曾对达摩院提出三个要求:活得要比阿里巴巴长、服务全世界至少20亿人口、必须面向未来,用科技解决未来的问题。

   0


24小时新闻排行榜 更多>>
1 官媒发了一张照片 习近平偷偷默认了?
2 全家长期吃“自制馄饨” 全都确诊胰腺癌
3 这几个坎 习普迈不过去了
4 突发!这国总理遇刺 身中数枪 生命垂危
5 惊爆:中共特工要直接从台湾绑人回大陆

48小时新闻排行榜 更多>>
1 数学家辱的华,要靠那英来救了
2 中国房市突传重磅消息
3 不许说!这类报道从墙内社交媒体上消失
4 他一旦当选 要的可是北京的命
5 官媒发了一张照片 习近平偷偷默认了?
6 在上海 出现一种新的然而真实的生活方式
7 一个不好的风向,今年越来越明显
8 突发!全额退款,飞上海航班停飞,重启仅9
9 真会玩 网传中国高官聚众淫乱影像
10 全家长期吃“自制馄饨” 全都确诊胰腺癌
热门专题
1
以哈战争
6
中共两会
11
秦刚失踪
2
中美冷战
7
台湾大选
12
火箭军悬案
3
乌克兰战争
8
李克强猝逝
13
台海风云
4
万维专栏
9
中国爆雷
14
战狼外交
5
美国大选
10
李尚福出事
15
普里戈津
一周博客排行 更多>>
1 蓬佩奥是个好同志 山蛟龙
2 何与怀:莫言论争之我见 万维网友来
3 关于毛泽东离弃杨开慧的一点资 范学德2
4 神奇的应许之地(6)—面朝红 湮灭之城
5 辛峰:不要把加拿大中国专业人 万维网友来
6 一群蠢人 体育老师
7 绝望的外国人有时更清楚地看到 高伐林
8 万维写博15年经历的3次事故 马黑
9 何与怀:还记得,那些孩子瞬间 万维网友来
10 关于数学,胡锡进可以闭嘴了! 汪翔
一周博文回复排行榜 更多>>
1 坚持“大选舞弊论”对川普不利 渔阳山人
2 十发九中知名教授:米国大选谁 随意生活
3 万维写博15年经历的3次事故 马黑
4 一群蠢人 体育老师
5 美国真的会出兵保护台湾吗? 山蛟龙
6 蓬佩奥是个好同志 山蛟龙
7 怎么就我一个人愤怒? 老農民
8 中共航母的软肋 山蛟龙
9 川普封口费控辩双方的攻防策略 右撇子
10 民主政治的3C原则 karkar
关于本站 | 广告服务 | 联系我们 | 招聘信息 | 网站导航 | 隐私保护
Copyright (C) 1998-2024. CyberMedia Network/Creaders.NET. All Rights Reserved.