ORC识别,藏在日常里的AI效率革命

tmyb
广告

作为一个天天跟文字、素材打交道的游戏自媒体作者,我最近两年最离不开的工具不是剪视频的PR,也不是写文案的文档,而是很多人听都没听过的orc识别,你可能会说,不就是个认文字的工具吗?至于吹得这么神?别急,我给你讲讲我这些年的亲身经历,还有最近这个行业的新变化,你就会发现,orc识别早就渗透到了你生活的方方面面,悄无声息给我们省了无数时间,甚至改变了很多行业的运作方式。

ORC识别,藏在日常里的AI效率革命

你没察觉的时候,orc识别早就铺满了生活

我对orc识别第一个印象深刻的场景,是今年五月帮我妈办异地社保转移,出发之前我特意提前打电话问了需要带什么材料,接线员说要带十几年的异地缴费凭证、身份证复印件、户口本复印件,我提前一个晚上把十几张纸质材料按时间排好,订成小册子,还特意请假半天,准备在政务大厅耗一上午,结果叫到我的号之后,我把一叠材料递进去,窗口小姐姐只拿了我和我妈的身份证刷了一下,然后拿起那堆缴费凭证挨个对着工位上的摄像头扫了一下,前后三十秒,电脑上就把所有凭证号、缴费时间、金额整整齐齐列出来了,一个错字都没有,我当时惊讶得问,不用我手动填信息吗?小姐姐笑着说,现在都用orc识别了,谁还手动填啊,签个字就能走,整个流程办完才十五分钟,我还能回公司赶下午的活,那时候我才意识到,原来这个听起来高端的技术,早就变成了政务服务的基础设施。

作为游戏自媒体,我对orc的依赖更深,我们做内容经常要截游戏里的装备属性、任务对话、剧情文本,我去年做《黑神话:悟空》的全装备解析,光是不同品级的金箍棒截图就有二十多张,原来要把这些属性一个个整理到文案里,我得对着截图一个字一个手打,一千多字的属性要打一个多小时,碰到字体小的截图,看错一个数字还要返工,现在呢?我直接用系统自带的orc识别框选整个截图,十秒钟所有文字就转好了,错字不超过三个,改两下就能用,原来一下午的活现在一个小时就能干完。

不止我,普通玩家也早就用上orc了,现在Steam上那么多独立游戏,很多小作坊做的游戏没有官方中文,等汉化又要等好几个月,现在很多玩家都是用实时orc识别截图翻译,截一张就出翻译,完全不影响通关体验,还有玩家整理游戏存档、写同人二创,把游戏里的对话截图转成文字,原来要花几个小时的活,现在几分钟搞定,这些都是orc识别给玩家带来的红利。

你仔细想想,你生活里早就到处都是orc了:快递驿站的智能柜,你对着取件码截图一拍,它自动识别取件码开门,不用你手动输;奶茶店点单,你对着菜单拍个照,识别出所有餐品价格,自动给你算满减;大学生查重,扫描版的毕业论文直接上传,orc识别出文字就能查重,不用你逐字敲;甚至你去银行办卡,身份证放进去,orc自动识别所有信息,不用你填一堆表格,这些全是orc识别在干活,只是你没注意到而已。

最新行业变化:大模型把orc识别逼出了新高度

很多人对orc识别的印象还停留在“只能认清晰的印刷体,歪一点脏一点就错得离谱”,那你真的out了,今年大模型火了之后,orc识别已经进化到几乎“什么都能认”的地步了,我查了今年上半年中国信通院发布的《人工智能核心技术产业白皮书》,里面明确提到,orc识别是当前AI落地最成熟的场景,2023年国内orc相关产业规模已经突破320亿元,预计2025年将超过500亿元,其中大模型加持的端侧orc是增长最快的方向,增速超过70%。

什么是端侧orc?简单说就是原来的orc识别要把你的照片上传到服务器,识别完再把文字发回来,现在新的端侧orc直接在你自己的手机、电脑上完成识别,不用上传任何数据,隐私性好太多,你识别身份证、银行卡、合同这种隐私信息,完全不用担心信息泄露,今年上半年华为、小米、苹果都更新了系统级的端侧orc,我自己用的小米手机,现在在相册里随便一张图片,长按就能提取文字,连网都不用,准确率还特别高。

ORC识别,藏在日常里的AI效率革命

我发小阿凯在一家贸易公司做财务主管,他给我讲过他们公司用新orc的经历,特别能说明变化,他们公司一百多个销售,每个月几千张报销发票,两年前还要专门招两个实习生专门录发票信息,每个月录一周,天天加班,还经常出错,月底对账对不上就要全部翻一遍,原来财务岗都没人愿意去,就是嫌录入太苦,今年年初他们换了带大模型orc的新财务系统,现在几千张发票随便往扫描仪上一放,不管发票是折过的、沾了奶茶印的、打印歪了十几度的,orc都能自动校正、去噪,准确识别出发票代码、金额、开票单位,还能自动查真伪,两个小时就能干完原来一周的活,那两个原来做录入的实习生,现在转去做费用分析,上个月还出了一份差旅成本优化方案,帮公司省了十几万,你看,orc不是抢了工作,是把人从重复劳动里解放出来做更有价值的事。

我自己还有个特别感动的经历,我爷爷今年八十多,写了五十年的手写日记,堆起来半人高,前两年想整理出来给后辈留个纪念,我问了图文公司,一千字录入要三十块,算下来要好几万,太贵了,我自己敲,敲了两页就放弃了,爷爷的字有些因为纸发潮晕开了,还有很多连笔,我认都认不全,一千字花了三个小时,去年年底我试了一下新的大模型orc,把日记一页页拍了照传上去,结果准确率超过92%,大部分连笔字都认对了,我只用改几个错字,不到一周就把四十年的日记全部整理成了电子档,还给爷爷做了pdf存在平板里,爷爷翻着自己的日记,激动得掉眼泪,说没想到自己写的东西还能以这种方式传下去,要是没有现在的orc识别,这件事根本不可能成。

放在十年前,你敢想这件事吗?十年前的orc软件,一套激活码要一千多块,只有出版社、印刷厂才用得起,而且只能认清晰的印刷体,手写体根本认不出来,现在随便一个免费的系统功能就能做到,技术的普惠真的改变了很多普通人的生活。

普通人怎么用好orc识别,避开坑提升效率

说了这么多,很多人肯定想问,我一个普通人,怎么用好orc识别给自己省时间?我用了这么多年,总结了几个最实用的场景,几乎每个人都能用得上:

第一个是学生党,绝对是提升效率的神器,上网课老师的板书、扫描版的PPT、扫描版的真题,直接拍个照用orc识别转成文字,整理笔记不用手敲,考研考公的同学整理知识点,能省出好几个晚上的时间,我之前帮我表妹整理考研真题,她买的真题是扫描版,想把真题转到word里自己标注,原来打算自己敲,我帮她用orc识别,一套真题十分钟就转好了,她当时都惊了,说原来还有这种好事。

第二个是上班族,不管你是做什么岗位都能用,开会拍的白板笔记,直接转成文字,整理会议纪要十分钟就能干完,不用开会的时候拼命记还记不全;报销的时候发票拍照直接识别金额,不用手动填;做方案的时候查到的纸质资料,拍个照就能转成文字引用,太省时间。

ORC识别,藏在日常里的AI效率革命

第三个就是像我这样的内容创作者、自媒体人,不管是做游戏内容还是别的内容,截图转文字、素材整理,orc能帮你省出一半的工作时间,我现在做一篇攻略,光整理素材就能省两个小时,省下的时间我能多更一篇内容,多跟粉丝互动,这不比浪费在打字上强?

当然也要提醒大家一个坑,很多人喜欢用不知名的第三方小程序做orc识别,如果你识别的是身份证、银行卡、合同、日记这种隐私信息,千万不要用这种需要上传图片到服务器的小工具,我身边就有朋友用不知名小程序识别身份证,后来接到一大堆诈骗电话,明显是信息泄露了,现在主流手机厂商的系统都自带系统级端侧orc,不用上传,不用联网,完全免费,准确率还高,用这个就够了,安全又好用。

orc识别普及背后,是技术普惠的真正意义

我做了这么多年游戏自媒体,见过太多新概念炒得火热,实际上跟普通人一点关系都没有,什么元宇宙、Web3,很多都是割韭菜的噱头,但是orc识别不一样,它是真真正正落地到每个普通人生活里的技术,它不怎么上热搜,也没人炒概念,但是它实实在在改变了我们的生活。

很多人说AI会抢普通人的工作,我不这么看,就像orc识别,它取代的只是那种重复、低效、没有创造性的录入工作,把人解放出来去做更有价值、更有创造性的工作,就像我那个财务朋友公司的实习生,原来天天录发票,现在能做成本优化,创造的价值比原来大太多了,个人的成长也快太多了,这是技术进步给我们带来的好处。

而且orc识别最大的意义,是降低了数字化的门槛,原来很多老的纸质资料,要数字化要花好几万,只有机构才能做,现在普通人自己拿手机拍一拍就能搞定,我们社区去年整理老党员的手写档案,原来找外包报价十几万,后来几个大学生志愿者拿手机一个个拍,用orc识别,不到一个星期就整理完了,只花了几百块买水钱,这就是技术普惠的意义,它让原来只有有钱人、大机构才能用的技术,变成每个普通人都能免费用到的工具。

现在多模态大模型发展越来越快,orc识别也早就不只是识别文字了,它还能理解文字的意思,你拍一张招聘启事,它能自动给你提炼出薪资、岗位要求、工作地点,你拍一张药方,它能给你解释每个药的作用和注意事项,未来它还会变得更聪明,给我们带来更多便利。

其实我们的生活就是这样,很多改变都是悄无声息发生的,orc识别就像水电一样,你平时感觉不到它的存在,但是一旦没有它,你会发现很多事都干不成了,作为普通人,我们不用去懂orc识别的技术原理,只要学会用好它,就能帮我们省下大量的时间,把这些时间花在更重要的事情上,这就够了,毕竟技术的本质,就是帮人活得更轻松更自在,不是吗?