“名师在线,免费答题”,最近一段时间,一款名为“题拍拍”的在线教育产品广告出现在北京等地的公交车站、电梯里。
这是一款面向中小学生的拍照搜题工具,却在大学生群体中引起了一阵躁动,原因是题拍拍主打的“14分钟真人解析答题”功能,意味着产品背后需要大量的兼职大学生作为答主。
拍照搜题产品最早出现于2013年,是一款应用人工智能技术的工具类产品,学生用手机APP对题目拍照,APP识别后自动匹配题库中的题目,并给出答案和解析过程。
正像有的报道所说,一些产品随后推出了“在线答题”功能,用老师回答题库没有答案的题目,但等待时长往往在2天以上,而且只对付费VIP用户开放。
题拍拍让真人答题的等待时间缩短到14分钟以内,并且免费。一时间,数以万计的在校大学生纷纷应聘题拍拍答主,根据题目的科目和难度领取每道题1-10元的报酬。
然而,21世纪经济报道记者实测发现,即便是北大学霸,也会给出错误解析,错误答案在拍照搜题APP中大量存在,数学之外科目的开放性题目的解答质量也令人堪忧。
这款宣称永久免费的产品正在掀起营销大潮,背后的运营方是教育巨头好未来,直接对标的产品是另一个在线教育头部机构作业帮。好未来愿以高额成本推出题拍拍,背后的商业目的到底是什么?
错误答案频频出现今年2月,艾瑞咨询在一份AI+教育的报告中指出,“拍照搜题的战争已经结束”,原因是前两家公司的市场份额已经超过80%。
话音刚落,好未来就在3月推出了自己的拍照搜题产品。这款产品最初名为海边搜题,内容与头部产品作业帮、小猿搜题严重同质化,两个月后,海边搜题更名为晓搜题,增加了真人实时答疑入口,声称1小时内即时回复解析。
今年8月,这款产品再次更名为题拍拍,并开始大规模营销推广,同时将真人解析的回复时间先后缩短至28分钟、14分钟。
真人解析成为题拍拍撕开这个已经定型的市场的口子。此前,艾瑞咨询报告称,各类拍照搜题产品都大同小异,能够构建起竞争壁垒的部分是需要依靠强大的人力和组织力生产的题库。
但题库不可能穷尽所有题目,有报道称,一般来说,会有20%-30%的题目无法通过拍搜产品直接搜索到原题。在能够搜索到的题目中,拥有完整解析过程和准确答案的也只占六成左右。
11月,独家签约100名清华大学、北京大学在校生作为答题官,让题拍拍赚足了眼球。实际上,21世纪经济报道记者实测发现,清华、北大学生答疑更多是产品的营销噱头,在实际解析中出现的比例较低。
即使是清华、北大学生真人解析的答案,其准确率表现也并非完美。在一个内部群里,一名认证为北京大学的题拍拍答主的答案被指出是错误答案,但这个答案至今还出现在题拍拍平台。
此外,记者搜索一道初中政治的开放性材料题后,一名“题拍拍认证老师”回复了一段只有约两百字的答案,答案中语句不顺,并存在明显的逻辑错误。
即使是拍照搜题应用最成熟的数学学科,真人解析也未能解决错误答案问题。几年前,作业帮、小猿搜题、学霸君等拍照搜题产品竞争正酣之际,浙江绍兴新昌县七星中学教师甄亚芳发现,“从批改作业情况来看,几个学生使用了搜题软件,出现了与网上错漏相同的解答”。
甄亚芳把这道题在拍照搜题软件中的错误答案和正确解析写成文章,发表在了2017年1月的《中学数学(初中版)》杂志上。时至今日,21世纪经济报道记者12月9日使用题拍拍和作业帮搜索该题,仍显示大量当时的错误答案。
用题拍拍搜索该题后,出现5个相同的题目和答案,其中4个为错误答案,1个为正确答案。
(题拍拍自动提供的4个错误答案之一)
(题拍拍自动提供的答案中的正确答案)
记者选择“求助老师”,结果几分钟后,系统却拒绝了真人解析的请求,并返回消息称“题目的答案和解析是完整的,请返回查看哦”。
(向题拍拍“求助老师”后得到的系统回复)
记者用作业帮搜索该题后,同样出现5道题目,其中4道与该题目相同,1道是该题目的改编题。在4道相同题目的答案中,还包括两道真人上传的书面解题照片,遗憾的是,这4道答案全部为错误答案。
(作业帮自动提供的错误答案之一)
记者同样选择作业帮免费问老师的“一键求助”功能,被提示“您的题目是正确的”,记者选择“仍提问”,几分钟后,系统也拒绝了真人解析的请求,并回复“本题已有正确答案”。
(作业帮“一键求助”后得到的系统回复)
甄亚芳在文章中写道,各大题库平台、搜题软件泛滥,然而这些免费的解答往往也存在不同的问题,有些甚至是错漏解答,如果学生不加鉴别而直接“复制”,或习惯于遇到困难就上网找答案,则对数学学习无甚益处。
实际上,拍照搜题软件从诞生之日起就饱受争议。《人民日报》2015年10月9日发表的一篇评论认为,技术工具往往是一把双刃剑,方便“求知”的同时,也增加了“求懒”的系数。尤其是一些自控力不太强的学生,容易将搜题软件简单异化为应付作业的“帮凶”。
一名中学英语老师告诉21世纪经济报道记者,她不支持也不允许自己的学生使用搜题软件写作业。
“因为大部分学生就只看结果,不注意过程。我们鼓励孩子们多问老师,多和同学们讨论。作业留白,也能让老师知道孩子关于本课内容还有哪些不懂的地方。”她说。
大学生兼职“薅羊毛”题拍拍尚未在中小学生中引起广泛的反响——在APP STORE的教育类排行榜中位于第33位,远远落后于作业帮、小猿搜题和百度文库——却在大学生群体中引起了一阵躁动。
据报道,一位内部人士表示,好未来启动这个项目时下了很大的决心,目标是为全国所有中小学生提供免费答题的服务。“要求软件必须保持超配的状态,不允许出现提问的用户挤爆供应链的情况。”
这意味着,题拍拍需要招募大量答主在后台“待命”,而最主要的来源是兼职大学生。
21世纪经济报道记者了解到,从今年7月开始,题拍拍就从大学生兼职渠道开始大量招募,并在11月达到高潮。据介绍,仅小学数学目前就已招募了超过5000人。
“大学生只需配备IPAD和手写笔套装,经过考核和培训后上岗,相应的报酬是,基础题为1元/题,中等及以上难度的题目则为3-10元/题。如果选择做基础题答主,还可以由公司免费邮寄设备。”在题拍拍兼职的答主郭猛(化名)告诉21世纪经济报道。
“在答主的后台界面,系统会自动显示每道题的金额,招募时的说法是只要坚持下来,每个月可以收入2000-5000元。”郭猛说。
答主的学历被要求在一本以上,有教师资格证的可以放宽到二本。应聘时还需填写所应聘科目的高考成绩。但12月4日之后,由于答主解析的正确率比较低,数学以外的科目都被限定只招募985高校的学生。
“其实小学的基础数学题特别简单,数量也最多,答题时的感觉有点像‘薅羊毛’,很多题明显是小学生在玩APP,有时候一模一样的两道题会连续出现,这时候抢到就赚了。我每天课间或睡前做一会儿,可以把当天的外卖钱赚出来。”郭猛说。
答主被录用前都需要经过考核,但考核在线上进行,答主在限定时间内要做完几道所报名学科学段的题目。“这些题目往往提前在招募群里公布,即使没公布,考核时也可以用搜题软件查找答案”,郭猛说,但应聘的答主没法滥竽充数,如果上岗后提供的解析出现错误4次以上,会被取消资格。
进入12月,大规模招募进入尾声,由于招募了大量答主,并且平台上的提问流量不均,郭猛有时会感到“抢不到题”,“有答主在QQ群里介绍使用‘连点器’软件抢题,安装后可以一次性划入多道题,不需要一道一道去点”。
由于“题少人多”,负责招聘的中介也会介绍大学生去题拍拍的竞争对手那里兼职。事实上,这些中介大多数是热衷于为别人介绍兼职的在校大学生,他们同时受托于题拍拍与作业帮。答主们应聘时会标注介绍人是谁,中介就可以获得答主薪酬10%的提成。
由于题拍拍的出现,作业帮答主的薪酬也水涨船高,这款APP此前就已提供VIP服务,用户按月付费,可以获得真人解析服务。此前,作业帮的基础题的薪酬只有约0.5元/题。
产品模式与痛点拍照搜题市场沉寂已久,好未来为何此时高调推出题拍拍?
据报道,题拍拍负责人介绍这款产品将永久免费,这意味着题拍拍将承担高额成本却没有收入。21世纪经济报道记者了解到,题拍拍答主可随时将收入提现,但题拍拍整体每天提现限额30万元,这意味着,仅仅答主薪酬成本每月最高可达近亿元。
作业帮是靠拍照搜题起家的头部在线教育公司,其官方公布的数据显示,作业帮APP日活用户已突破5000万,月活用户突破1.7亿,拍照搜题市场的占有率超过75%。
更重要的是,作业帮打通了一条从作业工具引流,到教学内容增值,再到课程服务变现的商业链条,作业帮APP中提供付费VIP真人解析服务,并开通了作业帮直播课入口,通过巨大的免费工具流量池为直播大班课导流。
其官方数据显示,在作业帮今年暑期正价班新增171万人次中,超过67%来自私域流量,这使得作业帮的综合获客成本不到行业平均值的一半。
在线教育的营销大战使得在线教育机构购买外部流量的费用水涨船高,几乎每家都在探索开发私域流量的可能性。网易有道CEO周枫近日介绍,第三季度在线课程销售额里有22%来自于自有流量,这个占比同比增长了187%。
题拍拍上线后,也已经在二级页面接入了学而思网校的特价促销课入口。
“但好未来推出题拍拍主要并不是为了给学而思网校导流,而更多是为了防御,拍照搜题的主要用户群体是小学生,这是学而思培优和网校的大本营,好未来不能容忍作业帮这样一个超级APP存在。”知情人士说。
题拍拍上线后,作业帮随即采取了对策,不仅推出了“免费问”功能,并将真人解析回复时间缩短至18分钟。
从产品体验来说,两个产品各有特色。题拍拍的用户界面十分简洁,而作业帮则会不断给用户推送作业帮直播课的导流链条;但从工具类产品的用户黏性来说,作业帮已形成了浓厚的用户交流、互评作业的生态,平台色彩强烈,而题拍拍更多是一款纯粹的工具。
好未来推出题拍拍的更深层的原因在于,2020年在线教育行业确实在迅速成熟,这不仅体现在各机构的营收和融资额大幅增长,更体现在不同形态的产品纷纷涌现,AI课、小班课、硬件等产品几乎呈现百花齐放的姿态。
这意味着,只要是服务品质优质,且能解决用户痛点的产品,即使目前尚未出现盈利模式,也有可能存活下来。
真人解析确实存在着较大的用户需求,能够覆盖一定的场景。《北京日报》12月9日一篇文章写道,题拍拍认为,“解题”只是给出答案,是与机器的交互,用户感受不到爱和温度;而“答题”是教会孩子知识,是老师的责任和陪伴,是对于学习过程的悉心指导。答题官不仅会给出正确的答案,还会给出答题步骤并辅之以清晰的语音解析,能够帮助学生轻松学会,爱上学习。
这是一种理想的产品形态,现实中则任重而道远。记者实测发现,用户提交真人解析的题目大多数已收录在题库中,这导致兼职答主“薅羊毛”的同时,又浪费宝贵的时间和精力,目前,题拍拍用户每天申请真人解析已被限定为5次。
而答主提供的解析更多只是答案的翻版,记者实测发现,少数解析的附加值只是用不同颜色笔迹标出了答题要点,以及少量的语音解析。
最关键的是,由于用户提交的题目与题库中的题目大量重合,很多真人解析申请被驳回,这导致看不懂题库自带答案的学生得不到真人解析服务,而这本应是题拍拍所解决的最大痛点。
更多内容请下载21财经APP
今天一起体验作业帮“拍照搜题”功能,从实际产品使用流程中切实感受AI技术 如何为教育创造更多可能~
前两期对抖音和美图的体验,让我们见证了计算机视觉技术带给人类生活感官及娱乐的刺激,本期我们对作业帮进行体验,感受AI对教育的助推。
作业帮是一款以“拍照搜题”为核心功能的在线教育产品,该功能的实现主要运用了OCR和深度学习技术,故本文围绕该项功能的体验,结合简要的技术分析,领略作业帮化身“AI小叮当”的魅力,话不多说,开始本期的旅程吧~
1. 产品概况作业帮是一款以拍照搜题、课程辅导为核心功能的K12教育产品,该产品主要面向的是K12阶段的学生、家长及老师人群,其中学生人群为主。
如图,根据七麦数据的实时榜单排名显示,作业帮在畅销榜中排名第二,而在免费榜单中排名第五。
值得注意的是,这是所有教育主题下的产品排名,若仅考虑K12教育范畴,作业帮是当之无愧的“小霸王”。
这也间接说明了,作业帮在明确的产品定位下,为学生解决了习题答案搜索、学习辅导等问题,并且提供了相对竞品而言更为优良的用户体验。
同时,根据艾瑞数据显示(图中垂直坐标轴单位为万台),作业帮的月活,和同类型的产品如小猿搜题、学霸君相比之下,其排名为第一,且领先的优势比较明显。
如图,作业帮的月活平均值为8478万台,而小猿搜题为1618万台,二者相差的距离较远,仅从日活的角度来看,作业帮的日活值也达到小猿搜题的5倍,进一步证明作业帮在同类型产品中具有较强的竞争力。
通常,我们衡量一个工具类的产品好坏,除利用榜单排名外,月活和日活是更为重要的指标。
则结合上述数据分析可见,在线教育的服务需求中,作业帮向用户交出了一份满意的答案。而作业帮获得的良好口碑,与拍照搜题这一核心功能功能精益求精的良好性能与优秀的用户体验密不可分。
为了进一步认识拍照搜题功能及其背后的相关技术原理,以下将从拍照搜题功能项的用户-场景-需求分析、功能目的、功能逻辑、用户评论等方面进行剖析,并结合技术给出最终的体验结论。
2. 用户-场景-需求分析可见,作业帮的主要用户可分为学生、家长及老师,其中以学生群体为主。
为了更形象地说明拍照搜题功能的意义,我们讲三个典型的用户故事。
故事1:
小A是一名高三的学生,正面临严峻的升学压力。平时在家自己写作业时,如果遇到不会的题,他会直接打开作业帮,不用手动输入,直接拍照搜索同类型的题,既不会耽误时间,又能及时理清楚当天所学的知识点。偶尔,如果课堂上老师讲题的思路他不清楚,回家也会自己拍照,然后看看平台上别人的解题思路就豁然开朗了。
此外,高三了很多知识点需要不断地强化巩固,所以他还有一个高效学习的小窍门,那就是拍照搜题之后,通过举一反三对同类型的题目进行反复练习,一次性吃透知识点。
更重要的,因为处于一个教育水平相对落后的县城,而平台上围绕拍照搜题,还可以选择一些名校名师来帮助解答或观看对应的解题视频,帮助自己见识到更简便的解法,感觉作业帮的搜题功能太方便了,简直就是自己的“小叮当”。
故事2:
老王是小A的爸爸,文化程度较低,平时大部分时间都在忙工作,尽管如此经济也是捉襟见肘,他希望小A可以好好读书,将来摆脱和自己一样的生活困境。老师给小A介绍了一款应用软件叫作业帮,帮助他解决了辅导孩子的无力感,同时直接拍照搜题,可以节省时间,安排也很灵活,同时在线教育更为经济,也为家里节约了很多补习费。
还有的时候老王辅导小A的妹妹小B写小学作业,也不用自己输入百度之后搜索那么麻烦了,直接拍照就可以看到答案后再辅导孩子,体验很不错,所以现在他逢人就推荐作业帮。
故事3:
陈老师是小王的班主任,在小县城任教,有比较多空余时间,但是工资比较低。工作闲暇之余,陈老师还在作业帮上为学生们答疑解惑,比如对学生拍照搜题的结果,如果还不理解,就换种思路帮助继续解答,或者帮助一些孩子进行强化学习和训练,这样既可以继续发挥自己的教学价值,还能赚取一部分的额外收入,所以陈老师也很心水作业帮~
3. 功能目的结合用户-需求-场景及用户故事,我们可以很清楚地看到,作业帮作为一个K12阶段相对成功的在线教育产品,依托于人工智能技术的发展,为广大的学生、家长和老师带来了便利。
对于学生而言,遇到不会的题目或含糊不清的知识点,作业帮的拍照搜题,使得孩子们可以不用受困于老师不在身边、家长无力辅导或逐文字输入搜索的困境。同时该功能的外延还可以帮助学生强化知识点,学会举一反三,甚至因为平台上对学生的问题还提供了名校名师答疑解惑的选项,一定程度上可以缓解教育资源不平衡的矛盾。
而对于家长而言,作业帮的拍照搜题帮助他们缓解了自身文化程度不高无法辅导孩子的无力感,同时帮助工作忙的家长节省了时间,也替经济条件有限的家长省了钱。而对教师用户而言,作业帮也为他们价值和利益最大化提供了一个平台。对作业帮而言,拍照搜题的提出,是迎合AI时代对教育的一种创新,同时为计算机视觉技术的落地提供了良好的落地契机,为传统教育的改革带来了新的方向。而随着平台的不断成熟,围绕着拍照搜题,作业帮进一步开拓了课程辅导、学习圈等功能,进一步提升了作业帮的服务。但不可否认的是,拍照搜题仍然是作业帮的亮点,而且作业帮的发展战略,也一直立足于不断地提升后台算法对题目照片的识别的准确率及题库的完备率,也因此才得以维持向上的发展劲头。
传统意义上的产品设计,强调功能主次鲜明的重要性,而从当前对人工智能类的产品体验中也可以看出,该原则对AI类产品亦同样重要。
算法、技术可以有千千万万种,用户可能遍布天涯海角,但作为一个产品,尤其是工具类的产品,如果本身核心功能不够出众,或在后续的完善中偏离了核心功能轨道,只有死路一条。而从人工智能发展的角度来看,算法准确率的提升和优化是一个不均衡的过程。
比如,起步的时候,可能随便加大训练数据数量或者是调整学习参数或训练的方式,算法提升的效果就很明显,因为说到底,所谓的人工智能,还是利用了计算机超强的存储及快速暴力求解的能力。
但随着不断地推进,面对的数据越来越复杂、用户场景越来越多、需求越来越丰富,算法还想提升,哪怕那么一个百分点,都是十分困难的,这也是所有人工智能类产品在迭代进程中都会面临的问题。
但是我们从作业帮拍照搜题的识别越来越准确,用户体验也越来越好,可以看到作业帮一直在坚持后台算法的迭代和优化,这种对初衷的坚持是算法之外更可贵的产品精神。
4. 功能逻辑从中可见,在拍照的过程中,做出了两个比较明显的限制。
第一个是横屏拍照,保持题目处于图片的特定区域,其目的在于减少后续识别算法处理的难度。其次是对拍摄灯光的要求,因为当光线较暗时,图片不够清晰,则后期的文字识别会出问题,不利于最终的识别准确率。
这是用户体验和算法准确性之间的一种权衡,更人性化的产品设计提倡,尽量减少对用户的要求,增加用户使用的自由性。
然而对于人工智能算法类的产品设计而言,其准确率的获得往往需基于一定的前提,一旦打破这些限制,算法识别的效果可能就会十分差劲,则会带给用户更糟糕的影响。
以下是实际体验的一个过程截图:
基于上述体验,可见拍照搜题技术,已经取得了可接受的成效。
为了增加对算法识别的难度,体验中我们特别使用手写题目,而从搜索的结果来看,返回结果中的5道题与原图的相似度很高,说明文字识别及后续文字特征匹配的准确率达到了可应用的程度。
同时我们还尝试了将两道题放在一起拍,则画面中占比较大的题目也可以检索得到很好的输出,这进一步说明,算法在处理的过程中,对于文字的切割比较准确。但是,体验中也发现了一些不足。
比如:题目拍摄的要求较高,尤其是屏幕中限定的框大小是固定的,而有的时候搜索的题目长短不一,所以大部分情况下难以在平台给定的小框内容纳题目,所以只能拍摄题目的关键部分,如果一次识别不准确就要反复尝试,直到找到或放弃,增加了用户操作的成本。
这是由于后台算法的灵活度还不够决定的。
其实我们需要更多地理解,这不是产品本身设计死板,而是因为现有的机器学习或深度学习算法,本身仍比较机械。比如:很多神经网络的输入,都有固定大小的需求,一些算法也仅仅对达到某些条件的图片处理才能获得良好的准确率,同时AI类的产品设计又缺乏足够的经验积累。
这或许会在未来随着深度学习进一步发展,算法具有更强的推理和学习能力后,可以一定程度上增加产品设计的灵活度。
再比如:针对少数部分文字描述,而题意的表达主要依靠示意图的数学题,体验过程中我们尝试只拍摄题目的图片,此时系统大概率下无法检索。也就是说,出现“图中图”的情况,算法识别准确率较差。
这可能是因为系统基于OCR和深度学习的方法,主要对文字切割进行处理,但是对图像特征的处理比较欠缺,所以检索效果较差。
则上述问题的解决,可通过多种技术方案融合,应对不同用户场景需求的特定任务处理,增强算法应用的鲁棒性,减少算法失灵的情况,这应当也是未来人工智能产品落地的一个重要关注点。
最后,还有一个小问题,有时拍摄上传数学类的题目,返回的结果中可能还包含物理、化学、英语等结果,我们将这类错误姑且称之为跨学科错误。
这也是可以理解的,因为算法更关注于对拍摄题目的文字识别,并在之后以文字特征的相近性作为主要指标,进行搜索结果返回。如此,只要题目描述和题库文本更相似就会作为结果返回,却忽略题目类别的考虑。
关于这个问题的解决,或许可以考虑,在识别的过程中,增加类别标签,如拍摄题目上传之后,可以通过用户设定题目类标签。比如:属于语文、数学、英语等,则上传之后在特定的范围检索,这一方面可以提高算法检索的效率,另一方面也可以减少跨学科返回的错误。
(这一步在技术上看来是可行,而且增加的成本也只是用户上传的时候多了一个打标签的操作,但是却可以上传之后,结合这个标签减少检索的范围,同时减少跨学科返回的错误,而且后面做用户评论分析分析这个问题还是槽点比较多地一个,那为什么作业帮不做呢?我想不明白~)
5. 用户评论作业帮自上线以来,收获的口碑不错,根据七麦数据显示其IOS市场下评分结果如图:
总体评分达到4.6,好评率较高,同时为了进一步发现该应用仍存在的问题,我们搜集相关用户评论共30条,其中部分用户数据统计截图如下:
30条数据中,1、2、3、5等级对应的数据量分别为20、3、2、5条,其中以低分差评为主,更利于我们发现产品的问题。
则对用户数据进行关键词提取后,发现其基本占比如图所示。
我们将用户对问题的描述,提取出对应的关键词进行归类以便后续进行归因分析。
首先是结果问题,主要包含的描述如搜不到题目、搜出来的题目与用户需求不符合、答案解析有误等,占比较高达36.7%。其次是闪退问题,约16.7%的用户反映在拍照搜题的的使用过程中会出现闪退问题,也属于一个高频问题。最后拍摄问题,同样地也有16.7%的用户反映,拍摄的过程中存在拍摄困难、横屏适配的问题。同时跨学科问题也比较明显,它是指用户拍摄数学题,结果检索出来英文题目,这是比较刺激用户体验一种存在,用户直观看来会觉得系统无疑是“人工智障”。
此外还有抄袭问题,它主要反映了由于拍照搜题的便利性的同时带来了孩子不加思考、直接抄袭的弊端,占比达6.7%,这背后也反映出技术的双刃性。
产品,既要宠着上帝,还要冒着被抛弃的风险“管管上帝”,要秃头~
我们将最终问题产生的原因主要归类为算法准确率、产品设计、产品运营、产品bug。
首先针对结果问题,如搜题不准确、跨学科问题等都是由于平台算法不够精准、鲁棒性差而引起的一种搜索结果返回失误,该原因也是最为重要的一个,而且也是大部分人工智能产品普遍存在的问题。
因为对于AI类的产品而言,算法准确率及稳定性直接影响了产品的使用体验。虽然目前有一些优秀的产品细节设计可以缓解用户对准确率的矛盾,但是效果并不明显,而该类问题的解决只能依赖于对算法的进一步强化训练及参数调节。
题目拍摄过程中存在的横屏问题,则属于产品设计的范畴,需要产品人员充分理解算法的应用的基础,而后结合用户的使用流程进行功能设计的优化可以改善。
其它类似于产品运营、题库、产品bug的问题,同样需要产品及运营人员发现之后,及时展开具体调研并制定相应的方案去进行解决。
6. 技术分析拍照搜题功能,从技术的实现角度上来看,主要有两种方式。
第一种方式是以图搜图。即平台中的题库同样按照图片方式存储,则当平台处理一个用户拍摄上传的解题需求时,算法通过计算用户题目图片的特征,并进行搜索排序,从题库中找到对应的最相似特征的图片,则该图片即为用户所搜索的题目。
这种方案本质上是基于计算机视觉特征与机器学习算法的匹配检索技术。
但这种方式的不足在于,一方面系统的题库需要以图片的形式存储,消耗的硬件空间较大,而且计算效率较低,性价比较低。
另一方面,对于两道题目而言,基于图片维度特征的比对,进而界定文字题目的相似度,和直接基于文本特征进行题目相似度的比对,必然还是后者的准确率要更为可靠。
因而,作业帮采用的是另一种基于OCR技术和深度学习结合的技术方案。
OCR(Optical Character Recognition),指的是电子设备(如扫描仪或数码相机)检查纸上的字符,通过检测暗、亮的模式确定其形状,而后利用字符识别方法将形状翻译成计算机文字描述的过程。
通俗地讲,就是针对印刷体字符,采用光学方式,将纸质文档中的文字转换为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进行加工的一项技术。
则基于上述定义,拍照搜题的过程,就是首先利用OCR,将图片中的题目处理识别成文字,而后根据用户的题目文本和平台数据库中的题库比对,找到最为相似的TOP 5(作业帮提供5个选项)。
OCR处理的过程主要包括以下几个:
(1)图像输入及预处理:针对不同格式的图像输入,进行必要的预处理。
预处理过程首先进行二值化,即将彩像转换为黑白图像,主要是为了剔除掉一些冗余特征,只留下重要的特征。
其次进行噪声去除。因为图片二值化之后,可能在图片中出现很多小黑点或其它噪声类的附着,会影响后续的识别,所以要进行必要的过滤处理。
最后进行倾斜校正。因为用户在拍照的过程中,可能出于拍摄的技术、环境等客观因素的影响,照片的角度不利于最终的识别,因此需要进行必要的倾斜校正以保证图片水平。
(2)版面分析:直观来讲,这一步就是对图片中的文本进行段落、每一行的切分。
(3)字符切割:将图片按照行和列进行划分,则切割后字符就变成了自己一个字。
(4)字符识别:通过机器学习或深度学习,进行文字的识别。
(5)版面恢复:对识别后的文字,保持段落、行及文字间的相对位置不变。
而在文字识别的过程中,目前更为常用的方法是基于深度学习算法。深度学习算法识别单个文字的过程如图所示:
如图,经过OCR预处理并分割之后,对一个文字而言,基于深度学习方法的识别,首先对其进行卷积操作提取特征,而后进行下采样操作,保留更重要的特征,而后继续进行卷积和下采样操作之后,将最后一层下采样操作获得的特征输送至全连接层进行处理并最终输出其概率分布,从中可见,最终以98%的置信度对当前文字判定为“运”。
对其它文字的识别亦同理,当前基于深度学习的文字识别,算法准确率通常达到99%以上。
技术关键词:OCR 深度学习识别文字。
7. 功能扩展同时,基于相近的技术,作业帮对应用进行了扩展。
他们为了满足家长批改作业、辅导孩子的需求,进一步开发了具有针对性的家长端。
在家长端,主打的特色功能是口算批改和作文搜索,则该需求的指向性更为明显,背后的技术原理和流程本质上和作业帮也是比较相似的,但家长版的整体体验更加简洁,因为对于家长而言,更多的是起到辅助和陪伴的角色。
具体的体验在这里就不赘述了,感兴趣的小伙伴可私底下悄去体验一把。
在这里特别提及家长版是因为,在体验AI类产品的过程中发现,其实人工智能产品的设计中和传统的产品设计还是有很多类似的地方。归结到底还是对用户需求的把握,有的时候基于同一项或相近的技术,可以解决很多用户的不同需求。所以有的时候,如果产品设计人员过度重视算法和技术实现的细节反而会使得我们忽略了用户的需求。
换一个角度,许多人说目前人工智能算法的应用,其瓶颈在于找到落地的场景作为切入点。那么我想对这些产品分析体验的过程,就是要求产品或技术人员结合用户-场景-需求及功能目的、功能逻辑的分析之后可以懂得——
某一些算法通过运用什么样的流程设计,解决了哪些人的哪些问题,从而当面临新的需求时,学会迁移借鉴某些产品已经验证过的算法及功能流程的设计,这样的体验可能才具有价值,希望我们可以努力把这件事做得更好!
总结本期主要体验了作业帮的“拍照搜题”,从中我们看到,基于OCR和深度学习技术的结合,人工智能在K12教育上也发挥了巨大的潜力,在未来不断地发展和技术完善中,作业帮可想象的空间也许不局限于K12,甚至是成人教育也未可知。
作业帮再一次证明,科学技术本身没有温度和创造力,而真正焕发无穷力量的是产品。
作者:Luna,公众号:有三AI,一个专注于人工智能技术与产品落地的公众号,希望可以和热爱AI的人有更深入交流,一起见证AI改变生活!
本文由 @ Luna 原创发布于人人都是产品经理。未经许可,禁止转载
题图来自网络