“7岁了,继续奔跑。”1月15日,作业帮创始人、CEO侯建彬在朋友圈里哀叹。
过去一年,作业帮发展尤其迅速,一年领到三轮融资,给本来热闹的K12在线教育市场再添了一把火。
2015年的时侯,作业帮还是一个很小的APP,团队也很小,一张相片就放得下。6年后的明天,作业帮早已成为中国惟一月活用户过亿、唯一步入全网top30的教育类APP,员工总量超过35000人。
作业帮团队.2015年
K12在线教育正身处风口。iMedia Research预计,政策利空、技术成熟的推进下,2020市场规模达4858亿元,增速202%。也是在这样的背景下,在线教育行业迎来了密集融资。网经社“电数宝”电商大数据库显示,2020年在线教育行业共发生110起融资,融资额超540亿元,其中,作业帮就占了约30%。
市场竞争激烈,人们叫得上名子的应用就有数个,但持续抢占背部的不多。作为组建仅仅5年的在线教育公司,作业帮到底凭什么能一路高歌猛进?
前特劳特中国公司中级咨询师顾均辉觉得,关键就在于作业帮对照相搜题的聚焦。“这一技术突破直接关系到用户体验,也对同类产品带来了‘降维严打’。作业帮因而一跃成为师生与父母心智中最好用的搜题品牌。”
作业帮入局前,在线教育市场竞争就已相当激烈。但通过聚焦照相搜题,作业帮在早已相对成熟的市场中出奇制胜,成为K12在线教育市场的一匹黑马。而且,6年来,不断完备的拍搜技术体系,在作业帮的各个业务环节中发挥了“杠杆”作用,为其后续发展打下了坚实的基础。
01一个super机会
时间回到2013年,这是K12教育行业的一个转折年。
这一年,辞去世纪佳缘CEO的龚海燕创立的梯子网吸引了大众的关注,也搅起了BAT对在线教育的好奇心。
彼时,在百度内部,百度知道的负责人侯建彬发觉,K12领域的提问量占到了搜索总提问量的10%。他隐隐感觉,这是一个巨大的需求,可以支撑起一个独立的APP。
2014年1月,作业帮即将上线。基于百度知道的积累,作业帮首先推出以问答和圈子为主的UGC社区。但运行一段时间后,问题也开始显露,问答质量不高,时效性得不到保证,这对正在做作业的提问者来说并不便捷。
龚海燕曾表示,自己做梯子网,是想要给教育资源薄弱的地方搭起一座梯子,从而改变学子的命运。梯子网选择的是做社区,吸引老师、学生入住的模式。但后来事实证明,这一模式缺少商业支撑。
此时,K12正处于题库创业高峰期。猿题库、学霸君等在题库的基础上,根据用户的需求开始推出了拍照搜题功能。
“拍题是一个super的机会。”侯建彬判定,拍题是可以做到日活千万级以上的,而且它重新开辟了一个之前从来没有存在过的、线上的学习场景。
市面上的一些创业公司希望采用照相搜题的形式,帮助用户解决实时性的问题,但是,由于技术的缘由,此时的照相搜题的效率和准确率都不高。
拍照捜题准确率提高的关键,在于题库的积累以及成熟的OCR(光学字符识别)技术。在这两方面,百度都有一定优势。侯建彬觉得,这是作业帮的机会。
2015年1月19日,在作业帮上线一周年之际,带有照相搜题功能的4.0版本即将上线。当天,它的活跃用户数第一次超过了100万。
作业帮的B轮投资人,GGV纪源资本投资副总裁于红说,当时市面上,K12有很多种模式,但她笃定作业帮拍照搜题是流量入口的路径是对的。
拍照搜题功能上线的同时,市场上也有好多指责的声音,认为是在变相帮助儿子抄作业。
“最早所有人就会有这个困扰。我一开始也想,我们做照相搜题这个东西是不是就是给人抄答案的?因为动机给人觉得不是这么的正向,都不想坚持去做。”作业帮照相搜题的负责人王岩说,为此她们特地做了一次用户督查。
他们打了好多电话,调研用户的学习情况。结果出乎意料,他们发觉,绝大部分用户都是成绩中等偏上的中学生。真正成绩差的中学生,他们要么不写作业,要么抄现成的,根本不会费事去使用作业帮。
“它是真正有教育价值的。对于大部分想通过教育改变人生的中学生们,拍搜上的解析、视频等在线资源,是一个十分宝贵的信息来源。”王岩坚信,作业帮对于更广大希望学会知识的朋友带来的好处,是远远小于其可能带来的恶果。
而为了防止中学生们只是拿来抄题,作业帮的拍搜也做了好多非常的设计,比如绝大多数题目都提供详尽的解析,不是只能看见答案;利用智能算法对用户疑似仅仅看答案的行为,进行一些提醒和数目上的限制。
今天,很多中学生在做家庭作业时,遇到不会做的题目,不用再等着“问老师”,而是打开例如作业帮这类的App,给题目拍一张相片。数据显示,全国每10个儿子就有7个在作业帮学习。
“我自己没念过几年书,我希望我父亲不要走我的老路,能够好好读书,改变命运。”王建坤对《商业与生活》说,现在小孩上中学5年级了,老师留家庭作业他早已补习不了了。每次儿子遇见不会的题目,都是用作业帮的照相搜题,自己给儿子批阅作业也离不开这个软件。
拍照搜题已然成为中学生们的一种主要学习方法,在一定程度上给教育资源薄弱的中学生搭起了一座梯子。
02“不这么帅气”的改进
5年前,多个创业团队都曾杀入照相搜题领域,也遭到了中学生们的亲睐。但现在,这些创业团队都早已在业务上分道扬镳,沿着各自的路径越走越远,只有作业帮固守了这个优势。
目前作业帮旗下产品累计激活用户超8亿,总日活用户超过5000万,总月活用户超1.7亿,占据了中国K12在线教育流量侧75%以上的份额。作业帮APP也是中国惟一月活用户过亿、进入全网top30的教育类APP。
罗马不是三天建成的,作业帮的拍搜优势,则是靠一行行代码积累上去的。
“我在作业帮的前三个月,比我在百度4年写的代码都多。”作业帮智能技术实验室负责人王岩说。王岩主要负责作业帮照相搜题,拍照批阅,题库等一些业务的技术工作。
起初,作业帮用的还是第三方服务的OCR插口,这个插口最大的问题就是速率慢,识别一张图要10秒。
作业帮提出希望才能把辨识的速率推进。但对于一家小型服务供应商而言,作业帮只是一个小项目,根本不注重它的需求。但作业帮自己清楚,识别的效率就是公司的生死线,于是决定舍弃使用第三方服务,自己研制拍搜系统。
2015年4月,侯建彬提出了“攻克天王山”,要把辨识的时间从10秒到3秒。当时,公司里并没有专门学过图片辨识的职工,任务就被分到了王岩和程童所在的团队。
王岩坦率,一开始,他们并不具备提高辨识速率的能力。在使用第三方服务的OCR插口时,他们为了降低用户等待恐惧的问题,甚至做了一个“虚假”的进度条,第一秒就进行到90%,剩下的10%渐渐走,让用户认为马上才能出结果了。或者故意把相片旋转的过程设计的比较慢,让用户认为是自己手机反应慢的问题。这也是她们当时惟一能想到的办法了。
由于之前没有相关的经验,王岩的前期效率十分低,基本上每晚都要把前一天写的代码全部推翻重新写。那段时间,他们做得十分辛苦,将近两个月的封闭时间,他们一周六天,每天都工作超过12个小时,一边学习一边摸索,终于做了下来。
这一飞越给了团队极大的信心。随后,作业帮进一步成为业内第一家把辨识响应优化到一秒的公司。时效和体验,一举奠定了作业帮在同类产品中拿下第一,并将这一流量优势持续到了明天。
一行行的代码,一点点的提高,这不是一个像融资,像市场推广那样有帅气故事可讲的过程。这更像是一个无趣的自我摧残。
但在侯建彬看来,就是这个看起来不这么帅气的改进,起到了极其关键的作用。教育产品的下降还是要看口碑,用户在乎的是服务的质量。面对激烈的市场竞争,作业帮要保证优势的惟一办法就是要做到,人无我有,人有我优。
03海平面下的技术进阶
一个典型的中学语文题,识别上去并不复杂。一个熟悉计算机视觉和深度学习的中学生借助公开的资源和一些数据集,就可以搭下来一个系统。
但是,当用户上了规模,需求和场景就显得复杂,何况作业帮累计激活用户设备超过8亿。
由于人们的拍摄环境,拍摄的题目,乃至使用的设备,都是五花八门的。有的拍的模糊,有的灯光暗淡,还有的题目上早已被写满了草稿,这都给拍搜系统提出了挑战。
市面上好多同类软件,或多或少就会出现答案和所拍相片题目不一致的现象,反而浪费了中学生的时间。
作业帮的拍搜系统,基于OCR和深度学习技术的结合,经过持续6年的自主研制和数据积累,目前拥有多项OCR、检索和系统专利,功能也在不断拓展,从最初拍单题,拍整页,再到猜你想拍,从搜索答案,到批阅,再到打分。数据显示,其中学语文作业的批阅整体准确率早已达到98%,而且最快一秒出结果。
人们看见的结果,往往只是冰山一角。海平面则是庞大的技术、数据支撑。
程童在作业帮还在百度内部孵化的时侯就选择了加入,参与了作业帮拍题搜索系统从0到1的搭建过程。据他介绍,拍搜算法构架比较复杂,主要分为OCR和检索两个部份。
其中检索系统主要任务是通过辨识出的文本检索答案,由上至下依次包含接入和策略层、正排系统、倒排系统和离线建库四个主要部份,整体是一个由好多模块组成的复杂系统。而OCR系统主要是将所拍相片内容辨识成文本,主要是由多个策略&预处理模块,以及大量使用GPU作为运算设备的深度学习在线推理服务组成。
针对不同用户使用场景下可能出现的模糊、倾斜、低象素、干扰等等各种照相问题,作业帮不断进行算法迭代和构架健全。现在,在一次完整的文字辨识流水线里,会有超过30种不同的神经网路各司其职,运行260次以上的神经网路预测。而通过建立大规模的并行GPU集群,这样一次比较重的辨识流程,平均只须要200毫秒。对于辨识出的题目内容,则会在索引量超过3亿的题库搜索引擎中进行匹配,确保给到用户的信息尽可能确切。
程童说,过去六年,作业帮的拍搜系统一直都在变化。
早期,因为你们辨识响应普遍都慢,谁能把响应时间减短,谁能够够博得用户的偏爱。当快到一定程度,准确率又成了一个关键点。准确率越高越容易产生口碑传播。
当时,大家都使用CPU服务器跑算法模型,性能低耗时长。作业帮率先将GPU用于在线推理服务,预处理的部份交给CPU,深度神经网路则借助GPU强悍的并行运算能力去估算,上线后就取得了10倍的加速疗效,实现了“随手一拍,秒出答案”。
进入2017年前后,随着原有业务流量迅速下降,算法模型的种类和数目的不断降低,给开发和运维上带来了更大的压力。
“业务做不上去,系统做的再漂亮也没有意义。”程童说,为了让模型快速上线,他们上线了好多临时方案,但也让她们的系统管理运维的包袱越发沉重。
虽然业务优先,但程童晓得,如果任由系统退化下去,不但自己会疲于奔命四处救火,最终也会影响业务发展。所以在项目间歇期、流量低峰期,拍搜团队就会见缝插针进行系统优化,减少技术债权。比如,针对环境异构的问题,他们通过升级接入层,优化自研rpc(远程过程调用)客户端,满足多机房,多型号负载均衡以及实验分流的需求,使得流量的接入几乎可以无视型号机房的区别。
现在,随着业务相对成熟,系统成长到了一定规模,他们重新考量之前系统发展过程中的各类问题,深挖本质,最终选择了通过虚拟化的方案给以解决。迁移后,通过更细细度的资源分配和服务混部,一些集群最多节约了50%的机器资源。而通过迁移获得的弹性伸缩能力,也让拍搜系统在应对流量高峰的时侯愈发游刃有余。
“我们对指标的要求仍然在提升,原来是到90%,后来到95%,再到99%。难度是在于准确度不停的向前探求,我们的基础提升之后,你想再前进一步,难度会是指数级别的降低。”程童说。
04做一家教育科技公司
2015年6月,作业帮从百度即将拆分下来,新公司起名为“小船出海” 。当时,侯建彬通过各类关系总算找到了有教育背景的所晖,希望他能出任联合创始人。所晖问了他一个问题:作业帮是想做一家“教育”公司,还是“科技”公司?
“做教育科技公司”,侯建彬当斩钉截铁地回答。
谈到教育创业,也许有人觉得,要想做得好,只须要构建优质师资团队就足够了。这种看法似乎忽视了一个关键,在线教育与传统教育最大的不同,就在于技术的力量。
通过用户的拍照搜题内容,作业帮都会通过大数据算法来剖析重点、难点和全网的学习进度。比如,他们发觉山东潍坊的中学生,花时间最多的是“多项式乘方程”这个知识点,而在四川成都,花时间最多的知识点是“平行四边形的判断”。这样一来,就可以针对不同城市的中学生,提供出愈加有针对性的课程或是学习工具、学习资料,集中力量解决难点,使得更多的中学生受惠。
而作业帮正是凭着着人工智能、直播、5G、大数据等技术的赋能,为教育创造更多可能的同时,也从一众竞争者中脱颖而出。
现在,作业帮早已做了五六年的照相搜题了,不仅抢占了在线教育最大的流量入口,也为旗下继续孵化出王牌业务在线直播课持续提供转化学员。王岩相信,基于上面的积累以及人工智能技术的不断发展,未来的解题和在线学习,一定可以走出题库,通过理解背后的知识,自动解题,甚至会生成讲解视频和课程帮助中学生进步。
曾经,融资后,有人问侯建彬,你们也做了好多AI的事情,为什么都没有提及说大家是AI+教育公司。侯建彬说,“我怕你们以为我们跟这些炒概念的公司是一样的,没必要提。”
技术永远是为业务和需求场景服务的。作业帮没有刻意谈过AI,但非常看重用户第一。16亿美元的E+轮融资,也再一次证明,科学技术本身没有气温和创造力,而真正迸发无穷力量的是产品。
对作业帮而言,拍照搜题的提出,是顺应AI时代对教育的一种创新。而照相搜题也为计算机视觉技术以及人工智能技术的落地提供了良好的落地抓手,为传统教育的变革带来了新的方向。