百度教育新品 先过课程数据关?

2013-05-02 18:05:27发布   来源:新浪科技   作者:张迪欧   0条评论

      百度节前低调上线针对教育培训领域的新产品,输入关键词,百度提供课程结果,用户可以根据时间、地点、课程类型等进行选择。这一新品引起了业内热议,有观点认为百度很难克服课程数据这一关。以下内容节选自新浪科技《创事纪》,作者张迪欧,有删节。

  据报道,搜索引擎巨头百度开始涉足教育培训领域,低调测试一款新品。当用户在搜索栏中输入“雅思培训”时,搜索结果直接显示教学机构名称,其搜索深度已经接近课程级。这在教育培训行业是个爆炸性新闻值得分析关注,因为此举有可能改变教育行业的推广格局,但仍有一些难题搞不定,比如课程数据。

  如果百度此举是为了提升搜索体验,那必定要采取搜索引擎爬虫的方式向全行业抓取数据。否则如果百度的不抓取数据而是要求教育机构自行提交数据的话,此举将只是凤巢推广系统的一部分;这一点咱们暂且不表,留在下文言说。

  先谈谈搜索引擎爬取的问题。可以说,所有的行业里,教育培训领域的课程数据整合是最难的,甚至难到了在逻辑上都不能验证通顺的程度。我之前参与过一个教育类垂直搜索引擎的项目,那一段时间最大的噩梦就是数据问题。之所以最终选择了网络教育,就是因为网络教育的课程数据具有一定程度的可实施性。而百度这么大的动作不可能只满足于网络教育,他们的指向应该是全行业的线下教育搜索,于是,问题马上就要来了。

  首先是数据的规范性极低,无法统一展示。教育行业的本质是服务,依从不同的学科拥有不同的服务特征,不同的机构则有不同的课表标准。就拿课时来说,A机构说的是课时,B机构谈的是学时,C机构干脆就按小时计费,D机构说一个月是个培训期,E机构也谈课时,但他们的一课时是30分钟……再说班型的概念,不同机构的班型定义不一样,班型本身千变万化,而且还有同样概念不同名称的班型。仅网络教育的现有机构,网校网抓取的班型就将近300种,更何况线下教育的庞大集群。再从教育机构来看,有的机构以教师引领,有的机构以教学的组织引领,有的是一对一教学,不同的学校理念不同,课程设置不同,促销方法不同,甚至基本的名词定义都不同。这个不像实物商品,实物商品属性是基本规范的;也不像饭馆,饭馆是以“店”为单位去组织的。教育搜索引擎如果想做到真正的服务深度,那么必须以“课”为基本单元(百度目前就是这么做的),这就相当于搜索到饭馆里“菜品”的级别了。在这种极不规范的市场下,根本无法实现这种级别的抓取。如果百度提出自己的标准,教育机构能否按照百度的指挥棒去执行?如果百度把这些属性强行整合,那么又如何为用户提供准确服务呢?

  第二,课程数据难以抓取和更新。假定课程已经规范,但教育领域的网站之千姿百态是大家所公认。即便一家网站,不同学科的页面html规范都不同,更有甚者,教育机构的课程介绍基本以课表形式展示,这需要人类的智能去读懂。百度爬虫如何能把这么多种不同的HTML,把这么多不同逻辑的表格都爬取拆解整理入库呢?这是人工智能领域的一大难题,恐怕百度难以解决。即便真的做到了,那么教育机构的课表变化,搜索爬虫的更新频率能跟得上么?当然,百度可以让教育机构主动提交信息,这个在后文将进行探讨。

  第三,数据量之大难以想象,而教育培训是线下服务,对于用户必须就近选取。那么全国有30多个省份,N多城市,地区可以算作一个维度;教育培训的学科非常多,线下教育学科上千不止,这又是个维度。这两个维度就能衍生数万个区划,每个区划里有N多机构,再加上班型、上课时间等维度,再加上日常更新维护,这个数据量对百度而言也许不算什么,但数据精准程度就不好说了。

  所以如果百度以搜索引擎的方式解决教育领域精准搜索的问题,只能牺牲量而求质,求质就得推广少数机构,推广少数机构就变成了付费推广,成了凤巢系统的一部分,就成了广告行为。反过来,如果求量而牺牲质,那么这种数据黑洞解决不了,质量不高,百度费力不讨好。