前面的话;刚踏入科研圈子,接着便迎来了软件工程这个为期近三个月的大课,五人组成的近两个月的团队项目确实不是一件小事,要确定一个切实可行,能够有些创新,又能适合团队的项目很是困难。目前恰好有 和bing 搜索引擎的资源,所以就想了高校申请指南,现在想法和目标都不健全,目前我就用方法对此进行分析,还请大家多多指正,多多评论。
1) N(Need 需求:这个创意到底解决了用户的什么需求?)
每年秋季,尤其是大四的同学就开始为各种出路做准备,大部分选择了继续学习。那么如何选校读master或者Ph.D是大家很头疼的问题。尤其是选择出国,申请什么学校、什么教授,都需要我们花费不少心思去挖掘。哪个学校科研做得好? 哪个比较牛?学校对学生申请的要求是什么?种种信息需要去归纳和整理。就拿出国留学的例子来说:根据联合国教科文组织(Unesco)的初步统计,09年的全球国际学生人数为343万人,比上一年的296万人增长12%。在中国每年现在出国留学生就达到30万人。这么多人对出国肯定不是很熟悉,而且每次去搜索引擎搜索时给的信息过于噪杂,而且有些商业用途的机构也会悄悄进入搜索排行榜前列,所以给我们带来不少困惑。该怎么办呢?
2) A(Approach 做法 :我们的团队有很好的解决方案吗?有独特的招数让我们的软件创新吗?)
用户的痛苦已经找到,海量的信息如何过滤,获得自己想要的东西呢? 突然意识到我们最终选择的对象肯定是老师,所以老师是我们锁定的对象。我们到底想要从老师那里得到什么?
目前身边的同学也讨论过不少这样的事情,谈论老师,基本上看老师牛不牛,科研水平强不强,老师的科研是处于上升期还是稳定期,还是有心无力太牛了就随便给学生放羊?老师的人脉广不广?老师的项目多不多?老师是不是nice? 老师是不是在你不懂的时候带着你? 校园地理环境?消费水平?实验室的情况?实验室成员?学校的申请截止日期?学校的网申流程?学校得到奖学金制度?当然还有对GRE的要求,对Toefl的要求。
上面是大众的想法,基本上可以分为1:老师的科研水平。2:老师的科研合作关系。
3:老师的个人培养学生情况。4:实验室情况。5:学校有关申请的相关规定和流程。6::奖学金制度。7:硬件条件要求。
从人的角度来来看,这是解决了,但是从计算机角度呢?
目前最热的也就是Machine learning(机器学习),我们就让他学习吧。要知道人在这个社会上并不是孤立存在的,人不可能脱离社会单独存在,从你的圈子的情况就可以看出你的人生价值,你的工作情况,在社会中的角色。老师要科研,科研要发表文章,当然engineers 也会发表不少文章,科研中你和谁合作?可能有学生,有同事。Social graph(社会关系图谱)技术也挺成熟的。比如在ArnetMiner中分析的图谱来看
人的科研关系网很大,而且我们有一定的认知:在co-authors中的同事可以其实和所研究的老师是差不多的,可以认为他是这个老师的一个duplicate(重复),关系图中还有老师的学生。好了,如果找到了关系图谱我们能做什么?
如果我通过网页搜索确定了老师在某个大学当faculty 恰好我也查到老师的co-authors的同事也在这个大学里,那我我就更加相信老师在这个大学里。当然如果我在爬学校网页中看到该老师,就确定老师在这个学校里,甚至也会知道你在什么系。所以通过co-authors里的同事可以更加确定老师的学校,老师所在的机构。(有不少情况老师有个自己的个人主页,把实验室等放到个人主页,学校可爬寻的资料就较少。所以co-authors就发挥作用了) 。
在co-authors学生也是老师的一个缩影,老师主页,或者实验室主页肯定会有学生的信息。我们便可以直接去联系老师的学生,从而能获得很多意想不到的信息。所以,如何找到学生的信息,联系方式等肯定也是比较关键的。 Co-authors里可以找到师生关系从而确定学生的名字,实验室主页里也有学生的信息,老师的个人主页里也有学生的基本信息,那么我们多个方向入手,应该会得到比较全面的信息,如果还没有得到,就可以通过bing 搜索引擎来帮助我们,在搜索的时候,其实我们肯定会有不少先验知识,名字,实验室应该都能获取得到。所以可以从搜索引擎里找到一些信息,然后通过以前获取的知识进行筛选!
关系图谱如果很大,而且分支很多,这说明你的科研人脉,和其他人或者还是挺多的,如果co-author里面还有很多是其他学校的,那么你和外校联系也很紧密,很有可能你的交流项目也很多。
目前,关系图谱分析的已经差不多,现在我们还有的资源是Microsoft Academic Search(微软的学术搜索)。 里面的资源很多,数据也很多,老师的发表论文情况,还有homepage,以及co-author等情况可以参考这里面的。老师的发表论文也可以从过他的个人主页中获得。如果老师个人主页中有其publication /citation 等信息,估计我们能爬得到,我们就结合这两者进行一次整合(对比,或者折中)。
我们目前有的资源也包括:bing search engine(bing 搜索引擎)。由于搜索引擎里的信息太庞杂,我们不可能全部相信,所以我们要进行一定的筛选,那么如何筛选?
由于我们限定的对象都是在学术圈,高校申请,那么,由于学术里面的东西肯定有不少规律,比如申请流程,由于申请流程全球基本上都差不多,里面的步骤也肯定很像,换句换说,至少任何两所学校的申请流程中如果按照TF(term frequency,词频)排序,肯定也会差不多。所以,我们在利用bing 爬网页时,获取的结果有一定的排序,我们可以先获取一定的training data(训练数据,如比较典型的申请模板),然后在进行重排序!获取最好的信息。
对于GRE/Toefl,我相信各大商业网站都会有,所以既然资源在那,我们就应该能够搜索到。
好,分析了那么多,来看看我们的问题能不能从计算机的角度解决?我大致提出了七点:现在就每一点给个粗糙的解决方案
1:老师的科研水平:老师个人主页,微软学术搜索
2:老师的科研合作关系 通过co-author来确定老师的机构,老师的科研人脉,和其他大学的交流关系
3:老师的个人培养学生情况:通过关系图谱或者实验室或者老师的个人主页里面的学生信息,来询问他的学生吧。
4:实验室情况:实验室主页,老师的个人主页里都应该会提到
5:学校有关申请的相关规定和流程:通过bing 搜索 以及申请流程的training data来筛选。
6::奖学金制度:通过bing 搜索,爬学校网站并通过training data 来筛选。
7:硬件条件要求:由于很多机构,还有很多网页都有这方面相关信息,所以比较容易获取!
目前老师的问题已经解决了,那么现在来构想下我们的大致流程吧。
3)B (Benefit 好处:这个产品/服务会给客户/用户带来什么好处呢?)
当然如果做得好,至少可以作为学生的一个参考。我们的软件是免费的,而且也可以通过此网站建立学术论坛,解决学生最痛苦的地方。我们实实在在给学生最真实的资料,尽量提供用户最想要的数据,而且也可以在此基础上进行个方面的信息统计,分析走势,进一步帮助学生。
4) C (Competitors 竞争:我们的竞争对手?)
目前市场上很多商业机构是来为出国留学打造的,而且很成功,但是他们最大软肋是:不学术和盈利性,我们通过各种小技巧,小聪明,在CV等什么地方出彩,在申请流程上花功夫。他们的目前是把你送出去。这往往会给学生带来很大的影响。我们就是站在用户最原始的角度,把各种资料都搜集出来,供用户查询,供用户选择。所以,如果做得好,肯定会很火!
说了那么多,其实很想说我是报一个真诚的态度来给大家分享我的想法,在分享中很真诚的希望大家能够提出宝贵意见,批评也好,鼓励也罢,welcome!