9月18号。
这是个勿忘国耻的日子。
在这一天,百度宣布了重大的消息。
网易新闻:
“昨日,中文搜索引擎百度公司宣布,该公司两位创始人之一的元老徐勇将于本月26日
徐勇在5月份的时候就提交了辞呈,徐勇和百度都未解释辞职原因。百度内部人士透露,暂时没有人替代徐的职位,徐目前所负责的业务将分割到各相关部门。
徐勇曾是百度持股仅次于李彦宏的高管。1999年,徐勇和校友兼好友李彦宏创建了百度,并担任副总裁职位;今年初,徐的职务由副总裁变为首席策略官,负责公司战略方向。徐勇表示辞职后将在自己的‘老本行’生物学领域发展。”
百度收购了搜夏引擎后,再次巩固了自己中文搜索霸主的地位,原本在上一年度发展得如火如荼的慧聪网,如今已经被百度打得节节败退。
在此之前,百度在中文搜索结果质量的各项指标上,百度的工程师表现得非常聪明,在某些点上也做得很细很出色,虽然对比 Google 还是有优势,但是在与搜索相关的基础技术上,百度还是全面落后。
百度的搜索质量提高,有很大部分是依靠人工做大量细緻的策略调整硬拉上去的。而在百度收购了搜夏之后,其在与搜索相关的基础技术上则有了很大的突破,其技术上的创新能力在今年一而再被媒体提及,而其商业模式仍旧是其诟病所在。
联合创始人徐勇离职,李彦宏加强公司控制权,这基本上是所有人看到消息的第一想法。年初徐勇任CSO,明白人一眼就可以看出,这其实是个有点虚的职位。
而媒体的相关猜测是:徐勇的离职是百度为上市进行人事调整的一环,是为百度上市融资“让道”。
这种说法是有道理的,在6月份的时候,百度便已经进行了第三次融资,这是上市前的最后一次融资,这一次是策略性融资,引进了googli以及DFJ等八家风险投资机构共投资1500万美元,股数225万股,折合股份7.98%,而夏梦持股降为11%,预计公开发股后,夏梦的持股会变成9%。
纵观在纳斯达克上市的中国互联网企业,无一不在上市前上演高层人事调整的大地震,百度也不例外。
只是为何在百度的这场人事调整大地震中,徐勇为什么会出局呢?这其中的机密除了百度的高层估计其他人都不知道真实答案。
甭管徐勇为何出局,反正这消息对陈义哲而言,就是一个好消息。
知道消息的第一时间,陈义哲便给了徐勇打去了电话,“徐哥,徐总,现在没事一身轻,应该有时间过来鹏城这边逛逛了吧?”
“我就怕一到你那边,我一身又变重了!”徐勇笑道。
“徐哥,你这是怕我往你身上塞黄金吗?”陈义哲打趣道。
“真的?那我这次可得顺便带个麻袋过去才行!”徐勇笑道。
“只要你来,你就是开着大货车过来也行!”陈义哲说道。
9月底的时候,徐勇果然来鹏城了。
陈义哲带着徐勇参观了cdss项目目前的情况。
长达一年多的时间里,徐勇陆陆续续发来了大量的医院临床数据,而cdss项目组多达30个人的技术人员就一直在做标准化数据的工作。
目前夏梦已经在陈义哲的方案设计下,初步开发了支持阑尾炎,肝结核,胃结核等几项特殊疾病的cdss。
“怪不得搜夏引擎的技术让百度技术团队惊为天人,看来夏梦互联网内部是人才济济啊。”徐勇感叹道。
“呵呵,百度的技术也不差,你看google都被百度挡在国门外,现在google也只能曲线入华。”陈义哲笑道。
徐勇摇了摇头,说道,“说句真心话,百度和google还是有一定的差距的。只是在国内市场,百度占了天时地利,这其实是‘百度更懂中文’地一个集中体现。就简单地说分词,百度当年做分词,先从一个人工编辑号地字典开始,用这个字典跑一些网页,观察里面地bad case。”
“可能是分词过细,或者是中文人名没分出来,然后就尝试根据中文语法规律加入规则或添加词表解决这些 bad case,如此往复,直到有满意的结果。上线应用,发现有新的 bad case 就再研究加规则,当然也有自动流程发现和确认如“人艰不拆”之类的新词!”
“徐哥,想不到你这个医药出身的也懂得这其中的技术!”陈义哲笑道。
“都在这一行干了五年了,没吃过猪肉,也见过猪跑。”徐勇自嘲道,紧接着他继续道,“Google和百度最大的区别,就是google更加强调技术,它做分词则是把问题看成一个概率问题:如果中文网页中哪些字经常一起出现,那麽它们很有可能就是一个词。看哪些词后面会跟的地得,的地得后面有常跟哪些词,语法结构也就出来了。”
“解题思路就是把所有抓到的中文网页往 MapReduce 裡一丢,参数算出来就好了。评估分词质量的方法也很简单,就拿新模型放到网页检索的模型裡,做个实验看质量有没提升就行。这套方法结果之好,基本把中文分词做成了一个没有多少悬念的简单问题!”
“其实这也是Google不懂中文的问题,因为它不需要中文语言专家的参与!同时这也就是 Google 做实时翻译的思路。”陈义哲接着道,“不过这种方法虽然简单,看似没有什么秘密可言,可是首先,Google得先有这么多的网页数据,还得有大机群,有分布计算框架,还有可复用的模型……这点套在cdss其实也一样,cdss也需要大数据,计算的模型,看似简单,但是其实复杂无比!”
“这是必然的,毕竟医学上的知识太复杂了,做cdss项目往往需要考虑非常多的患者因素,如症状、体征、实验室检查数据、家族史、基因、流行病学资料、现有的医学文献等等。同时新发表的临床研究数以万计,质量参差不齐,这些大量的数据导致了即使cdss开发出来,最终维护上仍会存在巨大困难。”
“目前较为成功的临床决策支持系统往往局限于某个领域,覆盖范围有限。比如,1971年上线使用的Leeds腹痛诊断系统,其诊断的正确率高达90%以上,而医生的诊断正确率在80%以下,但这套系统仅仅也只能用于诊断腹痛。由此可见,cdss项目的研发路遥遥而修远兮!”徐勇不由叹道。
“徐哥,目前大多数的临床决策支持系统,通常会包括三个组成部分:知识库,推理机和人机交流接口。知识库储存着大量的编译信息,通常采用IF-THEN规则进行存储和管理。”
“例如,关于药物的相互作用,规则可以写成“IF服用了药物X,AND服用了药物Y,THEN显示警告信息”。高级用户也可以根据自身需要在另外的编辑界面中自定义知识库里的规则,比如对新药进行实时更新等。推理机则根据知识库里的规则对患者的资料进行自动整合、分析。人机交流接口则是将分析结果反馈给用户或者作为系统输入。”
陈义哲看了徐勇一眼,继续道,“这种采用知识库的临床决策支持系统确实会出现临床数据复杂化,更新维护困难上的问题。不过我已经准备在着基础上,采用人工智能的形式!”
“人工智能?”徐勇惊讶道,虽说人工智能提出了将近40年,各国也投入大量资金研究,可是目前并没有大的突破,而且据他听闻,Google已经在前两年开始进入了这一领域。
陈义哲点了点头,“通过机器学习从已有的经验中自动攫取规则,让cdss系统不仅仅成为数据的输入者,也要让它成为数据的采集者。”
“夏梦这边的AI是基于那种构建方法?”徐勇好奇地问道。
“主要是基于人工神经网络和遗传算法的结合!”陈义哲答道,其实确切地说,若是最终确定把cdss推出市面,那其ai终端必然是大白,唯有如此,才能保证数据及时地被大白吸收,而诊断也不会轻易的有白痴问题的出现!
【精彩东方文学 www.JcDf99.com】 提供武动乾坤等作品手打文字版最新章节首发,txt电子书格式免费下载欢迎注册收藏。