第三十五章徐勇的辞职_重生2002之纳米人生(笔下熠辉)

。只是在国内市场，百度占了时地利，这其实是‘百度更懂中文’地一个集中体现。就简单地分词，百度当年做分词，先从一个人工编辑号地字典开始，用这个字典跑一些网页，观察里面地bad ase。”

“可能是分词过细，或者是中文人名没分出来，然后就尝试根据中文语法规律加入规则或添加词表解决这些 bad ase，如此往复，直到有满意的结果。上线应用，发现有新的 bad ase 就再研究加规则，当然也有自动流程发现和确认如“人艰不拆”之类的新词！”

“徐哥，想不到你这个医药出身的也懂得这其中的技术！”陈义哲笑道。

“都在这一行干了五年了，没吃过猪肉，也见过猪跑。”徐勇自嘲道，紧接着他继续道，“ggle和百度最大的区别，就是ggle更加强调技术，它做分词则是把问题看成一个概率问题：如果中文网页中哪些字经常一起出现，那麽它们很有可能就是一个词。看哪些词后面会跟的地得，的地得后面有常跟哪些词，语法结构也就出来了。”

“解题思路就是把所有抓到的中文网页往 apredue 裡一丢，参数算出来就好了。评估分词质量的方法也很简单，就拿新模型放到网页检索的模型裡，做个实验看质量有没提升就行。这套方法结果之好，基本把中文分词做成了一个没有多少悬念的简单问题！”

“其实这也是ggle不懂中文的问题，因为它不需要中文语言专家的参与！同时这也就是 ggle 做实时翻译的思路。”陈义哲接着道，“不过这种方法虽然简单，看似没有什么秘密可言，可是首先，ggle得先有这么多的网页数据，还得有大机群，有分布计算框架，还有可复用的模型……这点套在dss其实也一样，dss也需要大数据，计算的模型，看似简单，但是其实复杂无比！”

“这是必然的，毕竟医学上的知识太复杂了，做dss项目往往需要考虑非常多的患者因素，如症状、体征、实验室检查数据、家族史、基因、流行病学资料、现有的医学文献等等。同时新发表的临床研究数以万计，质量参差不齐，这些大量的数据导致了即使dss开发出来，最终维护上仍会存在巨大困难。”

“目前较为成功的临床决策支持系统往往局限于某个领域，覆盖范围有限。比如，1971年上线使用的leeds腹痛诊断系统，其诊断的正确率高达90以上，而医生的诊断正确率在80以下，但这套系统仅仅也只能用于诊断腹痛。由此可见，dss项目的研发路遥遥而修远兮！”徐勇不由叹道。

“徐哥，目前大多数的临床决策支持系统，通常会包括三个组成部分：知识库，推理机和人机交流接口。知识库储存着大量的编译信息，通常采用if-hen规则进行存储和管理。”

“例如，关于药物的相互作用，规则可以写成“if服用了药物，and服用了药物y，hen显示警告信息”。高级用户也可以根据自身需要在另外的编辑界面中自定义知识库里的规则，比如对新药进行实时更新等。推理机则根据知识库里的规则对患者的资料进行自动整合、分析。人机交流接口则是将分析结果反馈给用户或者作为系统输入。”

陈义哲看了徐勇一眼，继续道，“这种采用知识库的临床决策支持系统确实会出现临床数据复杂化，更新维护困难上的问题。不过我已经准备在着基础上，采用人工智能的形式！”

“人工智能？”徐勇惊讶道，虽人工智能提出了将近40年，各国也投入大量资金研究，可是目前并没有大的突破，而且据他听闻，ggle已经在前两年开始进入了这一领域。

陈义哲点了点头，“通过机器学习从已有的经验中自动攫取规则，让dss系统不仅仅成为数据的输入者，也要让它成为数据的采集者。”

淡季小说

第三十五章徐勇的辞职（2 / 3）

第三十五章 徐勇的辞职（2 / 3）

第三十五章徐勇的辞职（2 / 3）