炼数成金 门户 商业智能 Watson 查看内容

关于Waston支持技术你需要了解的10件事

2016-4-21 13:54| 发布者: 炼数成金_小数| 查看: 18905| 评论: 0|原作者: Craigrhinehart

摘要: 计算机系统对决智力问答竞赛节目的精彩之处在于什么?美国人最喜欢的智力问答竞赛节目——《危险边缘》(Jeopardy)之所以备受欢迎,是因为它对参赛者提出了独特的挑战:话题范围,问题中的双关语、比喻和俚语,思考 ...

管理 工具 计算机 商业智能 自然语言处理 自然语言

计算机系统对决智力问答竞赛节目的精彩之处在于什么?美国人最喜欢的智力问答竞赛节目——《危险边缘》(Jeopardy)之所以备受欢迎,是因为它对参赛者提出了独特的挑战:话题范围,问题中的双关语、比喻和俚语,思考和回答的速度。

这些因素使《危险边缘》成为IBM计算系统——Waston(Watson)的完美测试平台,Waston能够理解复杂的人类语言,并且针对问题给出精准的答案。

IBM的Waston将于下个月参加《危险边缘》(网络电视直播),对决创造纪录的两位冠军。本周,IBM发布了练习赛上与埃里克斯·崔柏克(Alex Trebek)互动的短片抢先看。看过剪辑后,我越来越兴奋,我相信这项技术取得了突破性进展。以下是你需要了解的:

1. 什么是Waston?
Waston是IBM问答(QA)计算系统的名称,由IBM研究中心的科学家团队和高校合作人员联手完成的一项巨大挑战,它是可以与人类问答能力相媲美的计算系统,能够快速、精准和自信地回答自然语言形式的问题。该系统利用自然语言处理(简称“NLP”)处理大量的文本。
IBM POWER7平台为Waston提供技术支持,借此快速处理进行复杂语言分析及输出自然语言线索的正确回应所需的大量分析。系统集成优化了IBM当前和新开发的技术,从而满足处理大量同步任务和内容的特殊需求,同时能够实时地分析内容。 

2. 什么是自然语言处理?
自然语言处理(NLP)是计算机科学领域与语言学领域中的一个重要方向,涉及计算机和人类(自然)语言之间的相互作用。它描述了一组语言、统计和机器学习技术,能够分析文本并提取关键信息服务于其他用途,如问答系统或内容分析。

3. 什么是问答系统和深度问答系统?
问答系统(QA)是自动回答自然语言形式问题的任务。首先,它通过尝试理解问题来确定问题是什么。然后通过分析大量自然语言形式文件中的内容找到合理的答案。最后,根据证据和相关的可能性评估找到的答案是否正确。从本地小型的文档集合、内部组织的文件到万维网和编译的通社报道,收集的信息各不相同。问答系统被看作是超越现有搜索引擎的下一步计划。
深度问答系统远远超出了简单的问题重组或关键字分析。查询包括消除歧义、不熟悉的语法、在时间或空间上限制问题或者仅仅是难问题的框架,需要更为深入地分析内容和文本。

4. Waston采用问答系统的独特之处在于什么?
《危险边缘》上的人机对抗提出了一系列其他的挑战,其中包括问题类型和风格多种多样,话题范围宽泛且变化多,需要高度自信且快速地提出全新的解决方案。

5. 问答系统相较于文档搜索表现如何?
问答系统技术和文档搜索之间的关键区别在于,文档搜索进行关键字查询,然后按照与查询的相关性进行排序,输出文档列表(往往是根据受欢迎程度和网页排名);而问答系统技术采用自然语言表述的问题,并试图了解它的更多细节,然后针对问题输出正确的答案。
我在之前发布的文章《再见搜索……它是关于寻找答案……进入Waston vs.危险边缘》中提到了对搜索的失望。

6. Waston相较于象棋对弈系统“深蓝”表现如何?
 “深蓝”表明,计算机可以解决曾经被认为是人工智能专属领域的问题,只是它的方式与人类的方式不为不同。“深蓝”实现了将计算能力应用到极具挑战性但计算上明确且良性有界的游戏上,这是令人惊叹的成就。“深蓝”通过搜索和评估棋盘布局的巨大空间,运用计算能力击败了象棋大师。

Waston所面临的挑战是完全开放式的且不同于适用象棋的良性有界数学公式的排序。Waston需要在接近无限、模糊且高度相关的人类语言和知识领域进行运算。最终,Waston的科学目标是证明计算机如何能够获取自然语言问题背后的含义,并从海量的内容中推断准确的答案,并最终给出给出依据,这一点对人类而言很有意义。

Waston项目并非在搜索广阔的数学空间上挑战人类,而是挑战以人类语言操纵计算机。Waston力图理解并回答人类的问题,并且了解它何时知道、何时不知道答案。对人类而言,能够评估自己所掌握的知识和能力比较容易,但是对计算机而言却极其困难。

7. 这项问答系统技术将如何运用于商业领域?
深度问答系统技术通过强大的工具为人类提供信息收集和决策支持。许多可能发生的情形之一是终端用户会以自然语言形式输入他们的问题,就好像他们正在询问另外一个人一样,然后系统筛选海量的潜在证据,输出最令人信服、较精确的答案排序列表以及支持或反驳证据的链接。其他重要的情形将运用深度问答系统分析代表问题的许多内容和数据,例如,技术支持问题或医疗案例。深度问答系统将开始从许多不同的数据源搜索收集解决方案并评估证据,促使个人用户帮助提供能够有助于得到解决方案的遗失的信息片段或者医药方面的鉴别诊断。

此外,这些答案将包括他们解释或支持的证据概要,能够让用户快速评估证据并选择正确的答案。

商业应用包括客户关系管理、法规遵从、联络中心、服务台、网络自助服务和商业智能等等。这些应用需要深入理解用户的问题并分析海量的自然语言、结构化和半结构化的内容,从而快速输出和证明准确、简洁和高可信度的答案。

8. 非结构信息管理架构(UIMA)在深度问答系统和Waston项目中发挥了什么作用?
非结构化信息管理架构(UIMA)是IBM为分析非结构化内容而开发的开源框架,如自然语言文本、语音、图像和视频,Waston借此在大量内容的基础上整合并开发广泛的深层分析算法

目前,许多IBM ECM产品正是基于UIMA而开发。IBM内容分析产品(IBM Content Analytics)、IBM信息搜索企业版(IBM OmniFind Enterprise Edition)、IBM电子搜索分析(IBM eDiscovery Analyzer)和IBM分类模块(IBM Classification Module)或者由自然语言处理和UIMA提供技术支持,或者从中受益。

9. 企业内容管理(ECM)技术实际上是Waston的组成部分吗?
是的,IBM内容分析是Waston的组成部分。提出问题后,需要通过自然语言处理对文本进行处理。IBM内容分析(LanguageWare)和其他技术(秘密武器)用来处理文本并理解问题,这是充满自信地全面回答问题所需的复杂处理过程的一部分。我将在下一篇博客中更为详细地解决这个问题。

IBM内容分析(简称“ICA”)是用来从内容和数据中快速获取洞察的内容分析平台。它能够将原始资料迅速转化为商业洞察,而无需构建模型或配置复杂的系统,这个过程仅需数小时或数天,而非几个星期或几个月。对于任何需要搜索和发现内容的知识型员工而言,它易于使用,操作方便。ICA能够通过集成康格诺(Cognos,)、SPSS、信息圈(InfoSphere)、Netezza及其他商业智能、分析和数据仓库系统延伸到更深层的洞察。

ICA产品本身包括用于定制NLP处理和打造客户特定模式及解决方案的工具(LanguageWare)。这种功能是自然语言处理的核心,同时也与Waston所用的ICA功能非常类似。

10. 谁将在2月14-16日获胜?
我预测Waston获胜。
昨天我看了练习赛的视频,Waston在与肯·詹宁斯和布拉德·鲁特(两位参赛选手且是创造记录的冠军)对决中的表现让人印象深刻。

那么,谁在《危险边缘》的练习赛中获胜?
Waston轻而易举地取胜。
http://www.youtube.com/watch?v=12rNbGf2Wwo
Waston的成绩为4,400美元,击败了詹宁斯的1,000美元,接近鲁特成绩的四倍。
IBM将会把Waston赢取的全部奖金捐献给慈善组织,同时鲁特和詹宁斯也表示将各自捐出50%的奖金。

我将会邀请同事、朋友和家人共同观看此盛事,这一定很有趣,让人激动不已……我已经迫不及待了。作为IBM的员工,我坚定不移地支持Waston获胜,但不是出于这个显而易见的理由。我之所以信念坚定,是因为我非常热爱令人惊叹的技术突破和内容分析的力量。

欢迎加入本站公开兴趣群
商业智能与数据分析群
兴趣范围包括各种让数据产生价值的办法,实际应用案例分享与讨论,分析工具,ETL工具,数据仓库,数据挖掘工具,报表系统等全方位知识
QQ群:81035754

鲜花

握手

雷人

路过

鸡蛋

最新评论

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

热门文章

     

    GMT+8, 2018-12-16 20:27 , Processed in 0.182228 second(s), 23 queries .