大数据技术中自然语言识别与检索 – 北京东方金信科技股份有限公司

自然语言处理（NLP）是一项应用非常广泛的人工智能计算机应用，可以理解人类的自然语言，随着谷歌I/O大会等最新动态，这项技术也吸引了众多目光。NLP技术让计算机可以基于一组技术和理论，分析、理解人类的沟通内容。　

语义分析是自然语言理解的根本问题，它在自然语言处理、信息检索、信息过滤、信息分类、语义挖掘等领域有着广泛的应用。在互联网时代面对海量的信息资源，要想准确地进行信息抽取、检索所需信息、挖掘潜在的信息价值、提供智能的知识服务，都离不开面向机器理解的语义分析。尤其在大数据环境下语义分析的地位越来越凸显出来。

自然语言的构成分为多个层次—词语、句子和文本，本文章对自然语言的研究方法、理论基础、技术和现有主要研究成果等，进行对比分析。

1. 词语语义分析

词语语义分析研究是指确定词语意义衡量词之间的语义相似度相关度。词语的相似性和相关性既有联系又有区别。相似性指词语间的可替代性而相关性指词语的相关程度。例如“爱情”和“浪漫”是两个语义相关的词语但它们的语义不可替代。“橙子”和“橘子”是语义相似的词语它们指同类水果同词语语义分析研究是指确定词语意义衡量词之间的语义相似度相关度。词语的相似性和相关性既有联系又有区别。相似性指词语间的可替代性而相关性指词语的相关程度。例如“爱情”和“浪漫”是两个语义相关的词语但它们的语义不可替代。“橙子”和“橘子”是语义相似的词语它们指同类水果同时也有语义关联。

（1）基于知识规则的词语语义相似相关分析

基于知识规则的词语语义分析是一种基于语言学的词汇语义分析的理性主义方法，它利用词语语义知识库中定义好的概念及其之间的上下位关系等逻辑关系通过计算两个概念在概念体系中的距离来衡量词语间的语义相似或相关度。

词汇语义知识库是基于规则的词语相似相关度分析的基石。知识规则库的建立离不开有效的知识表示方法知识表示方法是知识规则库的灵魂。常见的用于词语语义分析的知识表示方法有语义场、语义网络、概念图和本体论。

在现有的基于规则的词语相似相关分析研究中语义词典是最常用的一种知识规则库。语义词典一般都是将所有的词组织成树状的层次结构而词语在树结构图中的路径长度通常作为词语语义距离的度量方法。例如文献通过计算两个词语在本体树状结构中的最短路径长度来计算它们之间的相关度。在此基础上通过引入权重信息文献考虑词语在中的层次信息和边所表征的关联度对文献进行了改进。另外概念层次树的深度、区域密度等因素也会对词语相似和相关度产生影响。

（2）基于统计的词语语义分析

基于统计的词语语义相似相关度分析方法是一种经验主义方法它以代数理论、概率论和统计论等数学理论为基础建立在可观察的语言事实上。该方法认为两个词语语义相似或相关当且仅当它们处于相似或相关的上下文环境中。通过对大规模语料库的统计该方法将词语的上下文信息作为语义相似或相关分析的主要参照依据。

2. 句子语义分析

当前的句子语义分析研究包含两方面内容：句义分析和句义相似度分析。词语语义分析和词语语义相似度分析是当前很多句义分析和句义相似度分析的基础。目前句义分析存在两种研究思路：①以语法分析为中心的语义分析。该研究思路认为句法分析是句子语义理解的基石。②以语义为中心的句义分析。该思路摒弃了语法语义的研究模式重视语义和知识表示期望计算机能理解句子的意义。其中以句法为中心的句义分析，是句义分析的中心。句法分析是指根据给定的语法自动推导出句子的语法结构。句法分析结果一般是层次分明、主从分明、联系类型明确的句法树。

（1）句法分析。按照研究方法的不同句法分析大体上也可分为基于规则的句法分析和基于统计的句法分析两大类。

规则句法分析可划分为种类型自顶向下的分析方法、自底向上的分析方法两者结合的分析方法。自顶向下分析方法实现的是规则推导的过程，规则分析树从根结点开始不断生长最后形成分析句子的叶结点。代表方法有CYK算法、移进规约算法等。自底向上分析方法的实现过程恰好与自顶向下方法相反，代表方法有线图分析算法。左角分析算法是一种较好的自顶向下方法和自底向上的方法，规则句法分析方法利用手工编写的语法规则，分析出句子所有可能的句法结构对于特定的领域和目的能够较好地处理输入句子中的部分歧义和一些超语法现象。

（2）句法-语义分析：是指在对句子进行句法分析的基础上可进行句义分析与理解。由于通用领域的深层语义分析仍然很难实现，因此当前的句法语义分析主要停留在浅层语义分析上。浅层语义分析只标注句子中与谓词相关的语义角色它的主要形式是语义角色标注。语义角色标注出的语义角色信息构成了自然语言中最为基本的浅层语义信息这些浅层语义信息为信息的深入理解和分析奠定了基础。浅层语义分析的流程通常包含几个步骤：

a) 预处理：采用分词、词性标记、名实体识别、句法分析等自然语言处理技术对输入文本进行处理得到句子的句法分析树。

b) 句法树剪枝：过滤掉句法分析树中的非语义角色的句法成分提高语义分析准确率。

c) 语义角色识别：逐个判断候选句法成分是否为目标谓词的语义角色。

d) 语义角色分类：标记识别出的语义角色及其对应的语义角色类型。

e) 后处理：修正语义角色标注结果更正一些明显的错误。

3. 文本语义分析

文本语义分析就是识别文本的意义、主题、类别等语义信息的过程，从大规模海量的文本集合中获取相关的语义信息是大数据时代自然语言处理迫切需要研究的问题，也是当前人工智能领域和自然语言处理领域的瓶颈问题。目前文本语义分析研究大体上分为基于统计的文本语义分析和基于语义学的文本语义分析。前面介绍的词语和句子级别的语义分析是文本语义分析研究的关键基础。

（1）基于统计的文本语义分析

目前典型的大规模文本语义分析研究大多是基于统计的经验主义方法。该方法以线性代数、矩阵论、统计和概率理论等数学理论为基础将文本看作一个个独立的词语所形成的无序词袋即认为文档就是一个词的集合利用词语的统计信息将大量文本表示为词语向量集合或者词语与文本的某种概率关系并据此分析文本集合中隐含的主题、词间潜在的语义结构等语义信息。

（2）基于语义学理论的文本语义分析

目前能用于文本语义分析的语义学理论有格语法、概念层次理论另外还有框架语义学和本体语义学。

框架语义学提供了描写词语意义和语法结构意义的一种途径，其中框架是指跟一些动因激活性语境相一致的结构化的范畴系统。例如“网购”一词激活一个行为模式–网购程序，它包括商品搜寻、下订单、付款、物流配送等顺序化的事件。语义框架涉及各种参与者、外部条件和其他概念角色称为框架元素它们与框架支撑词有某种句法语义关系。框架语义学的考察单位从句扩展到了篇章，适合对篇章级的文本进行语义分析。

本体语义学把本体作为主要资源，用于文本意义的提取，形成文本意义的形式化表征，并根据文本意义的形式化表征从文本中推导知识和生成自然语言文本。本体语义学的基本理论假设为：在人类的语义加工过程中存在着本体意义层次，该层次不同于外部世界和语言本身，而是同概念直接联系。本体语义学本质上主要探讨两个互逆的过程：文本要素意义组合为连贯文本意义，文本主题意义分解为文本要素意义。运用本体语义学进行文本意义自动分析时首先构建静态知识资源库：本体、事实库、词库和专名库然后运用本体语义学的文本分析模块进行文本语义表征。

在大数据时代对海量文本信息进行有效的语义分析已经是自然语言处理、信息检索、信息分类、信息过滤、语义挖掘、文本的机器学习等诸多应用领域基础且关键的研究问题，它影响着上层信息服务与信息共享的质量和水平。

东方金信在自然语言处理方面也开发出属于自己的产品并投入了生产环境，其中包括海盒大数据R语言开发系统SRS，可为R语言环境提供分析挖掘的开发系统界面；海盒Python语言开发系统SPY，集成了诸多实际开发中用到的算法包，并为用户提供Python开发界面；海盒大数据分布式数据挖掘系统SHO，集成了多种分布式的挖掘算法，可供用户通过可视化界面进行调用。

虽然目前自然语言检索已经有了很好的发展，但仍是一个涉及较为广泛的研究领域，达到人脑那样对语义进行自动理解仍然进行进一步深入和广泛的研究，是一个从实际认识向抽象理解不断发展的过程，同时也是基于知识理解的应用研究，属于多学科交叉的研究领域。在这个领域的研究和发展过程中，我们将面临更多的挑战，同时也会出现更多新的契机和机会。

留下评论