《计算机科学丛书·多语自然语言处理:从原理到实践》是第一本全面阐述如何构建健壮和准确多语种自然语言处理系统的图书,由两位资深专家编辑,集合了该领域众多尖端进展以及从广泛的研究和产业实践中总结的实用解决方案。第一部分介绍现代自然语言处理的核心概念和理论基础,展示了现今理解单词和文件结构、分析语法、建模语言、识别蕴含和检测冗余。第二部分彻底阐述与构建真实应用有关的实际考量,包括信息抽取、机器翻译、信息检索/搜索,总结、问答、提炼、处理流水线等。《计算机科学丛书·多语自然语言处理:从原理到实践》:为了处理口语间语言动态切换的多语言输入,可以根据单语语料对语言模型进行分别建模,使用了这些模型的系统(例如一个基于语音的报摊或基于电话的对话系统)可以基于第一步的语言识别结果来选择语言模型,或者基于在初始处理之后产生最高分数的语言模型(在语音识别中有时会结合发音模型)来进行动态选择。Fugen等表明如何通过上下文无关文法将几个单语语言模型合并成一个多语语言模型,其中文法的非终结符包含语言信息,终结符状态与单语n元模型一致。使用明确的文法规则来对现有状态进行扩展(只用匹配语言中的理元组),以避免不合时机的语言切换。构建单个多语语言模型的可选方法是在包含多个单语语料的数据池中训练一个单独多语言模型或训练多个单语语言模型,然后以插值方式来使用。第一种技术降低了系统性能,特别是语料大小不平衡的时候。第二种技术则有轻微的提高,但仍然比不上前面提到基于文法的方法。……出版者的话译者序前言关于作者第一部分理论第1章找出词的结构1.1词及其部件1.1.1词元1.1.2词形1.1.3词素1.1.4类型学1.2问题和挑战1.2.1不规则性1.2.2歧义性1.2.3能产性1.3形态模型1.3.1查词典1.3.2有限状态形态1.3.3基于合一的形态1.3.4函数式形态1.3.5形态归纳1.4总结第2章找出文档的结构2.1概述2.1.1句子边界检测2.1.2主题边界检测2.2方法2.2.1生成序列分类方法2.2.2判别性局部分类方法2.2.3判别性序列分类方法2.2.4混合方法2.2.5句子分割的全局建模扩展2.3方法的复杂度2.4方法的性能2.5特征2.5.1同时用于文本与语音的特征2.5.2只用于文本的特征2.5.3语音特征2.6处理阶段2.7讨论2.8总结第3章句法3.1自然语言分析3.2树库:句法分析的数据驱动方法3.3句法结构的表示3.3.1使用依存图的句法分析3.3.2使用短语结构树的句法分析3.4分析算法3.4.1移进归约分析3.4.2超图和线图分析3.4.3最小生成树和依存分析3.5分析中的歧义消解模型3.5.1概率上下文无关文法3.5.2句法分析的生成模型3.5.3句法分析的判别模型3.6多语言问题:什么是词元3.6.1词元切分、实例和编码3.6.2分词3.6.3形态学3.7总结第4章语义分析4.1概述4.2语义解释4.2.1结构歧义4.2.2词义4.2.3实体与事件消解4.2.4谓词论元结构4.2.5意义表示4.3系统范式4.4词义4.4.1资源4.4.2系统4.4.3软件4.5谓词论元结构4.5.1资源4.5.2系统4.5.3软件4.
show more...Just click on START button on Telegram Bot