自然语言处理_链接资源，信息创造价值

人工智能“翻译”首次亮相

4月9日上午举办的“未来的生产”分论坛会场两边大屏幕上滚动着嘉宾演讲内容的中英双语字幕，提供这个即时同传翻译服务的并不是真人，而是人工智能同声传译解决方案。从现场与人工同声传译比较来看，人工智能“翻译”与真人水平相仿，翻译的内容甚至更为丰富。这是博鳌亚洲论坛首次尝试使用人工智能机器同传技术“腾讯同传”，它将为论坛开幕式及部分分论坛提供现场同传服务。^[1]

自然语言处理的发展现状及趋势

微软创始人比尔·盖茨曾经表示，“语言理解是人工智能领域皇冠上的明珠”。我们究竟何时才能摘下这个“人工智能领域皇冠上的明珠”？围绕这个问题，两位自然语言处理领域的领军人物：宾夕法尼亚大学教授Dan Roth和微软亚洲研究院副院长周明给出了他们的洞察与见解。

近年来，随着自然语言处理技术的发展，出现了一批基于该技术的应用系统，例如IBM的Watson在电视问答节目中战胜人类冠军；苹果公司的Siri个人助理被大众广为测试；谷歌、微软、百度等公司纷纷发布个人智能助理；科大讯飞牵头研发高考机器人……但相比于性能趋于饱和的计算机视觉和语音识别技术，正如周明所说：自然语言处理因技术难度太大、应用场景太复杂，研究成果还未达到足够的高度。

周明认为，目前自然语言处理依然存在的主要难点有：^[2]

1、词语实体边界界定

自然语言是多轮的，一个句子不能孤立的地看，要么有上下文，要么有前后轮对话，而正确划分、界定不同词语实体是正确理解语言的基础。

目前的深度学习技术，在建模多轮和上下文的时候，难度远远超过了如语音识别、图像识别的输入输出的问题。所以语音识别或图像识别做的好的企业，不一定能做好自然语言处理。

2、词义消歧

词义消歧包括多义词消歧和指代消歧。多义词是自然语言中非常普遍的现象；指代消歧是指正确理解代词所代表的⼈或事物。例如，在复杂交谈环境中，“他”、“it”到底指代谁。词义消歧还需要对文本上下文、交谈环境和背景信息等有正确的理解，目前还无法对此进行清晰的建模。

3、个性化识别

自然语言处理要面对个性化问题，自然语言常常会出现模凌两可的句子，而且同样一句话，不同的人使用时可能会有不同的说法和不同的表达。这种个性化、多样化的问题非常难以解决。

Dan Roth表示：在各种专业应用中，必须要选择正确的自然语言模型，没有任何单一模型可以解决自然语言领域中所遇到的所有问题，自然语言处理没有一个可以解决所有问题的魔术盒子存在，你必须要把所有相关的知识库放进盒子里，选择对的算法，并且针对性的处理特定问题，那么这个盒子最后才有作用。这种现状加大了技术落地的难度。

对于如何解决自然语言处理的主要问题，周明表示有三个值得尝试的方向：

第一，上下文的建模需要建立大规模的数据集。比如多轮对话和上下文理解；数据标注的时候要注意前后文。没有这样的数据，很难取得突破。

第二，强化学习很重要。我们需要根据用户的反馈倒推模型并做参数修正，使模型更加优化。

第三，要引入常识和专业知识，并把这些知识构建好，这样就能更加精准地回答问题。

自然语言处理

自然语言处理（natural language processing，NLP）是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。NLP是人工智能的一个子领域，指机器理解并解释人类写作与说话方式的能力。^[3]

参考文献

[1] 人工智能“翻译”首次亮相 http://news.cnwest.com/content/2018-04/10/content_15762732.htm

[2] NLP（自然语言处理）领域的现状与展望｜中美AI大师巅峰对话 http://www.igeek.com.cn/article-992282-0.html

[3] 自然语言处理 https://baike.baidu.com/item/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86