首页 大数据

1 概述

什么是自然语言处理?

图灵测试

图灵测试是 Alan Turing 在1950年提出的一种判断机器是否能像人类一样思考的测试。标准的图灵测试如下图所示,测试者C同时与一台机器A和一个人B进行对话,三者相互隔离并且只能通过文本的方式交流,比如键盘或者屏幕,在经过若干轮问答后,倘若测试者C不能准确地区分出A、B哪个是人哪个是机器,则机器通过测试,反之失败。

Turing Test

NLP的定义
Natural language processing (NLP) is a study of the computational treatment of human natural language.

自然语言处理是语言学、计算机科学、信息工程和人工智能的一个分支,研究计算机和人类语言的交互,特别是如何通过计算机编程来处理和分析大量的语言数据。

communication-circle

这是一轮机器与人对话的示意图,语言可以拆分为三个层次:声音信号、符号表示、语义,机器以语义作为输入输出,而人则以声音信号作为输入输出。

从机器到人:$Intention \rightarrow Generation \rightarrow Synthesis$
从人到机器:$Perception \rightarrow Interpretation \rightarrow Incorporation$

为什么需要自然语言处理?

本质上来说,自然语言是非常丰富的

M. Hamel spoke of the French tongue, saying it was the most beautiful language in the world, the most clear, the most sensible.  We must keep it ourselves and never forget it, because when a people if they hold onto their language it is like holding the prison key...
--- The Last Lesson by Alphonse Daudet

In the beginning was the Word, and the Word was with God, and the Word was God.
--- John 1:1 in the Bible

从功能上来说,语言是高效而普遍的

如何完成NLP任务?

compiler

NLP-how

NLP的难点在哪里?

  • 语言是模棱两可的(ambiguous)

    • Children make delicious snacks
    • Fried Chicken makes delicious snacks
    • Stolen wallet is found by tree
    • Stolen wallet is found by Mac
    • Trump wins on budget, more lies ahead
    • 中国足球大败德国
    • 中国乒乓球大败德国
    • 我们知道中国的乒乓球很强,所以“大败”指的是中国战胜了德国,而由于足球实在弱不禁风,肯定是输给德国了。这里有个basic concept在里面,就是人们对一个国家在不同运动领域擅长程度的判断,人类很容易做到,而机器想做到却很难。
    • He is an unbelievable worker. (Extremely good vs. Not trustful)
    • Vancouver Police shoot man Holding box cutter. (温哥华警察射杀持刀男子 or 温哥华警察持刀射杀男子)
  • 语境解释,比如说根据上下文确定代词的指代,这对于人类来说很简单,但对机器来说很难

    • The book does not fit the bag, because it is too big
    • The book does not fit the bag, because it is too small
    • Every American has a mother
    • Every American has a president
  • 有时候语法正确不代表语义正确

    • Beautiful a has Monica Flower. (syntax and semantics right)
    • Colorless green ideas sleep furiously. (syntax right but semantics wrong)
    • 第一个句子非常正常,而第二个句子虽然语法上没有错误,但是意思上完全说不通,一个idea怎么能sleep呢?

2 其他

机器翻译的评价指标

《机器翻译评价指标 — BLEU算法》:https://www.cnblogs.com/jiangxinyang/p/10523585.html
《机器翻译评价指标》:https://www.cnblogs.com/xinbaby829/p/6955687.html




文章评论

captcha