Press "Enter" to skip to content

NLP哪里跑: 什幺是自然语言处理

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

  • 教授:“你笑什么?”
  • Z:“老师,学自然语言处理是我从小的梦想,能在这里我很开心!”
  • 教授:“用不着开心,给自然语言处理下个定义。”
  • Z:“能帮助我们理解自然语言的技术就是自然语言处理。”
  • 教授:“能说详细点吗?”
  • Z:“自然语言处理能帮我们理解人类的语言。你写了一篇文章,编辑器告诉你有些字写错了,这是自然语言处理;来了一封邮件,分个类告诉你这是垃圾邮件,这是自然语言处理;在输入框里输入‘香农’两个字,搜索引擎把香农的百科、学术成果展示在你面前,这是自然语言处理;你发了一条微博,说‘我想连任你的男朋友’,被微博自动删掉了,这是自然语言处理;你写论文从英文文献里抄了一段,用谷歌翻译转成中文放到自己论文里,这是自然语言处理;你对着 iPhone 说「hey siri 定 7 点钟的闹钟」,7 点钟 siri 提醒你该起床了,这是自然语言处理……”
  • 教授(生气):“净说废话!定义是什么!?”
  • Z:“我刚说了呀,老师。”
  • 教授:“考试你也这样?自然语言处理是,连任你的男朋友?白痴!换个人回答!”
  • M:“老师,自然语言处理可以定义为研究在人与人交际中以及在人与计算机交际中的语言问题的一门学科。自然语言处理要研制表示语言能力和语言应用的模型,建立计算框架来实现这样的语言模型,提出相应的方法来不断完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术。”
  • 教授:“太棒了!好极了!”

以上是一则瞎编的小品,套用了《三傻》中 Rancho 被教授问及“什么是机械装置”的场景。电影里通过这个场景里教授和“优等生”的死板与 Rancho 的灵活风趣之间的对比,来抨击僵硬死板的教育体制。不过电影总归是电影,它批评的问题我们要承认是客观存在的,但 Rancho 的行为是作为与一个极端对立的另一个极端来呈现并强化冲突和矛盾的,在我们认识事物、学习知识时,机械式地死板记忆固然不可取,毫无章法纯凭个人感性认识也不是什么值得鼓励的行为。

那么什么是自然语言处理呢?

,即 Natural Language Processing,简称NLP,是一门旨在利用计算机技术来理解并运用自然语言的学科。在不同的场景下,有时候也称之为计算语言学(Computational Linguistics,CL)或者自然语言理解(Natural Language Understanding,NLU)。

要理解 这个领域,只要紧紧抓住这几个要点就好

  1. NLP 主要通过计算机技术来进行

    在底层理论层面,NLP 会涉及数学、语言学、认知科学等多个学科,但在最后一般是通过计算机技术来承载这些理论知识并发挥效果的。

    看起来好像是废话,但仍然要在此进行强调,计算机和人脑不同,它有其优点也有其缺点,而 NLP 技术也会受到现在计算机技术优缺点的影响。因此不要用我们人脑处理自然语言的过程和效果来要求 NLP 技术 —— 对我们中的绝大部分人来说,使用语言是很自然、很简单的,但不要因此就觉得用计算机来处理也会很简单。

  2. NLP 要理解和运用的,是自然语言

    所谓「自然语言」是指在我们的世界中自然地演变出来的语言,比如说英语、汉语、法语……之所以称之为「自然语言」,是为了和程序设计语言(如 C 语言、Java 语言、Python 语言等)等人造的语言进行区分。

    程序设计语言是有非常明确的、固定的语法的,用程序设计语言写出来的每一个句子,都会有唯一确定的含义,因此计算机只需要按照语法规则对其进行解析并执行就好了。

    自然语言则不同,它有相对稳定的语法规则,但这些语法规则都会存在例外而且一直在演变,加上其他一些特性,经常会出现歧义。处理歧义是 NLP 中非常核心的一部分内容。

  3. NLP 试图理解自然语言,但何谓「理解」其实并没有一个确定的标准

    理想意义上的「理解」自然语言,是要求 NLP 可以像人脑一样理解自然语言,然而现在脑科学研究上对于我们在使用语言时大脑是如何运作的,并没有一个系统的、全面的认识。因此这也就不能称之为一个标准,实际上在现有的技术框架下,用计算机做到完全理解自然语言,是不可能的。

    退而求其次的,我们一般认为只要在特定的场景中,机器能对我们用自然语言表达的要求进行正确的响应,就是理解了自然语言。

    注意这里有几个前提

    • 「在特定的场景中」:一般我们认为,在限制了场景后,人们的目的以及语言的表达也会受到限制,因此能把语言表达的多样性降低,这样理解才具备可能性
    • 「进行了正确的响应」:我们认为机器的行为符合预期就是理解了,并不关心这中间的过程是否和人脑的运作机制是否一致、是否真正意义上的理解了语言的内涵

    当然,这只是现在实际的 NLP 系统所遵循的标准,事实上还是有人从语言学、脑科学等不同角度尝试确定「理解」的过程和标准,让我们保持关注、期待未来吧。

  4. NLP 在理解自然语言之后还有加以运用,因此凡是有用计算机来处理、分析自然语言的应用,我们都可以说它是一个 NLP 过程 —— 当然有可能不止是 NLP。

Be First to Comment

发表评论

电子邮件地址不会被公开。 必填项已用*标注