在未来,机器学习与自然语言处理还会碰撞出哪些火花?

机器学习(machine learning)是一门多领域交叉学科,设计概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

 

从历史来看,机器学习是人工智能研究较为年轻的分支,似乎也是人工智能中发展最快的分支之一。一般认为,它的发展过程大体上可分为4个时期:

 

第一阶段  20世纪50年代中叶到60年代中叶,属于热烈时期。

 

第二阶段  20世纪60年代中叶至70年代中叶,被称为机器学习的冷静时期。

 

第三阶段 20世纪70年代中叶至80年代中叶,称为复兴时期。

 

第四阶段机器学习开始于1986年,目前我们仍处在这个时期。

 

 

本文基于AMiner全新功能技术趋势分析Trend analysis和笛卡尔乘积热点挖掘,将为大家解读机器学习领域进行的趋势分析以及机器学习与自然语言处理域的交叉趋势分析。

 

机器学习趋势分析

 

下面我们将用Trend analysis分析机器学习领域内的研究热点。下图是当前该领域的热点技术趋势分析,通过Trend analysis分析挖掘可以发现当前该领域的热点研究话题Top10如下:

 

machine learning

 

brain computer interface

 

artificial intelligence

 

support vector machine

 

gaussian process

 

missing data

 

image classification

 

social network

 

data mining

 

computer science

 

 

根据Trend analysis的分析我们可以发现,该领域当前最热门的话题是machine learning,从全局热度来看,machine learning的话题热度虽然有所起伏但从20世纪90年代至今其话题热度始终保持在Top 1,论文的发表数量也较多;brain computer interface的研究热度从2003年开始迅速上升,近几年话题热度更是超越support vector machine成为top 2 话题;另外,近期multi task learning 的话题热度开始逐渐上升。

 

通用机器学习技术奠基人之一的Thomas G. Dietterich在2000年发表的“Ensemble Methods in Machine Learning”回顾了集合方法并解释了为什幺聚类通常比任何一个分类器都表现更好。

 

 

Thomas G. Dietterich的研究贡献主要包括将纠错输出编码应用于多类分类问题,他发明了多示例学习、层次强化学习MAXQ框架及将非参数回归树整合到概率图模型中的方法。此外,Dietterich教授也参与撰写了美国白宫发布的两份重磅AI报告《为人工智能的未来做准备》和《美国国家人工智能研究与发展策略规划》。

 

机器学习&自然语言处理交叉趋势分析

 

我们选取自然语言处理域近期热度与全局热度最高,相关性最强的9个相关领域作为研究对象,具体包括:

 

 

Natural Language Processing

 

Machine Translation

 

Text Corpus

 

Language Modeling

 

Treebank

 

Nist

 

SemanticLabeling

 

Word Segmentation

 

Shallow Parsing

 

 

通过对两个领域的知识图谱的计算,再对两领域的细分子领域进行笛卡尔乘积热点挖掘, 本文挖掘了历史数据分析和未来趋势预测两部分 。

 

本文主要探讨2007年至今的研究状况;趋势预测仅以未来3年为周期来探讨。

 

“ 领域交叉热力值由交叉研究的论文的citation等数据加权计算得出,热力值越高,表明这个两个交叉子领域交叉研究的越深入和广泛。”

 

每个交叉热点中的研究学者,发表论文,中外学者和论文对比等数据均可以获得。用作展示时,研究学者和论文分别按照交叉领域研究影响度和论文相关度作为默认排序。

 

学者研究影响度由交叉领域内论文量,h-index等计算得出;

 

论文相关度由交叉领域内论文的关联程度和引用数量等计算得出。

 

对比分析中“中外研究人员对比”和“中外研究论文对比”是专家数量和论文数量的直接对比;

 

而“中外论文影响对比”是论文citation值的对比。

 

历史热点图

 

 

2007年至今机器学习领域与自然语言处理领域交叉分析热点图

 

2007年至今,全球共有10019位专家投入了机器学习和自然语言处理领域的交叉研究中,其中华人专家1754人,约占17.51%,共产生交叉研究论4310篇。学者H-index分布和Citation分布如下:

 

 

h-index 专家人数 分布占比
小于10 7141 71.27%
10~20 1356 13.53%
20~40 1028 10.26%
大于40 315 3.14%
总计 10019 100%

 

2007年至今机器学习领域与自然语言处理领域交叉研究学者h-index分布

 

 

citation 专家人数 分布占比
小于10 1836 42.60%
1~10 1328 30.81%
10~100 999 23.18%
100~200 81 1.88%
大于200 66 1.53%
总计 4310 100%

 

2007年至今机器学习领域与自然语言处理领域交叉研究论文citation分布

 

历史交叉领域TOP5

 

 

machine learning & natural language processing

 

Supervised Learning & natural language processing

 

Regularization& natural language processing

 

machinelearning & Machine Translation

 

Unsupervised Learning & natural language processing

 

 

我们选取历史交叉领域TOP5中的第一个:machine learning与natural language processing→机器学习领域与自然语言处理领域,进行详细的交叉研究分析。

 

机器学习领域与自然语言处理领域相关性最高的5位作者如下所示:

 

Michael I. Jordan

 

 

Geoffrey Hinton

 

 

Eric P. Xing

 

 

Hongjie Dai

 

 

Xin Li

 

 

机器学习领域与自然语言处理领域相关性最高的5篇论文如下所示:

 

题目:The Case for VM-Based Cloudlets in Mobile  Computing

 

会议/期刊:IEEE Pervasive Computing

 

年份:2009

 

引用量:2583

 

作者:Mahadev Satyanarayanan,Paramvir Bahl,Ramon Caceres,Nigel Davies

 

题目:Cheap and fast—but is it good evaluating  non-expert annotations for natural language tasks

 

会议/期刊:EMNLP

 

年份:2008

 

引用量:1770

 

作者:Rion Snow,Brendan O’Connor,Daniel Jurafsky,Andrew Y. Ng

 

题目:Deep Learning: Methods and Applications

 

会议/期刊:Foundations and Trends in Signal Processing

 

年份:2014

 

引用量:1368

 

作者:Li Deng,Dong Yu

 

题目:The Unreasonable Effectiveness of Data

 

会议/期刊:IEEE Intelligent Systems

 

年份:2009

 

引用量:873

 

作者:Alon Y. Halevy,Peter Norvig,Fernando Pereira

 

题目:A survey of modern authorship attribution methods

 

会议/期刊:JASIST

 

年份:2009

 

引用量:1149

 

作者:Efstathios Stamatatos

 

机器学习&自然语言处理历史研究数据对比

 

 

机器学习领域与自然语言处理领域历史论文数据

 

 

机器学习领域与自然语言处理领域历史专家数据

 

机器学习&自然语言处理 中美对比

 

 

机器学习领域与自然语言处理领域中美研究人员对比

 

 

机器学习领域与自然语言处理领域中美论文对比

 

机器学习领域与自然语言处理领域研究中,领先的国家分别是:

 

 

美国:us:

 

中国:cn:

 

日本:jp:

 

印度:in:

 

加拿大:ca:

 

英国:gb:

 

德国:de:

 

意大利:it:

 

法国:fr:

 

 

机器学习领域与自然语言处理领域研究中,全球主要研究机构是:

 

 

哥伦比亚大学

 

微软研究院

 

锡拉丘兹大学

 

美国国家医学图书馆

 

中国科学院

 

北京理工大学

 

东京大学

 

科罗拉多大学

 

东京大学

 

卡内基梅隆大学

 

 

未来趋势预测

 

预测未来三年内运用交叉较高领域:

 

1.machine learning & natural language processing

 

2.Recurrent Neural Network & Language Modeling

 

3.Deep Learning & natural language processing

 

4.machine learning & Language Modeling

 

5.Topic Modeling & Machine Translation

 

AMiner预测机器学习领域与自然语言处理领域未来三年热点图如下图所示:

 

 

机器学习领域与自然语言处理领域交叉热点预测

 

机器学习是人工智能的核心,应用遍及人工智能的各个领域,目前机器学习已经在数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、DNA序列测序、战略游戏和机器人等多个方面都得到了运用,在未来,它的应用将会得到更多的拓展。

发表评论

电子邮件地址不会被公开。 必填项已用*标注