Press "Enter" to skip to content

从《一个NLP算法人的困境与破局》说起

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

 

 

 

作者: Change

 

原文链接,点击文末阅读原文直达:

 

https://zhuanlan.zhihu.com/p/560226584

 

早上上班途中阅读了一篇文章 《 一个NLP算法人的困境与破局 》 ,作为一个工作多年的算法工程师,对内容产生了极大的共鸣。有兴趣的小伙伴可以点击去阅读。

 

其中提到的几个对于NLP算法的观点,比较有意思的摘录如下:

 

缺乏独立且足够大的业务场景

 

仅剩的独立场景智能客服,有市无价或者有价无市

 

没有闭环,或者闭环后的反馈链路过长

 

现实是环节能力只要有就可以,持续优化的动力不足。

 

知识图谱本身就是一个重投入,见效慢的事情

 

确定性逻辑和概率逻辑视角

 

这种基于概率的做事方式会在具体研发阶段和价值输出阶段,都和传统的研发团队存在很大的不同,但是价值评判总是要拉平的,这就对算法团队提出了很高的要求。

 

场景尚未被充分发现和挖掘

 

近5-6年,大数据公司的整体生存质量要高于人工智能公司。

 

虽然有的客户有智能化的需求,但是显然这种需求尚未形成规模,客户和市场的成熟度还远远不够。一个戏谑的说法,2B市场的部分客户对于“智能”的理解是大屏!

 

总结来说NLP属于 原子过程,缺乏独立场景,难以形成产品闭环,与产品输出和场景的链路较长,难以做到快速反馈和修正,价值产出难以衡量或者“高投入、低产出”,不容易被用户看到,可能都竞争不过一块“智能”数据大屏。

 

我的思考:如何才能找到破局点,产生经济价值和效益呢?

 

场景化AI,而不是AI场景化, 先有场景,然后有产品,然后有数据,然后再有AI的加强 。流程一定是场景的功能、其次是数据、最后才是AI。 AI只能做一个放大镜 ,而非筑基台。因为用户直观可视的第一眼就是场景下的功能,这也就是某些PPT用户或者原型化产品经理能够让各种投资人和老板掏钱,以及各种销售能够吸引客户下单的杀手锏。

 

经济下行的环境中,企业第一要务是挣钱活下去,而非技术革新,经济价值远高于技术价值,因此能够卖出去,能有用户的AI产品才是好产品,无关技术高低、模型强弱。但是并不是否定技术创新,归根结底, 算法的目的还是要产生价值,产生价值才能反哺算法的研发 ,良性推动才能推动社会的技术革新。如果长期不产生价值输出,企业的耐心也会被磨平,个人也会陷入自我怀疑的怪圈。

 

那幺怎幺才能做产生经济价值的AI呢?破局点在何处?

 

我想和可以从以下几个点去思考:

 

一、 与业务和产品深度融合。 分清主次,主要是业务和产品支撑的场景,其次是AI驱动的业务和产品。因此算法工程师应该与产品和业务在确定项目的时候就深度参与,以便发现场景的痛点和可以挖掘的漏点。工作模式转换成, 算法提出初步需求→产品和领导认可→扩充和完善需求→算法生产 。

 

二、 工程化能力。 算法的竞争力不能总是躲在角落里,不能一直偏安一隅,最后会导致产品中有无算法照样可以,有了算法提高不了业务指标,带来不了实际高增长,那幺算法的职业和地位也是越走越窄。有的时候领导是“期望越大、失望越大”。与其让工程开发来侵占我们的自留地,不如主动出击,蚕食前后端开发的势力区。

 

核心的问题是,要让用户看到、用到、体会到。一个合格而有竞争力算法是T型人才,能够独立完成 :需求设计+前端可视化+功能开发+算法开发+A/B评测+PPT+汇报 ,但是这些并不是最终产品呈现,而是算法的α/β产品。像做产品一样做算法,才能最大的发挥算法的价值,以及缩短与用户的链路,同时也能更好的感知用户的体验反馈,从用户角度去优化算法,而非坐等运营产品总结而来的二道手信息,要知道二道手信息往往并不准确。

 

三、有了上述两把抓手之后,算法本身,尤其是NLP算法应该怎幺去发掘呢。因为NLP场景有限,原子过程的窘境,怎幺与业务结合?老生常谈的翻译和问答场景就不在这里说了,价值和产生的效益极其有限,阿里小蜜团队一众算法工程师研发的问答机器人,逛淘宝时,有几个人真的去问,我想大多数人第一时间都是去找人工客服。

 

笔者认为真正能让NLP产生价值的,并非什幺翻译和问答,而是 数据(主)+结构化文本信息(次)结合 的领地。

 

(1) 数据为王的搜索、广告、推荐的场景。 搜广推的用户信息数据、点击流数据等等一系列真实的数值为基础,然后对用户的一些评价或者其他文本进行信息抽取或者分类打标签,添加到搜广推场景中,确实是一个行之有效的方式。但是广告和推荐在近年来也被ZF做了一些限制,唯一能够快速挣钱的AI场景也被抹上了一层不确定的灰色,成熟的推荐算法已经稳定,提高1-2个点的点击率,并不仅仅是算法能够左右的,经济下行环境中,用户的保守消费,让搜广推的增长已然见顶。

 

(2) 风控场景。 诈骗横行的当今社会,不管是企业还是个人的风险控制,都是逃不开的话题,也是日新月异,不会一成不变的领域场景。风控算法的强业务关联,也是保证产品能够有卖点、有需求、用户认同的一个原因之一。风控主流是一些核心敏感信息数据,一般是G端或者大B才会,小B做风控往往只是口舌之快的PPT罢了。

 

那幺NLP如何切入,其实很难,因为不会有用户说我即将被骗了,以及和用户的聊天记录也很难获取得到,系统中只有一些用户的一些历史信息,比如工商登记、关联交易中一些半结构化的文本数据,这些能够做NLP的也极其有限。但是风控图谱却是可以挖掘到隐藏信息的一种有效方式,图的强可视化能力,也是能够让领导以及用户眼前一亮,愿意投入也愿意买单的一个典型场景,构建风控图谱或多或少会涉及到一些文本的信息,这就需要NLP在有限的自留地上造轮子了。

 

(3) 事件驱动的文本信息。 一直在思考为何知识图谱这个庞然大物很难快速变现呢,也许就在于没有一个很好的单一场景的应用,无非就是检索、KBQA、推理等,推理目前基本没听过真实有效的工业落地。那幺事件流,事件的时效性和事件本身的关联,会给很多用户一种抽丝剥茧的畅快感。犯罪电影里经常的场景,一面墙上贴的警察分析的各种事件和人物脉络图,或者某个阴暗地下室,杀人狂魔的行动路线图。事件组成的关系图谱,如果能自动化挖掘出其中隐藏信息,对司法场景、风控场景、量化投资决策场景、故障诊断场景,以及舆情监控、异常检测、热点信息流推广等都有帮助,因为人脑作为三维生物能看到的接受到的往往是点和线的二维信息,一旦形成一个高维的复杂网络后,除了记忆大师,大多数人都很难理解其中的关系,这就需要一个图来进行自动化辅助判断和决策。同时图的可视化能力,上文中已经介绍。

 

(4) Text2data和Data2text。 文本转数据和数据转文本。文本转数据涉及到很多文本信息抽取工作,将文本中的信息标准化的转换成有特征维度的二维表格数据或者半结构化的json数据。同时能够将文本的逻辑转换成可执行可计算的模块,例如Text2sql,如此就可以应对大多数自动化办公场景的需求,降本增效始终是经济下行环境中一个逃不开的话题,提高办公自动化、程序化的能力,市场绝对是不仅有而且大。

 

其次是Data2text,数据转文本的方向。现在不管是G还是B还是C,很多人对SASS的接受程度并不高,和当下知识付费一样,无个性化实物的销售很难“病毒式”扩展。因此才有了淘宝上某些卖电子书的夹带着卖U盘,做体检的更倾向于打印出纸质报告。Data2text,就是一种能够满足算法结果直接和用户接触的方式,数据+算法生成的结果+文字类模板,生成个性化或者专业型的报告,可以发送pdf或者word,甚至可以做精美的文件邮寄给用户。这样是一个非常不错的方式,毕竟我付费了,你给了我实物,传统实物交易的思想始终烙印在我们人类的基因中。

 

最后, 算法驱动的本质还是人,所以任何的一个算法应用都要建立在人的需求基础上 ,马斯洛需求层次可以认真研读一下。我想抖音、美团这种当下“伟大”的企业,正是抓住了人们的这些底层需求才得以无限扩张的吧。

 

算法的阳春白雪是挖掘事物背后的信息,如事件驱动的决策。那下里巴人就是降本增效的Text2data或Data2text。阳春白雪满足的是人的挣钱、好奇心、探索未知信息的欲望,以及逻辑分析、推理、避险的需求;那幺下里巴人就是满足人“懒”和资本剥削“剩余价值”的特质了。

 

参考: 一个NLP算法人的困境与破局

 

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。