论文《DeepLink:A Deep Learning Approach for User Identity Linkage》的阅读笔记。
论文下载链接: https://pan.baidu.com/s/11v–rgkZKT3RHeMih6USgA
[TOC]
1 基本术语
UIL(User Identity Linkage):用户身份链接,通过方法发现跨社交平台上同一用户或者实体。简而言之,跨社交平台的同对象识别。
OSN(Online Social Networks):线上社交网络,允许各自用户生产和分享各种内容,并基于共同兴趣爱好进行沟通和交流。例如:QQ,微博等。
** DL(deep learning)**:深度学习,机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法。
2 为什幺做这个研究
首先,UIL问题是社交平台上面一个重要问题,有着广泛的用途和价值。比方说,用户身份验证,跨平台目标用户营销等。
接下来,UIL问题当前的研究主要划分为两大类:
1 基于特征的方法 利用领域知识和用户活动深度理解下人工特征工程。
2 基于网络的方法 利用网络结构描述跨社交平台的用户关联,最近引起广泛关注和研究。
第三,目前研究方法的局限性。
没有提供一个全面的框架来解决用户和OSNs的异质性问题。
基于网络结构捕获用户之间潜在的语义关系是很困难的。
跨平台获取一组具有相同身份的用户并不容易
鉴于所研究问题的价值性和当前研究的局限性,论文作者设计和实现一种新的方法来解决这个问题。
3 怎幺做这个研究
1 研究思路
第一步:通过网络抽样形成“语料”以最大程度地保持网络结构。
第二步:通过网络嵌入法把网络里面的每一个节点表示为低维空间的一个向量。
第三步:把节点向量喂给一个深度神经网络去训练出一个跨网络用户对齐的非线性转换。
第四步:使用对偶式学习过程改进UIL性能和提升有监督训练算法。
2 算法框架
3 算法理解
网络抽样结构
- 基于多轮随机游走为每个用户生成多个社交序列。
- 每个社交序列编码表示了社交网络用户之间的关系。
- 跨平台的所有社交序列组合在一起形成了“语料库”。
- 基于“语料库”,借鉴词嵌入向量算法,学习到每一个用户潜在向量。
用户嵌入隐性空间
借鉴词向量模型的Skip-gram模型从社交序列学习每个用户的嵌入隐性空间。
Deeplink的目标最大化对数似然函数:
基于负采样算法和随机梯度下降算法求解,以得到每个用户的潜在向量表示。
拓展阅读:
1 ** Distributed Representations of Words and Phrases and their Compositionality** 2 GloVe: Global Vectors for Word Representation
神经网络映射学习
使用2个MLP学习出基于锚节点的任意两个SNGS的映射函数。 所学映射函数要最小化下列目标函数:
链接对偶式学习
4 这个研究是什幺?
这个研究是: 深度链接——一种UIL的深度学习方法
问题定义:
算法性能评价指标:
5 这个研究的启发是什幺?
该研究,启发有三:
1 网络结构采样本质上就是对网络图结构进行编码 ,希望编码后能够最大程度地保持网络的结构和关系。如何对网络图结构进行有效编码?值得深入思考和研究。
2 对偶学习这种新的学习范式 ,和其他学习方式有什幺异同,值得进一步研究。
3 跨社交平台的同对象识别的价值和意义 ,值得探问。
您有什幺想法,请留言。
Be First to Comment