Press "Enter" to skip to content

五分钟搭建BERT服务,实现1000+QPS

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

导读:

 

日前,香侬科技开源 service-streamer 线上模型部署中间件,用于将服务请求排队batch化,大幅度提高GPU利用率。

 

github开源链接:

 

https://github.com/ShannonAI/service-streamer

 

 

本文作者: 刘欣

 

service-streamer 作者: 刘欣、吴炜、李晓雅

 

“  深度学习模型在训练和测试时,通常使用小批量(mini-batch)的方式将样本组装在一起,这样能充分利用GPU的并行计算特性,加快运算速度。

 

但在将使用了深度学习模型的服务部署上线时,由于用户请求通常是离散和单次的,若采取传统的循环服务器或多线程服务器,在短时间内有大量请求时,会造成GPU计算资源闲置,用户等待时间线性变长。

 

基于此, 我们开发了service-streamer,它是一个中间件,将服务请求排队组成一个完整的batch,再送进GPU运算。 这样可以牺牲最小的时延(默认最大0.1s),提升整体性能,极大优化GPU利用率。

 

功能特色

 

简单易用: 只需添加两三行代码即可让模型服务提速上数十倍。

 

处理高速: 高QPS、低延迟,专门针对速度做了优化,见基准测试。

 

扩展性好: 可轻松扩展到多GPU场景,处理大量请求,见分布式。

 

适用性强: 中间件,适用于所有深度学习框架和web框架。

 

安装步骤

 

可通过 pip 安装,要求 Python>=3.5 :

 

pip install  service_streamer

 

五分钟搭建BERT服务

 

为了演示API使用方法,service-streamer提供了一个完整的教程和示例代码。如何在五分钟搭建起基于BERT模型的完形填空服务, 每秒处理1000+请求 。 (点击文章左下角“ 阅读原 文 ”可查看完整代码。 )

 

1、首先我们定义一个完型填空模型( bert_model.p y ),其 predict 方法接受批量的句子,并给出每个句子中 [MASK] 位置的预测结果。

 

class  TextInfillingModel ( object );

 

 

batch=[ “twinkle twinkle [MASK] star”,

 

“Happy birthday to [MASK]”,

 

‘the answer to life, the [MASK], and everything’ ]

 

model=TextaInfillingModel()

 

outputs=model.predict(batch)

 

print (outputs)

 

#[‘little’, ‘you’, ‘universe’ ]

 

2、然后使用 Flask 将模型封装成web服务 flask_example.py 。这时候你的web服务每秒钟只能完成12句请求。

 

model=TextInfillingModel()

 

@app.route( “/naive”, methods=[ “POST” ])

 

def naive_predic t ( ):

 

inputs = request.form.getlist( “s” )

 

outputs = model.predict(inputs)

 

return jsonify(outputs)

 

app.run(port= 5005 )

 

3、下面我们通过 service_streamer 封装你的模型函数,三行代码使BERT服务的预测速度达到每秒200+句(16倍QPS)。

 

from service_streamer   import ThreadStreamer

 

streamer = ThreadedStreamer (model.predict,

 

= 64 , max_latency= 0.1 )

 

@app.route( “/stream” , methods=[ “POST” ])

 

def  stream_predict ( ):

 

inputs = request.form.getlist( “s” )

 

outputs = streamer.predict(inputs)

 

return jsonify(outputs)

 

app.run(port= 5005 , debug=False)

 

4、最后,我们利用 Streamer 封装模型,启动多个GPU worker,充分利用多卡性能实现每秒1000+句(80倍QPS)。

 

import multiprocessing

 

from   service_streamer   import  ManagedModel, Streamer

 

multiprocessing.set_start_method( “spawn” , force= True )

 

class ManagedBertModel (ManagedModel):

 

def init_mod el ( self ):

 

self. model = TextInfillingModel( )

 

def  predi ct ( self , batch):

 

return self .model.predict(batch)

 

streamer = Streamer(ManageBertModel,

 

batch_size= 64 , max_latency= 0.1 ,

 

worker_num = 8 , cuda_devices=( 0,1,2,3 ))

 

app.run(port= 5005 , debug= False )

 

运行 flask_multigpu_example.py 这样即可启动8个GPU worker,平均分配在4张卡上。

 

更多指南

 

除了上面的5分钟教程,service-streamer还提供了:

 

分布式API使用方法,可以配合gunicorn实现web server和gpu worker的分布式;

 

异步Future API,在本地高频小batch调用的情形下如何利用service-streamer加速;

 

性能Benchmark,利用wrk进行单卡和多卡的性能测试数据。

 

API介绍

 

快速入门

 

通常深度学习的inference按batch输入会比较快。

 

outputs = model.predict(batch_inputs)

 

用 service_streamer 中间件封装 predict 函数,将request 排队成一个完整的batch, 再送进GPU。牺牲一定的时延(默认最大0.1s),提升整体性能,极大提高GPU利用率。

 

from service_streamer import  ThreadedStreamer

 

# 用Streamer封装batch_predict函数

 

streamer = ThreadedStreamer(model.predict, batch_size=64, max_latency=0.1)

 

# 用Streamer封装batch_predict函数

 

outputs = streamer.predict(batch_inouts)

 

然后你的web server需要开启多线程(或协程)即可。

 

短短几行代码,通常可以实现数十( batch_size/batch_per_request )倍的加速。

 

分布式GPU worker

 

上面的例子是在web server进程中,开启子线程作为GPU worker进行 batch predict,用线程间队列进行通信和排队。

 

实际项目中web server的性能(QPS)远高于GPU模型的性能,所以我们支持一个web server搭配多个GPU worker进程。

 

import multiprocessing ;

 

multiprocessing.set_start_method( “spawn” , force= True )

 

from  service_streamer import Streamer

 

# spawn出4个gpu worker进程

 

streamer = Streamer(model.predict, 64 , 0.1 , worker_num= 4 )

 

outputs = streamer.redict(batch)

 

Streamer 默认采用 spawn 子进程运行gpu worker,利用进程间队列进行通信和排队,将大量的请求分配到多个worker中处理,再将模型batch predict的结果传回到对应的web server,并且返回到对应的http response。

 

 

上面这种方式定义简单,但是主进程初始化模型,多占了一份显存,并且模型只能运行在同一块GPU上,所以我们提供了ManageModel类,方便模型lazy初始化和迁移,以支持多GPU。

 

from service_streamer import ManagedModel

 

class ManagedBertModel (ManagedModel):

 

def  init_mod el ( self ):

 

self. model = Model( )

 

def predict ( self , batch):

 

return self .model.predict(batch)

 

# spawn出4个gpu worker进程,平均分数在0/1/2/3号GPU上

 

streamer = Streamer(ManagedBertModel, 64 , 0.1 ,

 

worker_num= 4 ,cuda_devices=( 0 , 1 , 2 , 3 ))

 

outputs = streamer.predict(batch)

 

分布式web server

 

有时候,你的web server中需要进行一些CPU密集型计算,比如图像、文本预处理,再分配到GPU worker进入模型。CPU资源往往会成为性能瓶颈,于是我们也提供了多web server搭配(单个或多个)GPU worker的模式。

 

使用跟任意 RedisStreamer 指定所有web server 和GPU worke的模式。

 

# 默认参数可以省略,使用localhost:6379

 

streamer = RedisStreamer

 

(redis_broker= “172.22.22.22:6379” )

 

然后跟任意python web server的部署一样,用 gunicorn 或 uwsgi 实现反向代理和负载均衡。

 

cd example

 

gunicorn -c redis_streamer_gunicorn.py flask_example:app

 

这样每个请求会负载均衡到每个web server中进行CPU预处理,然后均匀的分布到GPU worke中进行模型predict。

 

Future API

 

如果你使用过任意concurrent库,应该对 future 不陌生。当你的使用场景不是web service,又想使用 service_streamer 进行排队或者分布式GPU计算,可以直接使用Future API。

 

from   service_streamer import ThreadedStreamer

 

streamer = ThreadedStreamer(model.predict, 64 , 0.1 )

 

xs ={}

 

for i in range ( 200 ):

 

future = streamer.submit([“Happy birthday to [MASK]”,

 

“Today is my lucky [MASK]”])

 

xs.append(future)

 

# 先拿到所有future对象,再等待异步返回

 

for future in xs:

 

outputs = future.result()

 

print (outputs)

 

基准测试

 

如何做基准测试

 

我们使用 wrk 来使做基准测试。

 

环境

 

GPU : Titan Xp

 

cuda : 9.0

 

python : 1.1

 

单个GPU进程

 

# start flask threaded server

 

python example/flask_example.py

 

# benchmark naive api without service_streamer

 

./wrk -t  4 -c 128  -d  20s  –timeout =10s -s scripts/streamer.lua http://127.0.0.1:5005/naive

 

# benchmark stream api with service_streamer

 

./wrk -t  4 -c  128  -d  20s  –timeout =10s  -s scripts/streamer.lua http://127.0.0.1:5005/naive

 

 

多个GPU进程

 

这里对比单web server进程的情况下,多GPU worker的性能,验证通过和负载均衡机制的性能损耗。Flask多线程server已经成为性能瓶颈,故采用gevent server。

 

 

利用Future API使用多个GPU

 

为了规避web server的性能瓶颈,我们使用底层Future API本地测试多GPU worker的benchmark。

 

 

可以看出 service_streamer 的性能跟GPUworker数量及乎成线性关系,其中进程间通信的效率略高于redis通信。

 

点击左下角 “阅读原文” ,可直达github原文发布链接。

 

service-streamer 作者

 

刘欣, Meteorix,毕业于华中科技大学,前网易游戏技术总监,现任香侬科技算法架构负责人 。 之前专注游戏引擎工具架构和自动化领域,2018年在GDC和GoogleIO开源Airtest自动化框架,广泛应用于Unity3d/Cocos2dx游戏和网易、暴雪、SE等公司。目前负责香侬NLP领域工程化、算法平台架构。

 

吴炜, 香侬科技NLP算法工程师,毕业于北京大学 。 曾经在自然语言处理顶级会议ACL,EMNLP以第一作者身份发表多篇论文。现在负责香侬科技NLP工程算法开发落地相关工作。

 

李晓雅, 香侬科技NLP算法工程师,毕业于北京邮电大学。 在自然语言处理顶级会议ACL2019以第一作者身份发表两篇长文。负责香侬科技NLP工程算法开发落地相关工作。

Be First to Comment

发表评论

邮箱地址不会被公开。 必填项已用*标注