使用Python提供高性能计算服务-JobPlus

前言

python具有丰富的库，并且很容易作为胶水语言很容易与c/c++进行交互集成。

因此为了适应快速变化的业务和兼顾计算效率，在上层采用python作为server提供service，在底层采用c/c++进行计算是一种对于算法开发者非常适宜的方式。

python flask库提供http接口以及相关demo页面，gunicorn提供多核并行能力，底层c++库提供单线程上的计算。

下面通过一个例子说明这种架构。代码地址：python_hps

准备

在实验开始之前，需要安装flask、gunicorn、apach bench tool等工具。

注：所有实验均在linux系统中进行。测试机器为4核虚拟机。

1. sudo pip install flask

2. sudo pip install gunicorn

3. sudo apt-get install apache2-utils

计算

计算部分模拟真实计算，因此计算量比较大，在我测试的虚拟机上单核单线程跑400ms左右。

c++核心计算部分，随便写的：

1. API_DESC int foo(const int val)

2. {

3. float result = 0.0f;

4. for(int c=0;c<1000;c++)

5. {

6. for(int i=0;i<val;i++)

7. {

8. result += (i);

9. result += sqrt((float)(i*i));

10. result += pow((float)(i*i*i),0.1f);

11. }

12. }

13. return (int)result;

14. }

python wrapper，采用ctypes：

1. #python wrapper of libfoo

2. class FooWrapper:

3. def __init__(self):

4. cur_path = os.path.abspath(os.path.dirname(__file__))

5. self.module = ctypes.CDLL(os.path.join(cur_path,'./impl/libfoo.so'))

6. def foo(self,val):

7. self.module.foo.argtypes = (ctypes.c_int,)

8. self.module.foo.restype = ctypes.c_int

9. result = self.module.foo(val)

10. return result

flask http API：

1. @app.route('/api/foo',methods=['GET','POST'])

2. def handle_api_foo():

3. #get input

4. val = flask.request.json['val']

5. logging.info('[handle_api_foo] val: %d' % (val))

6. #do calc

7. result = fooWrapper.foo(val)

8. logging.info('[handle_api_foo] result: %d' % (result))

9. result = json.dumps({'result':result})

10. return result

单核服务

首先测试python单核服务，同时也是单线程服务(由于python GIL的存在，python多线程对于计算密集型任务几乎起反作用)。

· 启动服务

在script目录下执行run_single.sh，即

1. #!/bin/sh

2. #python

3. export PYTHONIOENCODING=utf-8

4. #start server

5. cd `pwd`/..

6. echo "run single pocess server"

7. python server.py

8. cd -

9. echo "server is started."

· 测试服务

另外打开一个终端，执行script目录下的bench.sh，即

1. #!/bin/sh

2. ab -T 'application/json' -p post.data -n 100 -c 10 http://127.0.0.1:4096/api/foo

· 测试结果

CPU运转

ab测试结果

可以看出CPU只用了1个核，负载是2.44 request/second。

多核

· 启动服务

在script目录下执行run_parallel.sh，即

1. #!/bin/sh

2. #python

3. export PYTHONIOENCODING=utf-8

4. #start server

5. cd `pwd`/..

6. echo "run parallel pocess server"

7. gunicorn -c gun.conf server:app

8. cd -

9. echo "server is started."

其中gun.conf是一个python脚本，配置了gunicorn的一些参数，如下：

1. import multiprocessing

2. bind = '0.0.0.0:4096'

3. workers = max(multiprocessing.cpu_count()*2+1,1)

4. backlog = 2048

5. worker_class = "sync"

6. debug = False

7. proc_name = 'foo_server'

· 测试服务

另外打开一个终端，执行script目录下的bench.sh，即

1. #!/bin/sh

2. ab -T 'application/json' -p post.data -n 100 -c 10 http://127.0.0.1:4096/api/foo

· 测试结果

CPU运转

ab测试结果

可以看出CPU用满了4个核，负载是8.56 request/second。是单核的3.5倍左右，可以任务基本达成多核有效利用的的目的。

总结

使用flask、gunicorn基本可以搭建一个用于调试或者不苛责过多性能的服务，用于算法服务提供非常方便。本文提供该方案的一个简单示例，实际业务中可基于此进行修改完善。

前言 python具有丰富的库，并且很容易作为胶水语言很容易与c/c++进行交互集成。因此为了适应快速变化的业务和兼顾计算效率，在上层采用python作为server提供service，在底层采用c/c++进行计算是一种对于算法开发者非常适宜的方式。python flask库提供http接口以及相关demo页面，gunicorn提供多核并行能力，底层c++库提供单线程上的计算。下面通过一个例子说明这种架构。代码地址：python_hps准备在实验开始之前，需要安装flask、gunicorn、apach bench tool等工具。注：所有实验均在linux系统中进行。测试机器为4核虚拟机。1. sudo pip install flask 2. sudo pip install gunicorn 3. sudo apt-get install apache2-utils 计算计算部分模拟真实计算，因此计算量比较大，在我测试的虚拟机上单核单线程跑400ms左右。c++核心计算部分，随便写的：1. API_DESC int foo(const int val) 2. { 3.     float result = 0.0f; 4.     for(int c=0;c<1000;c++) 5.     { 6.         for(int i=0;i<val;i++) 7.         { 8.             result += (i); 9.             result += sqrt((float)(i*i)); 10.             result += pow((float)(i*i*i),0.1f); 11.         } 12.     } 13.     return (int)result; 14. } python wrapper，采用ctypes：1. #python wrapper of libfoo 2. class FooWrapper: 3.     def __init__(self): 4.         cur_path = os.path.abspath(os.path.dirname(__file__)) 5.         self.module = ctypes.CDLL(os.path.join(cur_path,'./impl/libfoo.so')) 6.     def foo(self,val):     7.         self.module.foo.argtypes = (ctypes.c_int,) 8.         self.module.foo.restype = ctypes.c_int 9.         result = self.module.foo(val) 10.         return result flask http API：1. @app.route('/api/foo',methods=['GET','POST']) 2. def handle_api_foo(): 3.     #get input 4.     val = flask.request.json['val'] 5.     logging.info('[handle_api_foo] val: %d' % (val)) 6.     #do calc 7.     result = fooWrapper.foo(val) 8.     logging.info('[handle_api_foo] result: %d' % (result)) 9.     result = json.dumps({'result':result}) 10.     return result 单核服务首先测试python单核服务，同时也是单线程服务(由于python GIL的存在，python多线程对于计算密集型任务几乎起反作用)。· 启动服务在script目录下执行run_single.sh，即1. #!/bin/sh 2. #python 3. export PYTHONIOENCODING=utf-8 4. #start server 5. cd `pwd`/.. 6. echo "run single pocess server" 7. python server.py 8. cd - 9. echo "server is started." · 测试服务另外打开一个终端，执行script目录下的bench.sh，即1. #!/bin/sh 2. ab -T 'application/json' -p post.data -n 100 -c 10 http://127.0.0.1:4096/api/foo · 测试结果CPU运转<img src="https://file.jobplus.com.cn/2017/07/24/b768f9ef03bc4ca1b54279fb54eed55c.png" _src="https://file.jobplus.com.cn/2017/07/24/b768f9ef03bc4ca1b54279fb54eed55c.png"/> ab测试结果<img src="https://file.jobplus.com.cn/2017/07/24/b3ca8240e00e4d3f816dabd89bd1f82b.png" _src="https://file.jobplus.com.cn/2017/07/24/b3ca8240e00e4d3f816dabd89bd1f82b.png"/> 可以看出CPU只用了1个核，负载是2.44 request/second。多核· 启动服务在script目录下执行run_parallel.sh，即1. #!/bin/sh 2. #python 3. export PYTHONIOENCODING=utf-8 4. #start server 5. cd `pwd`/.. 6. echo "run parallel pocess server" 7. gunicorn -c gun.conf server:app 8. cd - 9. echo "server is started." 其中gun.conf是一个python脚本，配置了gunicorn的一些参数，如下：1. import multiprocessing 2. bind = '0.0.0.0:4096' 3. workers = max(multiprocessing.cpu_count()*2+1,1) 4. backlog = 2048 5. worker_class = "sync" 6. debug = False 7. proc_name = 'foo_server' · 测试服务另外打开一个终端，执行script目录下的bench.sh，即1. #!/bin/sh 2. ab -T 'application/json' -p post.data -n 100 -c 10 http://127.0.0.1:4096/api/foo · 测试结果CPU运转<img src="https://file.jobplus.com.cn/2017/07/24/eb13ba6baf1349debb508c55338f0574.png" _src="https://file.jobplus.com.cn/2017/07/24/eb13ba6baf1349debb508c55338f0574.png"/> ab测试结果<img src="https://file.jobplus.com.cn/2017/07/24/18c51862ceef4c1dbef991fa172f647f.png" _src="https://file.jobplus.com.cn/2017/07/24/18c51862ceef4c1dbef991fa172f647f.png"/> 可以看出CPU用满了4个核，负载是8.56 request/second。是单核的3.5倍左右，可以任务基本达成多核有效利用的的目的。总结使用flask、gunicorn基本可以搭建一个用于调试或者不苛责过多性能的服务，用于算法服务提供非常方便。本文提供该方案的一个简单示例，实际业务中可基于此进行修改完善。

关于我们

法律声明

帮助中心

商务合作

相关文章

关于我们

法律声明

帮助中心

商务合作