对于 Python 的科学计算有哪些提高运算速度的技巧？

kai19900902
1 ℃
2020-03-10

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

对于Python的科学计算有哪些提高运算速度的技巧？问题：最近在用Python做科学计算，但是被Python的运行速度所困扰。矩阵运算也很慢，想征求下大家的建议。有什么优化Python科学计算的方法么？或者对于科学计算的语言有什么推荐么？回答：说到矩阵运算，最简单的粗暴的就是三重循环直接遍历：defmatrix_multiplication_loop(A,B):m=A.shape[0]n=A.shape[1]l=B.shape[1]C=np.zeros([m,l])foriinxrange(m):forjinxrange(l):forkinxrange(n):C=A[i][k]*B[k][j]returnCA=np.random.random([300,12])B=np.random.random([12,256])%timeitC=matrix_multiplication_loop(A,B)1loop,bestof3:2.22sperloop简直龟速了，可不可再快一点？当然，上numpy%timeitC=np.dot(A,B)10000loops,bestof3:105μsperloopnumpy还是牛牛哒，一下子快了2万倍～可不可再快一点？当然，JIT听过吗？justintime-即时编译。我第一次听到这个词是在工业工程的精益制造里，它的含义是生产线上即时生产，需要什么马上预定什么，没有库存。numba就是justintime的一个编译器，让我们来试试：importnumba@numba.autojitdefmatrix_multiplication_numba(A,B):returnnp.dot(A,B)%timeitC=matrix_multiplication_numba(D,E)10000loops,bestof3:55μsperloop又快了将近一倍～可不可再快一点？当然，只是今天没时间了，未完待续。numpy本身是非常优秀的，把速度优化就极佳了，要打败它并不容易，我们需要借助上古的力量C语言和blas库。cython是python里实现C语言的一座桥梁，下面是用cython实现的矩阵乘法：%load_extCython%%cython#!python#cython:boundscheck=False,wraparound=False,nonecheck=False#cython:cdivision=Truefromscipy.linalg.cython_blascimportdgemmcpdefvoidcython_blas_MatrixMul(double[::1,:]a,double[::1,:]b,double[::1,:]out,char*TransA,char*TransB)nogil:cdef:char*Trans='T'char*No_Trans='N'intm,n,k,lda,ldb,ldcintcol_a,col_bdoublealpha,beta#dimensionsofinputarrayslda=a.shape[0]col_a=a.shape[1]ldb=b.shape[0]col_b=b.shape[1]ldc=malpha=1.0beta=0.0dgemm(TransA,TransB,&m,&n,&k,&alpha,&a[0,0],&lda,&b[0,0],&ldb,&beta,&out[0,0],&ldc)%timeitcython_blas_MatrixMul(A,B,C,b'T',b'T')100000loops,bestof3:9.34μsperloop厉害吧！又快了五倍，比最开始的实现方法已经快了20万倍！这性能也已经逼近C语言了。可不可以再快一点？嘿嘿，当然！现在已经接近CPU的极限了，要更快我们就要买入GPU的世界了～你们感兴趣，超过一百赞，我就写怎么使用python做GPU计算，让计算速度快破天际谢谢大家捧场，这么快就过100赞了。来来来，让我们继续飙车～GPU相比CPU并非在所有情况下都更快，小矩阵时，矩阵可以直接存储在CPU的cache里，CPU可以快速访问，这个时候CPU会比GPU快。但是当遇到大矩阵时，GPU的威力就显示出来了。让我们先把矩阵扩大一千倍来看看：A=np.random.random([3000,1280])B=np.random.random([1280,2560])C=np.zeros([3000,2560])先用numpy做baseline：%timeitC=np.dot(A,B)1loop,bestof3:582msperloop可怕，一下子慢了5000倍。来试试，cython:%timeitcython_blas_MatrixMul(A,B,C,b'T',b'T')1loop,bestof3:280msperloop快了一倍，可是还要280ms。让我们来试试GPU吧。先用pyculib走一波，pyculib是cuda在Python里的一个开源库，集成了cudablas一系列算法，非常好用：frompyculibimportblas%timeitCres=blas.gemm('N','N',alpha,A,B)1loop,bestof3:140msperloop哇塞，一下快了一倍，GPU果然厉害～可不可以再快一点？那是必须的。tensorflow是Google开源的深度学习框架，矩阵方面内部优化很多：importtensorflowastfA=tf.random_normal([3000,1280])B=tf.random_normal([1280,2560])C=tf.matmul(A,B)withtf.Session()assess:%timeitresult=sess.run(C)100loops,bestof3:4.83msperloop哇咔咔，比numpy快了100倍！tensorflow果然是Google的技术名不虚传！这就是终点了吗？还能更快吗？答案是肯定的，我听NVIDIA的工程师说，如果你用C语言编写的cuDNN直接操作GPU指针还能比tensorflow快３倍～但那就脱离python的范畴了。看了这么多，有木有觉得计算机真是博大精深！勇敢的少年们，快来拥抱CS吧～原文：