600字范文,内容丰富有趣,生活中的好帮手!
600字范文 > 多线程服务器的常用编程模型 .

多线程服务器的常用编程模型 .

时间:2021-10-13 06:37:04

相关推荐

多线程服务器的常用编程模型 .

转自:

陈硕(giantchen_AT_gmail) : /solstice/article/details/5307710

本文主要讲我个人在多线程开发方面的一些粗浅经验。总结了一两种常用的线程模型,归纳了进程间通讯与线程同步的最佳实践,以期用简单规范的方式开发多线程程序。

文中的“多线程服务器”是指运行在Linux操作系统上的独占式网络应用程序。硬件平台为Intelx64系列的多核CPU,单路或双路SMP服务器(每台机器一共拥有四个核或八个核,十几GB内存),机器之间用百兆或千兆以太网连接。这大概是目前民用PC服务器的主流配置。

本文不涉及Windows系统,不涉及人机交互界面(无论命令行或图形);不考虑文件读写(往磁盘写log除外),不考虑数据库操作,不考虑Web应用;不考虑低端的单核主机或嵌入式系统,不考虑手持式设备,不考虑专门的网络设备,不考虑高端的>=32核Unix主机;只考虑TCP,不考虑UDP,也不考虑除了局域网络之外的其他数据收发方式(例如串并口、USB口、数据采集板卡、实时控制等)。

有了以上这么多限制,那么我将要谈的“网络应用程序”的基本功能可以归纳为“收到数据,算一算,再发出去”。在这个简化了的模型里,似乎看不出用多线程的必要,单线程应该也能做得很好。“为什么需要写多线程程序”这个问题容易引发口水战,我放到另一篇博客里讨论。请允许我先假定“多线程编程”这一背景。

“服务器”这个词有时指程序,有时指进程,有时指硬件(无论虚拟的或真实的),请注意按上下文区分。另外,本文不考虑虚拟化的场景,当我说“两个进程不在同一台机器上”,指的是逻辑上不在同一个操作系统里运行,虽然物理上可能位于同一机器虚拟出来的两台“虚拟机”上。

本文假定读者已经有多线程编程的知识与经验,这不是一篇入门教程。

本文承蒙MiloYip先生审读,在此深表谢意。当然,文中任何错误责任均在我。

目录

1进程与线程 2

2典型的单线程服务器编程模型 3

3典型的多线程服务器的线程模型 3

Oneloopperthread 4

线程池 4

归纳 5

4进程间通信与线程间通信 5

5进程间通信 6

6线程间同步 7

互斥器(mutex) 7

跑题:非递归的mutex 8

条件变量 10

读写锁与其他 11

封装MutexLock、MutexLockGuard和Condition 11

线程安全的Singleton实现 14

归纳 15

7总结 15

后文预览:Sleep反模式 16

1进程与线程

“进程/process”是操作里最重要的两个概念之一(另一个是文件),粗略地讲,一个进程是“内存中正在运行的程序”。本文的进程指的是Linux操作系统通过fork()系统调用产生的那个东西,或者Windows下CreateProcess()的产物,不是Erlang里的那种轻量级进程。

每个进程有自己独立的地址空间(addressspace),“在同一个进程”还是“不在同一个进程”是系统功能划分的重要决策点。Erlang书把“进程”比喻为“人”,我觉得十分精当,为我们提供了一个思考的框架。

每个人有自己的记忆(memory),人与人通过谈话(消息传递)来交流,谈话既可以是面谈(同一台服务器),也可以在电话里谈(不同的服务器,有网络通信)。面谈和电话谈的区别在于,面谈可以立即知道对方死否死了(crash,SIGCHLD),而电话谈只能通过周期性的心跳来判断对方是否还活着。

有了这些比喻,设计分布式系统时可以采取“角色扮演”,团队里的几个人各自扮演一个进程,人的角色由进程的代码决定(管登陆的、管消息分发的、管买卖的等等)。每个人有自己的记忆,但不知道别人的记忆,要想知道别人的看法,只能通过交谈。(暂不考虑共享内存这种IPC。)然后就可以思考容错(万一有人突然死了)、扩容(新人中途加进来)、负载均衡(把a的活儿挪給b做)、退休(a要修复bug,先别给他派新活儿,等他做完手上的事情就把他重启)等等各种场景,十分便利。

“线程”这个概念大概是在1993年以后才慢慢流行起来的,距今不过十余年,比不得有40年光辉历史的Unix操作系统。线程的出现给Unix添了不少乱,很多C库函数(strtok(),ctime())不是线程安全的,需要重新定义;signal的语意也大为复杂化。据我所知,最早支持多线程编程的(民用)操作系统是Solaris2.2和WindowsNT3.1,它们均发布于1993年。随后在1995年,POSIXthreads标准确立。

线程的特点是共享地址空间,从而可以高效地共享数据。一台机器上的多个进程能高效地共享代码段(操作系统可以映射为同样的物理内存),但不能共享数据。如果多个进程大量共享内存,等于是把多进程程序当成多线程来写,掩耳盗铃。

“多线程”的价值,我认为是为了更好地发挥对称多路处理(SMP)的效能。在SMP之前,多线程没有多大价值。AlanCox说过Acomputerisastatemachine.Threadsareforpeoplewhocan'tprogramstatemachines.(计算机是一台状态机。线程是给那些不能编写状态机程序的人准备的。)如果只有一个执行单元,一个CPU,那么确实如AlanCox所说,按状态机的思路去写程序是最高效的,这正好也是下一节展示的编程模型。

2典型的单线程服务器编程模型

UNP3e对此有很好的总结(第6章:IO模型,第30章:客户端/服务器设计范式),这里不再赘述。据我了解,在高性能的网络程序中,使用得最为广泛的恐怕要数“non-blockingIO+IOmultiplexing”这种模型,即Reactor模式,我知道的有:

llighttpd,单线程服务器。(nginx估计与之类似,待查)

llibevent/libev

lACE,PocoC++libraries(QT待查)

lJavaNIO(Selector/SelectableChannel),ApacheMina,Netty(Java)

lPOE(Perl)

lTwisted(Python)

相反,boost::asio和WindowsI/OCompletionPorts实现了Proactor模式,应用面似乎要窄一些。当然,ACE也实现了Proactor模式,不表。

在“non-blockingIO+IOmultiplexing”这种模型下,程序的基本结构是一个事件循环(eventloop):(代码仅为示意,没有完整考虑各种情况)

while(!done)

{

inttimeout_ms=max(1000,getNextTimedCallback());

intretval=::poll(fds,nfds,timeout_ms);

if(retval<0){

处理错误

}else{

处理到期的timers

if(retval>0){

处理IO事件

}

}

}

当然,select(2)/poll(2)有很多不足,Linux下可替换为epoll,其他操作系统也有对应的高性能替代品(搜c10kproblem)。

Reactor模型的优点很明显,编程简单,效率也不错。不仅网络读写可以用,连接的建立(connect/accept)甚至DNS解析都可以用非阻塞方式进行,以提高并发度和吞吐量(throughput)。对于IO密集的应用是个不错的选择,Lighttpd即是这样,它内部的fdevent结构十分精妙,值得学习。(这里且不考虑用阻塞IO这种次优的方案。)

当然,实现一个优质的Reactor不是那么容易,我也没有用过坊间开源的库,这里就不推荐了。

3典型的多线程服务器的线程模型

这方面我能找到的文献不多,大概有这么几种:

1.每个请求创建一个线程,使用阻塞式IO操作。在Java1.4引入NIO之前,这是Java网络编程的推荐做法。可惜伸缩性不佳。

2.使用线程池,同样使用阻塞式IO操作。与1相比,这是提高性能的措施。

3.使用non-blockingIO+IOmultiplexing。即JavaNIO的方式。

4.Leader/Follower等高级模式

在默认情况下,我会使用第3种,即non-blockingIO+oneloopperthread模式。

http://pod.tst.eu/http://cvs.schmorp.de/libev/ev.pod#THREADS_AND_COROUTINES

Oneloopperthread

此种模型下,程序里的每个IO线程有一个eventloop(或者叫Reactor),用于处理读写和定时事件(无论周期性的还是单次的),代码框架跟第2节一样。

这种方式的好处是:

l线程数目基本固定,可以在程序启动的时候设置,不会频繁创建与销毁。

l可以很方便地在线程间调配负载。

eventloop代表了线程的主循环,需要让哪个线程干活,就把timer或IOchannel(TCPconnection)注册到那个线程的loop里即可。对实时性有要求的connection可以单独用一个线程;数据量大的connection可以独占一个线程,并把数据处理任务分摊到另几个线程中;其他次要的辅助性connections可以共享一个线程。

对于non-trivial的服务端程序,一般会采用non-blockingIO+IOmultiplexing,每个connection/acceptor都会注册到某个Reactor上,程序里有多个Reactor,每个线程至多有一个Reactor。

多线程程序对Reactor提出了更高的要求,那就是“线程安全”。要允许一个线程往别的线程的loop里塞东西,这个loop必须得是线程安全的。

线程池

不过,对于没有IO光有计算任务的线程,使用eventloop有点浪费,我会用有一种补充方案,即用blockingqueue实现的任务队列(TaskQueue):

blocking_queue<boost::function<void()>>taskQueue;//线程安全的阻塞队列

voidworker_thread()

{

while(!quit){

boost::function<void()>task=taskQueue.take();//thisblocks

task();//在产品代码中需要考虑异常处理

}

}

用这种方式实现线程池特别容易:

启动容量为N的线程池:

intN=num_of_computing_threads;

for(inti=0;i<N;++i){

create_thread(&worker_thread);//伪代码:启动线程

}

使用起来也很简单:

boost::function<void()>task=boost::bind(&Foo::calc,this);

taskQueue.post(task);

上面十几行代码就实现了一个简单的固定数目的线程池,功能大概相当于Java5的ThreadPoolExecutor的某种“配置”。当然,在真实的项目中,这些代码都应该封装到一个class中,而不是使用全局对象。另外需要注意一点:Foo对象的生命期,我的另一篇博客《当析构函数遇到多线程——C++中线程安全的对象回调》详细讨论了这个问题

/Solstice/archive//01/22/5238671.aspx

除了任务队列,还可以用blocking_queue<T>实现数据的消费者-生产者队列,即T的是数据类型而非函数对象,queue的消费者(s)从中拿到数据进行处理。这样做比taskqueue更加specific一些。

blocking_queue<T>是多线程编程的利器,它的实现可参照Java5util.concurrent里的(Array|Linked)BlockingQueue,通常C++可以用deque来做底层的容器。Java5里的代码可读性很高,代码的基本结构和教科书一致(1个mutex,2个conditionvariables),健壮性要高得多。如果不想自己实现,用现成的库更好。(我没有用过免费的库,这里就不乱推荐了,有兴趣的同学可以试试IntelThreadingBuildingBlocks里的concurrent_queue<T>。)

归纳

总结起来,我推荐的多线程服务端编程模式为:eventloopperthread+threadpool。

leventloop用作non-blockingIO和定时器。

lthreadpool用来做计算,具体可以是任务队列或消费者-生产者队列。

以这种方式写服务器程序,需要一个优质的基于Reactor模式的网络库来支撑,我只用过in-house的产品,无从比较并推荐市面上常见的C++网络库,抱歉。

程序里具体用几个loop、线程池的大小等参数需要根据应用来设定,基本的原则是“阻抗匹配”,使得CPU和IO都能高效地运作,具体的考虑点容我以后再谈。

这里没有谈线程的退出,留待下一篇blog“多线程编程反模式”探讨。

此外,程序里或许还有个别执行特殊任务的线程,比如logging,这对应用程序来说基本是不可见的,但是在分配资源(CPU和IO)的时候要算进去,以免高估了系统的容量。

4进程间通信与线程间通信

Linux下进程间通信(IPC)的方式数不胜数,光UNPv2列出的就有:pipe、FIFO、POSIX消息队列、共享内存、信号(signals)等等,更不必说Sockets了。同步原语(synchronizationprimitives)也很多,互斥器(mutex)、条件变量(conditionvariable)、读写锁(reader-writerlock)、文件锁(Recordlocking)、信号量(Semaphore)等等。

如何选择呢?根据我的个人经验,贵精不贵多,认真挑选三四样东西就能完全满足我的工作需要,而且每样我都能用得很熟,,不容易犯错。

5进程间通信

进程间通信我首选Sockets(主要指TCP,我没有用过UDP,也不考虑Unixdomain协议),其最大的好处在于:可以跨主机,具有伸缩性。反正都是多进程了,如果一台机器处理能力不够,很自然地就能用多台机器来处理。把进程分散到同一局域网的多台机器上,程序改改host:port配置就能继续用。相反,前面列出的其他IPC都不能跨机器(比如共享内存效率最高,但再怎么着也不能高效地共享两台机器的内存),限制了scalability。

在编程上,TCPsockets和pipe都是一个文件描述符,用来收发字节流,都可以read/write/fcntl/select/poll等。不同的是,TCP是双向的,pipe是单向的(Linux),进程间双向通讯还得开两个文件描述符,不方便;而且进程要有父子关系才能用pipe,这些都限制了pipe的使用。在收发字节流这一通讯模型下,没有比sockets/TCP更自然的IPC了。当然,pipe也有一个经典应用场景,那就是写Reactor/Selector时用来异步唤醒select(或等价的poll/epoll)调用(SunJVM在Linux就是这么做的)。

TCPport是由一个进程独占,且操作系统会自动回收(listeningport和已建立连接的TCPsocket都是文件描述符,在进程结束时操作系统会关闭所有文件描述符)。这说明,即使程序意外退出,也不会给系统留下垃圾,程序重启之后能比较容易地恢复,而不需要重启操作系统(用跨进程的mutex就有这个风险)。还有一个好处,既然port是独占的,那么可以防止程序重复启动(后面那个进程抢不到port,自然就没法工作了),造成意料之外的结果。

两个进程通过TCP通信,如果一个崩溃了,操作系统会关闭连接,这样另一个进程几乎立刻就能感知,可以快速failover。当然,应用层的心跳也是必不可少的,我以后在讲服务端的日期与时间处理的时候还会谈到心跳协议的设计。

与其他IPC相比,TCP协议的一个自然好处是“可记录可重现”,tcpdump/Wireshark是解决两个进程间协议/状态争端的好帮手。

另外,如果网络库带“连接重试”功能的话,我们可以不要求系统里的进程以特定的顺序启动,任何一个进程都能单独重启,这对开发牢靠的分布式系统意义重大。

使用TCP这种字节流(bytestream)方式通信,会有marshal/unmarshal的开销,这要求我们选用合适的消息格式,准确地说是wireformat。这将是我下一篇blog的主题,目前我推荐GoogleProtocolBuffers。

有人或许会说,具体问题具体分析,如果两个进程在同一台机器,就用共享内存,否则就用TCP,比如MSSQLServer就同时支持这两种通信方式。我问,是否值得为那么一点性能提升而让代码的复杂度大大增加呢?TCP是字节流协议,只能顺序读取,有写缓冲;共享内存是消息协议,a进程填好一块内存让b进程来读,基本是“停等”方式。要把这两种方式揉到一个程序里,需要建一个抽象层,封装两种IPC。这会带来不透明性,并且增加测试的复杂度,而且万一通信的某一方崩溃,状态reconcile也会比sockets麻烦。为我所不取。再说了,你舍得让几万块买来的SQLServer和你的程序分享机器资源吗?产品里的数据库服务器往往是独立的高配置服务器,一般不会同时运行其他占资源的程序。

TCP本身是个数据流协议,除了直接使用它来通信,还可以在此之上构建RPC/REST/SOAP之类的上层通信协议,这超过了本文的范围。另外,除了点对点的通信之外,应用级的广播协议也是非常有用的,可以方便地构建可观可控的分布式系统。

本文不具体讲Reactor方式下的网络编程,其实这里边有很多值得注意的地方,比如带backoff的retryconnecting,用优先队列来组织timer等等,留作以后分析吧。

6线程间同步

线程同步的四项原则,按重要性排列:

1.首要原则是尽量最低限度地共享对象,减少需要同步的场合。一个对象能不暴露给别的线程就不要暴露;如果要暴露,优先考虑immutable对象;实在不行才暴露可修改的对象,并用同步措施来充分保护它。

2.其次是使用高级的并发编程构件,如TaskQueue、Producer-ConsumerQueue、CountDownLatch等等;

3.最后不得已必须使用底层同步原语(primitives)时,只用非递归的互斥器和条件变量,偶尔用一用读写锁;

4.不自己编写lock-free代码,不去凭空猜测“哪种做法性能会更好”,比如spinlockvs.mutex。

前面两条很容易理解,这里着重讲一下第3条:底层同步原语的使用。

互斥器(mutex)

互斥器(mutex)恐怕是使用得最多的同步原语,粗略地说,它保护了临界区,一个时刻最多只能有一个线程在临界区内活动。(请注意,我谈的是pthreads里的mutex,不是Windows里的重量级跨进程Mutex。)单独使用mutex时,我们主要为了保护共享数据。我个人的原则是:

l用RAII手法封装mutex的创建、销毁、加锁、解锁这四个操作。

l只用非递归的mutex(即不可重入的mutex)。

l不手工调用lock()和unlock()函数,一切交给栈上的Guard对象的构造和析构函数负责,Guard对象的生命期正好等于临界区(分析对象在什么时候析构是C++程序员的基本功)。这样我们保证在同一个函数里加锁和解锁,避免在foo()里加锁,然后跑到bar()里解锁。

l在每次构造Guard对象的时候,思考一路上(调用栈上)已经持有的锁,防止因加锁顺序不同而导致死锁(deadlock)。由于Guard对象是栈上对象,看函数调用栈就能分析用锁的情况,非常便利。

次要原则有:

l不使用跨进程的mutex,进程间通信只用TCPsockets。

l加锁解锁在同一个线程,线程a不能去unlock线程b已经锁住的mutex。(RAII自动保证)

l别忘了解锁。(RAII自动保证)

l不重复解锁。(RAII自动保证)

l必要的时候可以考虑用PTHREAD_MUTEX_ERRORCHECK来排错

用RAII封装这几个操作是通行的做法,这几乎是C++的标准实践,后面我会给出具体的代码示例,相信大家都已经写过或用过类似的代码了。Java里的synchronized语句和C#的using语句也有类似的效果,即保证锁的生效期间等于一个作用域,不会因异常而忘记解锁。

Mutex恐怕是最简单的同步原语,安照上面的几条原则,几乎不可能用错。我自己从来没有违背过这些原则,编码时出现问题都很快能招到并修复。

跑题:非递归的mutex

谈谈我坚持使用非递归的互斥器的个人想法。

Mutex分为递归(recursive)和非递归(non-recursive)两种,这是POSIX的叫法,另外的名字是可重入(Reentrant)与非可重入。这两种mutex作为线程间(inter-thread)的同步工具时没有区别,它们的惟一区别在于:同一个线程可以重复对recursivemutex加锁,但是不能重复对non-recursivemutex加锁。

首选非递归mutex,绝对不是为了性能,而是为了体现设计意图。non-recursive和recursive的性能差别其实不大,因为少用一个计数器,前者略快一点点而已。在同一个线程里多次对non-recursivemutex加锁会立刻导致死锁,我认为这是它的优点,能帮助我们思考代码对锁的期求,并且及早(在编码阶段)发现问题。

毫无疑问recursivemutex使用起来要方便一些,因为不用考虑一个线程会自己把自己给锁死了,我猜这也是Java和Windows默认提供recursivemutex的原因。(Java语言自带的intrinsiclock是可重入的,它的concurrent库里提供ReentrantLock,Windows的CRITICAL_SECTION也是可重入的。似乎它们都不提供轻量级的non-recursivemutex。)

正因为它方便,recursivemutex可能会隐藏代码里的一些问题。典型情况是你以为拿到一个锁就能修改对象了,没想到外层代码已经拿到了锁,正在修改(或读取)同一个对象呢。具体的例子:

std::vector<Foo>foos;

MutexLockmutex;

voidpost(constFoo&f)

{

MutexLockGuardlock(mutex);

foos.push_back(f);

}

voidtraverse()

{

MutexLockGuardlock(mutex);

for(autoit=foos.begin();it!=foos.end();++it){//用了0x新写法

it->doit();

}

}

post()加锁,然后修改foos对象;traverse()加锁,然后遍历foos数组。将来有一天,Foo::doit()间接调用了post()(这在逻辑上是错误的),那么会很有戏剧性的:

1.Mutex是非递归的,于是死锁了。

2.Mutex是递归的,由于push_back可能(但不总是)导致vector迭代器失效,程序偶尔会crash。

这时候就能体现non-recursive的优越性:把程序的逻辑错误暴露出来。死锁比较容易debug,把各个线程的调用栈打出来((gdb)threadapplyallbt),只要每个函数不是特别长,很容易看出来是怎么死的。(另一方面支持了函数不要写过长。)或者可以用PTHREAD_MUTEX_ERRORCHECK一下子就能找到错误(前提是MutexLock带debug选项。)

程序反正要死,不如死得有意义一点,让验尸官的日子好过些。

如果一个函数既可能在已加锁的情况下调用,又可能在未加锁的情况下调用,那么就拆成两个函数:

1.跟原来的函数同名,函数加锁,转而调用第2个函数。

2.给函数名加上后缀WithLockHold,不加锁,把原来的函数体搬过来。

就像这样:

voidpost(constFoo&f)

{

MutexLockGuardlock(mutex);

postWithLockHold(f);//不用担心开销,编译器会自动内联的

}

//引入这个函数是为了体现代码作者的意图,尽管push_back通常可以手动内联

voidpostWithLockHold(constFoo&f)

{

foos.push_back(f);

}

这有可能出现两个问题(感谢水木网友ilovecpp提出):a)误用了加锁版本,死锁了。b)误用了不加锁版本,数据损坏了。

对于a),仿造前面的办法能比较容易地排错。对于b),如果pthreads提供isLocked()就好办,可以写成:

voidpostWithLockHold(constFoo&f)

{

assert(mutex.isLocked());//目前只是一个愿望

//...

}

另外,WithLockHold这个显眼的后缀也让程序中的误用容易暴露出来。

C++没有annotation,不能像Java那样给method或field标上@GuardedBy注解,需要程序员自己小心在意。虽然这里的办法不能一劳永逸地解决全部多线程错误,但能帮上一点是一点了。

我还没有遇到过需要使用recursivemutex的情况,我想将来遇到了都可以借助wrapper改用non-recursivemutex,代码只会更清晰。

===回到正题===

本文这里只谈了mutex本身的正确使用,在C++里多线程编程还会遇到其他很多racecondition,请参考拙作《当析构函数遇到多线程——C++中线程安全的对象回调》

/Solstice/archive//01/22/5238671.aspx。请注意这里的class命名与那篇文章有所不同。我现在认为MutexLock和MutexLockGuard是更好的名称。

性能注脚:Linux的pthreadsmutex采用futex实现,不必每次加锁解锁都陷入系统调用,效率不错。Windows的CRITICAL_SECTION也是类似。

条件变量

条件变量(conditionvariable)顾名思义是一个或多个线程等待某个布尔表达式为真,即等待别的线程“唤醒”它。条件变量的学名叫管程(monitor)。JavaObject内置的wait(),notify(),notifyAll()即是条件变量(它们以容易用错著称)。条件变量只有一种正确使用的方式,对于wait()端:

1.必须与mutex一起使用,该布尔表达式的读写需受此mutex保护

2.在mutex已上锁的时候才能调用wait()

3.把判断布尔条件和wait()放到while循环中

写成代码是:

MutexLockmutex;

Conditioncond(mutex);

std::deque<int>queue;

intdequeue()

{

MutexLockGuardlock(mutex);

while(queue.empty()){//必须用循环;必须在判断之后再wait()

cond.wait();//这一步会原子地unlockmutex并进入blocking,不会与enqueue死锁

}

assert(!queue.empty());

inttop=queue.front();

queue.pop_front();

returntop;

}

对于signal/broadcast端:

1.不一定要在mutex已上锁的情况下调用signal(理论上)

2.在signal之前一般要修改布尔表达式

3.修改布尔表达式通常要用mutex保护(至少用作fullmemorybarrier)

写成代码是:

voidenqueue(intx)

{

MutexLockGuardlock(mutex);

queue.push_back(x);

cond.notify();

}

上面的dequeue/enqueue实际上实现了一个简单的unboundedBlockingQueue。

条件变量是非常底层的同步原语,很少直接使用,一般都是用它来实现高层的同步措施,如BlockingQueue或CountDownLatch。

读写锁与其他

读写锁(Reader-Writerlock),读写锁是个优秀的抽象,它明确区分了read和write两种行为。需要注意的是,readerlock是可重入的,writerlock是不可重入(包括不可提升readerlock)的。这正是我说它“优秀”的主要原因。

遇到并发读写,如果条件合适,我会用《借shared_ptr实现线程安全的copy-on-write》/Solstice/archive//11/22/3351751.aspx介绍的办法,而不用读写锁。当然这不是绝对的。

信号量(Semaphore),我没有遇到过需要使用信号量的情况,无从谈及个人经验。

说一句大逆不道的话,如果程序里需要解决如“哲学家就餐”之类的复杂IPC问题,我认为应该首先考察几个设计,为什么线程之间会有如此复杂的资源争抢(一个线程要同时抢到两个资源,一个资源可以被两个线程争夺)?能不能把“想吃饭”这个事情专门交给一个为各位哲学家分派餐具的线程来做,然后每个哲学家等在一个简单的conditionvariable上,到时间了有人通知他去吃饭?从哲学上说,教科书上的解决方案是平权,每个哲学家有自己的线程,自己去拿筷子;我宁愿用集权的方式,用一个线程专门管餐具的分配,让其他哲学家线程拿个号等在食堂门口好了。这样不损失多少效率,却让程序简单很多。虽然Windows的WaitForMultipleObjects让这个问题trivial化,在Linux下正确模拟WaitForMultipleObjects不是普通程序员该干的。

封装MutexLock、MutexLockGuard和Condition

本节把前面用到的MutexLock、MutexLockGuard、Conditionclasses的代码列出来,前面两个classes没多大难度,后面那个有点意思。

MutexLock封装临界区(Criticalsecion),这是一个简单的资源类,用RAII手法[CCS:13]封装互斥器的创建与销毁。临界区在Windows上是CRITICAL_SECTION,是可重入的;在Linux下是pthread_mutex_t,默认是不可重入的。MutexLock一般是别的class的数据成员。

MutexLockGuard封装临界区的进入和退出,即加锁和解锁。MutexLockGuard一般是个栈上对象,它的作用域刚好等于临界区域。

这两个classes应该能在纸上默写出来,没有太多需要解释的:

#include<pthread.h>

#include<boost/noncopyable.hpp>

classMutexLock:boost::noncopyable

{

public:

MutexLock()//为了节省版面,单行函数都没有正确缩进

{pthread_mutex_init(&mutex_,NULL);}

~MutexLock()

{pthread_mutex_destroy(&mutex_);}

voidlock()//程序一般不主动调用

{pthread_mutex_lock(&mutex_);}

voidunlock()//程序一般不主动调用

{pthread_mutex_unlock(&mutex_);}

pthread_mutex_t*getPthreadMutex()//仅供Condition调用,严禁自己调用

{return&mutex_;}

private:

pthread_mutex_tmutex_;

};

classMutexLockGuard:boost::noncopyable

{

public:

explicitMutexLockGuard(MutexLock&mutex):mutex_(mutex)

{mutex_.lock();}

~MutexLockGuard()

{mutex_.unlock();}

private:

MutexLock&mutex_;

};

#defineMutexLockGuard(x)static_assert(false,"missingmutexguardvarname")

注意代码的最后一行定义了一个宏,这个宏的作用是防止程序里出现如下错误:

voiddoit()

{

MutexLockGuard(mutex);//没有变量名,产生一个临时对象又马上销毁了,没有锁住临界区

//正确写法是MutexLockGuardlock(mutex);

//临界区

}

这里MutexLock没有提供trylock()函数,因为我没有用过它,我想不出什么时候程序需要“试着去锁一锁”,或许我写过的代码太简单了。

我见过有人把MutexLockGuard写成template,我没有这么做是因为它的模板类型参数只有MutexLock一种可能,没有必要随意增加灵活性,于是我人肉把模板具现化(instantiate)了。此外一种更激进的写法是,把lock/unlock放到private区,然后把Guard设为MutexLock的friend,我认为在注释里告知程序员即可,另外check-in之前的codereview也很容易发现误用的情况(grepgetPthreadMutex)。

这段代码没有达到工业强度:a)Mutex创建为PTHREAD_MUTEX_DEFAULT类型,而不是我们预想的PTHREAD_MUTEX_NORMAL类型(实际上这二者很可能是等同的),严格的做法是用mutexattr来显示指定mutex的类型。b)没有检查返回值。这里不能用assert检查返回值,因为assert在releasebuild里是空语句。我们检查返回值的意义在于防止ENOMEM之类的资源不足情况,这一般只可能在负载很重的产品程序中出现。一旦出现这种错误,程序必须立刻清理现场并主动退出,否则会莫名其妙地崩溃,给事后调查造成困难。这里我们需要non-debug的assert,或许google-glog的CHECK()是个不错的思路。

以上两点改进留作练习。

Conditionclass的实现有点意思。

Pthreadsconditionvariable允许在wait()的时候指定mutex,但是我想不出什么理由一个conditionvariable会和不同的mutex配合使用。Java的intrinsiccondition和Conditonclass都不支持这么做,因此我觉得可以放弃这一灵活性,老老实实一对一好了。相反boost::thread的condition_varianle是在wait的时候指定mutex,请参观其同步原语的庞杂设计:

lConcept有四种Lockable,TimedLockable,SharedLockable,UpgradeLockable.

lLock有五六种:lock_guard,unique_lock,shared_lock,upgrade_lock,upgrade_to_unique_lock,scoped_try_lock.

lMutex有七种:mutex,try_mutex,timed_mutex,recursive_mutex,recursive_try_mutex,recursive_timed_mutex,shared_mutex.

恕我愚钝,见到boost::thread这样如RubeGoldbergMachine一样“灵活”的库我只得三揖绕道而行。这些class名字也很无厘头,为什么不老老实实用reader_writer_lock这样的通俗名字呢?非得增加精神负担,自己发明新名字。我不愿为这样的灵活性付出代价,宁愿自己做几个简简单单的一看就明白的classes来用,这种简单的几行代码的轮子造造也无妨。提供灵活性固然是本事,然而在不需要灵活性的地方把代码写死,更需要大智慧。

下面这个Condition简单地封装了pthreadcondvar,用起来也容易,见本节前面的例子。这里我用notify/notifyAll作为函数名,因为signal有别的含义,C++里的signal/slot,C里的signalhandler等等。就别overload这个术语了。

classCondition:boost::noncopyable

{

public:

Condition(MutexLock&mutex):mutex_(mutex)

{pthread_cond_init(&pcond_,NULL);}

~Condition()

{pthread_cond_destroy(&pcond_);}

voidwait()

{pthread_cond_wait(&pcond_,mutex_.getPthreadMutex());}

voidnotify()

{pthread_cond_signal(&pcond_);}

voidnotifyAll()

{pthread_cond_broadcast(&pcond_);}

private:

MutexLock&mutex_;

pthread_cond_tpcond_;

};

如果一个class要包含MutexLock和Condition,请注意它们的声明顺序和初始化顺序,mutex_应先于condition_构造,并作为后者的构造参数:

classCountDownLatch

{

public:

CountDownLatch(intcount)

:count_(count),

mutex_(),

condition_(mutex_)

{}

private:

intcount_;

MutexLockmutex_;//顺序很重要

Conditioncondition_;

};

请允许我再次强调,虽然本节花了大量篇幅介绍如何正确使用mutex和conditionvariable,但并不代表我鼓励到处使用它们。这两者都是非常底层的同步原语,主要用来实现更高级的并发编程工具,一个多线程程序里如果大量使用mutex和conditionvariable来同步,基本跟用铅笔刀锯大树(孟岩语)没啥区别。

线程安全的Singleton实现

研究Signleton的线程安全实现的历史你会发现很多有意思的事情,一度人们认为Doublecheckedlocking是王道,兼顾了效率与正确性。后来有神牛指出由于乱序执行的影响,DCL是靠不住的。(这个又让我想起了SQL注入,十年前用字符串拼接出SQL语句是Web开发的通行做法,直到有一天有人利用这个漏洞越权获得并修改网站数据,人们才幡然醒悟,赶紧修补。)Java开发者还算幸运,可以借助内部静态类的装载来实现。C++就比较惨,要么次次锁,要么eagerinitialize、或者动用memorybarrier这样的大杀器(/Papers/DDJ_Jul_Aug__revised.pdf)。接下来Java5修订了内存模型,并增强了volatile的语义,这下DCL(withvolatile)又是安全的了。然而C++的内存模型还在修订中,C++的volatile目前还不能(将来也难说)保证DCL的正确性(只在VS+上有效)。

其实没那么麻烦,在实践中用pthreadonce就行:

#include<pthread.h>

template<typenameT>

classSingleton:boost::noncopyable

{

public:

staticT&instance()

{

pthread_once(&ponce_,&Singleton::init);

return*value_;

}

staticvoidinit()

{

value_=newT();

}

private:

staticpthread_once_tponce_;

staticT*value_;

};

template<typenameT>

pthread_once_tSingleton<T>::ponce_=PTHREAD_ONCE_INIT;

template<typenameT>

T*Singleton<T>::value_=NULL;

上面这个Singleton没有任何花哨的技巧,用pthread_once_t来保证lazy-initialization的线程安全。使用方法也很简单:

Foo&foo=Singleton<Foo>::instance();

当然,这个Singleton没有考虑对象的销毁,在服务器程序里,这不是一个问题,因为当程序退出的时候自然就释放所有资源了(前提是程序里不使用不能由操作系统自动关闭的资源,比如跨进程的Mutex)。另外,这个Singleton只能调用默认构造函数,如果用户想要指定T的构造方式,我们可以用模板特化(templatespecialization)技术来提供一个定制点,这需要引入另一层间接。

归纳

l进程间通信首选TCPsockets

l线程同步的四项原则

l使用互斥器的条件变量的惯用手法(idiom),关键是RAII

用好这几样东西,基本上能应付多线程服务端开发的各种场合,只是或许有人会觉得性能没有发挥到极致。我认为,先把程序写正确了,再考虑性能优化,这在多线程下任然成立。让一个正确的程序变快,远比“让一个快的程序变正确”容易得多。

7总结

在现代的多核计算背景下,线程是不可避免的。多线程编程是一项重要的个人技能,不能因为它难就本能地排斥,现在的软件开发比起前已经难了不知道多少倍。掌握多线程编程,才能更理智地选择用还是不用多线程,因为你能预估多线程实现的难度与收益,在一开始做出正确的选择。要知道把一个单线程程序改成多线程的,往往比重头实现一个多线程的程序更难。

掌握同步原语和它们的适用场合时多线程编程的基本功。以我的经验,熟练使用文中提到的同步原语,就能比较容易地编写线程安全的程序。本文没有考虑signal对多线程编程的影响,Unix的signal在多线程下的行为比较复杂,一般要靠底层的网络库(如Reactor)加以屏蔽,避免干扰上层应用程序的开发。

通篇来看,“效率”并不是我的主要考虑点,a)TCP不是效率最高的IPC,b)我提倡正确加锁而不是自己编写lock-free算法(使用原子操作除外)。在程序的复杂度和性能之前取得平衡,并经考虑未来两三年扩容的可能(无论是CPU变快、核数变多,还是机器数量增加,网络升级)。下一篇“多线程编程的反模式”会考察伸缩性方面的常见错误,我认为在分布式系统中,伸缩性(scalability)比单机的性能优化更值得投入精力。

这篇文章记录了我目前对多线程编程的理解,用文中介绍的手法,我能解决自己面临的全部多线程编程任务。如果文章的观点与您不合,比如您使用了我没有推荐使用的技术或手法(共享内存、信号量等等),只要您理由充分,但行无妨。

这篇文章本来还有两节“多线程编程的反模式”与“多线程的应用场景”,考虑到字数已经超过一万了,且听下回分解吧:-)

后文预览:Sleep反模式

我认为sleep只能出现在测试代码中,比如写单元测试的时候。(涉及时间的单元测试不那么好写,短的如一两秒钟可以用sleep,长的如一小时一天得想其他办法,比如把算法提出来并把时间注入进去。)产品代码中线程的等待可分为两种:一种是无所事事的时候(要么等在select/poll/epoll上。要么等在conditionvariable上,等待BlockingQueue/CountDownLatch亦可归入此类),一种是等着进入临界区(等在mutex上)以便继续处理。在程序的正常执行中,如果需要等待一段时间,应该往eventloop里注册一个timer,然后在timer的回调函数里接着干活,因为线程是个珍贵的共享资源,不能轻易浪费。如果多线程的安全性和效率要靠代码主动调用sleep来保证,这是设计出了问题。等待一个事件发生,正确的做法是用select或conditionvariable或(更理想地)高层同步工具。当然,在GUI编程中会有主动让出CPU的做法,比如调用sleep(0)来实现yield。

分享到:上一篇: 当析构函数遇到多线程──C++ 中线程安全的对象回调 下一篇: Linux 新增系统调用的启示 查看评论20楼 softarts -08-12 15:10发表 [回复] [引用] [举报] 补充,我指的是生产者thread突然间产生的高流量,而消费者thread的latency太大,导致queue被迅速挤满的情况,除开cond等待外,还有什么更好的办法,比如你认为TBB里的"pause"+backoff如何? 19楼 softarts -08-12 14:57发表 [回复] [引用] [举报] lz能展开讲讲线程间通信的queue吗?比如说,有哪些实现?,是mutex,cond和container的组合?还是一些利用原子操作实现lockfree的SRSW的queue,或者是TBB里的那些,或者用inhouse的.还有一个问题是如何解决high latency的问题,cond+mutex+container的latency相当高,不知道lz如何解决? 这等好文,怎能不顶! 17楼 dfasri -04-27 13:28发表 [回复] [引用] [举报] 服务器多线程编写的重点, 是对服务器资源的划分, 其他的同步变量, 是根据资源的划分进行制定的. 盲目采用原子量只会导致效率低下. 甚至做出貌似是多线程, 但实际上根本就没有多线程处理的情况出现, 因为一个线程正在占用原子量, 其他所有线程都在等待...那还倒不如单线程操作算了. 16楼 linyt -03-13 10:58发表 [回复] [引用] [举报] 博主谈到condition最好只跟一个mutex绑定。 这是对的,因为pthread_cond_wait手册上的谈到,如果pthread_cond_wait和多个mutex绑定,那它的行定是未定义的。 11楼 solo_coder -05-30 12:59发表 [回复] [引用] [举报] 楼主写的很好,解除了我不少疑惑。

mutex的trylock很有用啊,我用到的场合有 :

* 次要的申请资源的地方 ----- 能获得资源就处理,没获得资源也关系不大的场合

* 自己包裹了下trylock,使用它来实现了可以设置超时时间的trylock,也挺好用的。 10楼 linyt -05-09 14:42发表 [回复] [引用] [举报] 拜读了你的文章,有如醍醐灌顶。有几个问想你向请求一下。

1。你文中提及的内容。

这有可能出现两个问题(感谢水木网友 ilovecpp 提出):a) 误用了加锁版本,死锁了。b) 误用了不加锁版本,数据损坏了。

对于 a),仿造前面的办法能比较容易地排错。对于 b),如果 pthreads 提供 isLocked() 就好办,可以写成:

void postWithLockHold(const Foo&amp; f)

{

assert(mutex.isLocked()); // 目前只是一个愿望

// ...

}

这个assert是为了防止调用者没有加锁而设的前置条件。

1). 调用者在调用该函数前已加锁,因此进入该函数时断言为真,可以正确工作。

2).调用者在调用该函数前没有加锁,但另一线程此时已锁住该锁了。该断言是真还是假呢? 如果是真的话,那么逻辑上不能处理误用不加锁版本函数的情况吧?

2. 我在Linux下开发都是使用C语言,没有使用C++语言。这意味着我是不是要使用第三方库提供的高层次的“锁或线程安全”构件来进行编程,还是直接使用基本的primitives即可,还请指点一二。

3. 题外话,你文章谈及的Singleton, 使用pthread_once来实现,以避免DCL问题。其实两者在逻辑是想当一致的,即只处new/execute一次,那么早期的pthread_once实现会不会同样存在DCL的问题呢? 9楼 amyeric -04-20 22:06发表 [回复] [引用] [举报] 8楼 comefromxian -03-31 12:07发表 [回复] [引用] [举报] UNIX编程艺术中提到在类UNIX环境中非万不得已不要用多线程,

我是手机行当的,就我所见的代码,类unix下似乎多线程用的并不多见,高通宁愿非常麻烦的用共享内存。但老实说,我自己并未体会到为何unix下的多线程不好,陈工能解释一下吗? Re: Solstice -03-31 22:07发表 [回复] [引用] [举报] 回复 comefromxian:抱歉,我没看明白,你要我解释什么? 7楼 gagagaga1234 -03-19 22:21发表 [回复] [引用] [举报] 陈老师,您能否会出正确使用DCL的c++方法,我在看了您关于的DCL可能因乱序而出错的介绍后,试图在网上找到关于使用C++写DCL的方法,不得要领 Re: Solstice -03-19 22:25发表 [回复] [引用] [举报] 回复 gagagaga1234:用 pthread_once 即可。或者按 /Papers/DDJ_Jul_Aug__revised.pdf 里的做法,用 memory barrier。 54楼 yeyuboy -02-26 19:59发表 [回复] [引用] [举报] 感觉queue(msgqueue,taskqueue)是多线程并发服务器开发的根本技术,由大量线程安全的queue组成系统的交通枢纽,在很大程度上简化了多线程服务器的开发,同时又不失效率。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。