DMEL第23问：评估如何更加有用？——SRI对公益项目评估的思考-公益学院宁波公益网

猴子发表于 2014-4-5 09:32:09

DMEL第23问：评估如何更加有用？——SRI对公益项目评估的思考

　　此文根据3月12日我在香港中文大学的分享整理而成，为阅读方便，文字做了大量修订。感谢香港中文大学公民社会研究中心和香港社会影响力分析学会的邀请，让我有机会对一直以来的思考进行一种简洁化的梳理。
　　社会资源研究所2009年开始做公益项目评估，至今已经五年时间。我们曾经给福特基金会、南都基金会、英特尔、资生堂、新公民计划、百特教育、富平学校等基金会、企业和NGO做过评估，涉及教育、农村发展、环保、NGO发展等四个领域。五年的时间，我们充分意识到评估是一门专业性很强的应用学科，它不仅有内在自成体系的学术规范，而且由于公益项目的多样性和复杂性，它又必须适应变化万千的真实世界，必须对实践有用。经验告诉我们，评估的难点不在技术，而在应用。
　　SRI评估业务的发展历程，某种程度上就是我们探索如何让评估更加有用的过程。我今天借用这个机会，将我们的一些思考过程分享给大家。为了便于理解，我采用了一种特殊的顺序来组织分享内容，SRI的评估并不完全是按照这个顺序演进的。真实世界中，各种事物总是交织交错进行，逻辑和顺序是后人的阐释，理解这一点对于理解评估的作用非常重要。
　　基本逻辑　　说起公益项目评估，人们首先会想到“项目有没有效果”，“目标人群发生了什么变化”。为了解答这些问题，评估需要界定项目预期和非预期的成果，然后设置指标，在项目开始时收集数据形成基线，在项目结束或结束一段时间之后收集数据形成末线，两相对比就是发生在目标人群身上的变化。

　　这就是“成果评估”的基本逻辑。在这里，我使用量化图，只是为了形象表达，其实指标可以定量也可以定性。定量和定性各有优缺点，好的评估往往要综合使用这两种指标。现在很多公益组织在心理上倾向于定量，在操作上倾向于定性，他们觉得定量更科学但更难操作，但实际上都不尽然。定性不一定不科学，也不一定更好操作。这种误解是把定性方法和讲故事混淆了。
　　成果未必都是由项目带来的，还可能有其它因素在影响。这些因素大致可以分为四类。一、自然演进，比如儿童阅读能力会随着年龄长大自然提高;二、外部因素，比如宏观政策环境，或者其它公益项目;三、自驱力，有些人主动性高，善于抓住机会，他们因为自驱力高而参与公益项目，其成长和变化很可能不是因为项目，而是他们的自驱力本身;四、关注，很多社会研究已经证明，“关注”本身就可能带来变化。
　　严谨分析公益项目的真正价值，必须扣除这些因素的干扰。评估所采用的办法就是找到一个在结构和趋势两个方面都“长得很像”的对照组，将干预组的变化减去对照组的变化，可以理解为项目所带来的纯影响。

　　这就是“影响评估”的基本逻辑。在这里，我使用的是一个比较狭义的定义来界定影响评估。很多时候，人们笼统地把产出、成果甚至过程评估都归为影响评估，或者把对长期成果的评估理解为影响评估。而我这里说的影响评估，指的是纯由项目带来的扣除掉其它因素的成果评估。
　　影响评估的极致方法是(准)随机控制实验，它被称为评估的“黄金标准”。它用大样本随机抽样的方法来设定对照组，并以此来测量社会项目的纯影响。随机控制实验，要求项目比较稳定而且不宜拥有过多目标，评估费用也比较高。目前，它一般用于大型的社会干预，某些国家在推出某项政策之前，常常会要求先期进行随机控制实验的评估。现在，这种方法在公益项目评估中的应用并不多。
　　上述评估逻辑是项目评估方法论的基础，其它各类评估方法不论如何变形，大多都不能完全脱开它们的影子。SRI所做的大多数评估也属于成果评估和影响评估的范畴。我们日常的大部分工作就是界定成果，设计指标，选定对照组，基线调研，末线调研，对比分析，得出评估结论，遵循的正是这样一种逻辑。
　　两个问题　　然而，在实际评估过程中，我们很快就发现这种评估逻辑的问题。
　　首先，它可以解答项目“有没有效”的问题，但却不能解答“为什么有效/无效”的问题。
　　依据上述逻辑开展工作，作为第三方评估机构，我们甚至可以不用去弄明白项目是怎么回事，可以不需要关心项目的设计和过程，项目完全可以被当成黑箱来看待。

　　这种评估有点像考试。每到学期结束的时候，学校依据考试的分数来评估学生的学习成果。考试其实就是一种评估方式。通过考试，我们可以知道哪些同学成绩好，哪些同学成绩不好。但是，我们却无法知道成绩好的同学做对了什么，也无法知道他们有哪些值得其他同学借鉴的地方。
　　所以，这种评估主要是给项目执行团队之外的人看的，比如投资方(基金会)或公众。它起到的主要是问责的作用。有些公益组织项目做得不错，他们也希望评估，主要目的是证明项目的效果，借此来增加筹款说服力，说到底也是给出资方看的。项目执行团队很少认真阅读这样的评估报告，因为他们更关心项目怎么更加有效，而不是项目有没有效。一个主要探究项目有没有效的评估，对项目执行团队而言，就像一场考试。到现在，我还没遇到过一个喜欢考试的人。
　　其次，它要求项目的目标相对清晰而且稳定，只有这样，评估者才能开发出指标，也才能调研基线末线，然后进行对比。在现实中，很多公益项目的目标是非常模糊宽泛的，比如“培养世界公民”、“提高教育质量”、“健康快乐的成长”等等。大部分项目的目标很难符合评估师心目中的SMART原则。传统的思维，这类项目是很难评估的，没有清晰的目标，没有适当的靶子和参照物，评估师不知道拿什么尺子去量。因此，评估界发明了 “预评估”，专门用来判断项目是否具备了评估的条件。预评估考察的最主要工作，就是判断项目的目标是否清晰稳定。
　　一家合作伙伴的负责人曾和我们说，“如果有了目标，那么目标就实现了一半”。实际上，制定出好的目标是很困难的事情。只不过拥有一个大致的方向和模糊的目标，是众多公益组织和项目的常态，也是评估必须面对的现实。
　　反诸于己，我们经常讲个人也要有发展目标，然而真正拥有一个符合所谓SMART原则的目标的又有几人呢?不仅大家如此，众评估从业者们也是如此。己所不欲，勿施于人，我们凭什么要求被评估机构拥有一个SMART的目标呢?
　　三处改进　　为了解决上述两个问题，SRI在评估流程上向前向后都多走了一步。

　　往前延伸：在评估调研之前，我们邀请项目的资助方、执行方、合作伙伴、受益人等召开一次半天到一天的参与式工作坊，我们协作利益相关方梳理以下问题：
　　项目针对什么人群的什么问题?
　　项目希望目标人群实现什么变化?
　　实现上述变化的路径和方法是什么?
　　看到什么情景，我们认为项目成功了?
　　可以看得出来，工作坊是为了解决项目“目标”和“指标”的问题。在我们过往的工作经历中，这个工作坊也往往是利益相关方第一次坐下来对上述这些我们认为十分重要的问题进行讨论。我们协助大家把不同的想法汇集到一个公开的平台中，相互讨论，交换意见。通过这项工作，虽然我们也常常无法得出SMART的目标和指标，但已经前进了一大步。
　　往后延伸：我们在评估报告完成后，和利益相关方一起召开一次评估发现讨论会。如果资助方和执行方足够开放，我们甚至还会邀请同行机构参加。在这个讨论会上，大家往往会对评估发现进行不同的解读，对项目计划也会有不同的想法出来，这些都可以帮助执行机构开拓思路。
　　第三个改进即把项目的黑箱打开。作为评估者，我们往往需要回到项目的源头，使用变革理论或逻辑框架的方法，对项目的需求、设计、活动和执行过程进行梳理。我们需要了解项目活动与目标之间的关系，以及不同活动的创新性和一致性，以便找出项目活动与项目成效之间的关系。在评估领域，人们经常讲，在设计阶段就要加入评估，其含义并不仅是指项目设计时要做监测评估计划，而且是指评估视角可以帮助更好地设计项目。评估对问题、目标、成功指标的深挖和追究，可以帮助深入思考项目的逻辑。从本质上说，评估思维和设计思维是相通的。

　　加入上述三个要素之后，评估的作用明显有所加强。目标和指标更清晰了，参与式的方式也加强了众多利益相关方对项目的归属感。打开项目的黑箱，我们收集到利益相关方的反馈，再经由评估师的推理以及他们看过众多类似项目的经验，就可以为项目的改进提一些建设性的意见了。
　　评估要面向未来，面向决策　　然而，我们仍然感觉很不足够。上述修改和调整，只是对“基于目标的评估”的修缮，工作比以前做得更细致深入而已，还称不上“颠覆式的创新”。它还没有走出要做判断的窠臼，它的着眼点还是过去，关心的更多是过去的项目做得怎么样。如果我们的眼睛只盯着过去看，心里默默期待评估能够为未来所用，这是很不现实的。如果我们要让评估被用起来，可以为未来的决策所用，我们必须颠覆评估的思维，建立一种真正面向未来决策应用的评估。

　　面向未来的评估，需要放在真实应用情景中，它需要事先界定清楚：
　　评估的使用者是谁?
　　使用者需要依据评估做出什么决策或调整?
　　在做这些决策时，使用者要考虑哪些因素?
　　这些决策会影响到谁的权益和利益?
　　对未来没用的评估是不值得做的。在一次评估合作中，我们问合伙伙伴，“如果发现了某某问题，你们会怎么办?”他们说，“说实话，我们必须接受这个问题，我们无能为力”。那么，这基本就意味着，关于这个问题的评估，不应该是该次评估的重点。
　　现在，我们已经进入到对传统评估逻辑的颠覆环节了。2012年，我们接触到了Michael Patton的UFE(聚焦于应用的评估)理念。Michael Patton曾任美国评估协会主席，他撰写的Utilization-Focused Evaluation一书已经出到第四版，是美国评估领域的经典著作。我们现在就在用这种理念来指导我们的评估工作。
　　基于UFE的内容，我理解评估具体有五种用途。在这里，我简要介绍一下这五种用途及其关注的评估问题。

　　在上述五种用途的评估中，“总结判断型评估”使用的是我刚开始所讲的评估逻辑，它一般要求严谨规范的评估报告。其它评估则可能会有很大的变型，评估为使用者的决策服务，很多时候，决策并不一定需要设定指标，也并不一定需要对比。“监测型评估”、“改进型评估”和“发展型评估”甚至都不一定需要规范的评估报告，而“知识生产型”评估则可以看做一种社会研究。“总结判断型”和“知识生产型”评估对调研的科学性和规范性要求很高，而其它类型的评估则只要“够用”就好，他们更强调在不必过分精确的信息上做出重要的决策。
　　总体上讲，面向应用的评估大大拓展了评估的疆域。
　　DMEL让评估内化　　在我们开展第三方评估同时，我们充分意识到，第三方评估对于很多公益机构来说是一种偶然行为，它对提升机构和项目有效性的作用是有限的。公益机构需要一种机制，可以贯穿项目设计和执行的各个环节，可以帮助项目团队站在项目活动之外来反思项目，帮助机构从项目中抽象出策略和战略，从而真正实现从“做项目”到“提供社会问题解决方案”的跃迁。
　　这种机制不应该在机构之外，而应该在机构之内，应该融合在每一位项目官员的日常工作之中。基于这种理解，我们开始本土化开发一种我们称之为DMEL的体系。

　　DMEL体系脱胎于国际发展领域的项目周期管理方法，我们尝试在其中融合社会创新的设计思维以及发展型评估的理念。类似的方法在一些较为成熟的国际机构比较常见，像国际美慈、国际小母牛、世界宣明会等都有相应的职能。中国的基金会和NGO还很少在用。我们2013年开始DMEL的试验，做过一系列公开和内部培训，并对一些教育公益机构提供内部DMEL体系方面的辅导，初步效果还不错。
　　我们认为DMEL作为一种思维与方法体系，对于公益机构的有效性极为关键。公益组织过于拘泥于项目活动，在分析社会问题、定义项目价值、反思项目策略、改进与提炼项目战略方面所花的时间太少，相应的能力也比较欠缺，这已经成为公益组织发展的重要制约。
　　我们并不是在推销一种工具或者所谓科学的方法，而是要推销一种“思维”和“精神”，方法和工具并不重要，严谨不严谨也不重要，重要的是我们在什么思路下工作。正确的思路可以指引我们最终走向有效的公益。这种精神就是“绩效精神”或者称之为“社会影响”精神。
　　我们要不断扪心自问：“我们在为谁服务”，“我们在应对什么问题”，“我们希望带来什么变化”，“怎样算项目成功”，“我们可以做得更好吗”、“我们是否建立了一种机制可以让成效在项目结束后延续”，“为了更好的成效，我们需要做出哪些关键决策”，“我们在组织、资源、能力、流程方面需要提供哪些支持来推动改变”……
　　对这些问题的回答，即评估是也!
　　作者：李志艳来源：社会资源研究所

页: [1]

宁波公益网's Archiver

DMEL第23问：评估如何更加有用？——SRI对公益项目评估的思考