Goodhart's Law [ 英文維基百科/ 百度百科] 說: 當一個評量指標被當成目標來追逐時, 它就不再是個好的指標。
臺灣警界以破案率來評量警局的績效, 甚至拿這個數字來作為獎懲依據, 結果造成基層警員吃案或灌水, 而破案率失去了意義。 [1、 2]
對即將升高中的國中生而言, 服務學習的時數是超額比序的重要指標; 於是在某些縣市, 大家都拼到滿級分, 那這個比序還有意義嗎?
在大學裡, 論文點數是評量教授成就、 據以決定升等及獎補助的重要評量指標。 但是當教授們因而以各種合法 (甚至少數人以非法、 傷害國家聲譽) 的平凡或奇特手段來取巧衝高點數時, 它還是一個好的指標嗎?
Goodhart's Law 並不是臺灣特有的現象。 美國的教育界也充斥著各種怪象: 「校方對申請人數灌水以降低錄取率」 (顯得本校很難進、 很尊貴)、 「要求入學生報上所有 ACT/SAT 考試成績但只拿最高分來統計」、 ... [ Education and Goodhart’s Law] 在這樣的情況下, 民眾繼續用錄取率或入學學生的 ACT/SAT 平均分數來評量大學, 還會是一個很好的指標嗎?
[8/31 補充] 當然不要忘了: 「企業管理、 量化績效」 思維經營教育, 美國 NCLB 法案孕育出老師集體作弊醜聞事件。
測量救護人員接到電話後的反應時間可以是評估服務水準的一個指標, 所以英國設定了 「救護人員要在八分鐘內趕到現場」 的目標。 有些醫療院所發展出對策: 先派遣 (救護能力不足的) 快速回應車輛 (RRV) 來滿足時間要求, 救護車再隨後趕來。 有時這滿足了時效業績, 卻跟拯救病人的目標抵觸。 這樣, 時效還會是評斷服務水準一個好的指標嗎? [ Treating the Clock and not the Patient]
這個時代, 「請客戶填問卷」 幾乎已經變成任何企業的服務部門的例行公事, 因為這是評量客戶滿意度的指標。 但是當企業把問卷結果跟客服人員的表現獎懲掛勾時, 它就不再能夠忠實地反應客戶的滿意度, 甚至具有負面的效果 -- 因為客服人員會請客戶一定要填滿分; 至於客人對於公司其他面向的不滿 (例如等候時間太久、 轉錯客服人員) 則更進不了高層的耳朵。 [ Customer Feedback Surveys Considered Harmful]
GDP (國內生產毛額) 的高低曾經是評價一個國家或執政黨成功與否的指標; 不過因為各國政府努力拼經濟, 政策圍繞著提升 GDP 而非人民福祉旋轉, 結果讓 GDB 失去了指標價值, 甚至 淪為一種戀物癖, 而失去了它度量國民生活水準的意義。 也請搜尋 「gdp well being」。
這篇的意思並不是主張要放棄所有的度量數值/績效指標。 管理階層當然需要有一些數字來作為決策的參考, 這些數字或可幫助訂定策略, 改善員工的環境、 改變企業的文化, 進而改進整體的績效、 提升企業的價值。 但是當管理階層不從 (只有管理階層有施力點的) 宏觀角度思考, 而是天真地認為整體績效僅取決於基層員工的努力, 又誤信金錢誘因可以有效地讓員工更努力 (拼指標? 還是提升公司價值?) 於是把某個 (即使納入很多面向的) 度量數值 (measures) 直接拿來當作獎懲員工用的評量指標 (metrics) 時, 那就是一個很危險、 有問題、 需要被挑戰的決策了。 The Importance of Goodhart's Law 列出一些可能的對策; 當然執行起來也都有困難度。 Goodhart’s Law and Why Measurement is Hard 從直覺、 信任、 複雜三個面向分析, 並舉例說明降低維度、 去除因果關係、 具體化謬誤 所造成的後果, 來闡釋 Goodhart's Law 現象。 決策者身旁的顧問們請幫你們的長官摘要一下吧。 裡面有好多有趣的連結我沒讀; 只看了一個 諷剌漫畫。 [2024/10/10] 用機器學習裡面的 overfitting 來理解 goodhart's law。
即使沒有辦法全面處理、 解決 Goodhart's Law 所造成的挑戰, 光是知道這個現象, 就已經很有幫助。 決策高層應該要了解: 把一個 「幫助觀察績效用的度量數值」 轉化成為 「獎懲用的評量指標」 會讓它變質。 如果原始目的是想要對那些 「需要創意的工作」 提供一些誘因, 那很簡單: 請看 「叫人意想不到的激勵科學」 TED 演講: 直接取消獎懲就對了。 (只有十八分鐘, 淺顯易懂, 忙碌的決策者也能看的。) 如果是其他情況, 那麼至少應該讓這個指標從 「決定」 退位至 「參考」, 並且加入其他考量因素 -- 例如開會討論。 被評量的人應該大聲地談 Goodhart's Law, 告訴社會大眾它在你的領域製造出什麼扭曲的現象。 這並不是為了洩憤, 而是為了搖醒決策高層, 更為了讓其他領域的人在遇到類似現象時, 有更多的參考案例可以討論。 (如果你寫了相關文章, 歡迎在底下分享連結。) 最終, 當整個社會的多數人都知道這個現象時, 或許在那些不得不採用度量數值作為獎懲指標的場合, 它的負面影響也將不再那麼嚴重。 因為如果連外行旁觀者都知道這個現象, 那麼那些鑽系統漏洞、 玩弄數字績效的手段不只難以奏效, 甚至可能會自曝其短。 (我直覺地猜測: 在不同國家、 不同文化裡, Goodhart's Law 現象的程度可能有很大的差異 -- 台灣與中國、印度被列為 「爭議論文高比例國家」 或許並不只是單一面向的特例, 或許在其他面向也有跡可循?)
反過來說, 當你在職場上遇到並且向高層解釋 Goodhart's Law 現象, 但高層卻聽不進去時, 至少現在你更有信心地知道: 有問題的人不是你, 而是無法理解 Goodhart's Law 的高層, 和他們錯誤決策所造就的 「追逐手段, 忘記目標」 企業/學校文化。 於是也許你可以像我一樣更大膽地決定: 在對得起良心、 保得住飯碗的前提之下, 我的生命要花在其他更有意義、 更有趣的事物上。 (我才不想被制約, 把自己的生命縮小成驗證 Goodhart's Law 的一筆數據; 我寫這篇部落格對我的升等/薪水/計畫申請都沒有幫助, 但我還是很認真啊 ^_^)
(本文也刊載於 關鍵評論)
同樣的道理, 部落格的留言數和點閱率是有參考價值, 但不需要過度在意, 只需要當衡量依據之一就行了.
回覆刪除受教了。維基連結應該是https://en.wikipedia.org/wiki/Goodhart%27s_law
回覆刪除http://www.solidot.org/story?sid=51465
回覆刪除官方统计数字显示,辽宁 2016 年 GDP 暴跌 23%,显示出中国官员此前对困境中的铁锈工业带的经济表现的夸大程度。分析师表示,这一下滑不仅反映了真实经济所处的状态,也是官方去除此前虚报影响的结果。中国工业产能过剩的问题,已导致工厂债务违约、产量的削减、以及对数百万煤炭和钢铁产业工人有计划的裁员。所有这些都已伤及辽宁省依赖钢铁的地方经济。去年 4 月,该省成为七年内中国首个录得季度负增长的省份。上个月,辽宁省省长曾向官媒承认,2011 年至 2014 年期间该省财政收入被虚报了至少 20%。他的爆料令经济学家对中国官方出于政治目的而操纵经济数据的怀疑增添了可信度。中国各地方长官都被安排了需要完成的增长目标,不过最近中国政府已试图转而采取涵盖更广的业绩指标。如今,辽宁省录得 GDP 的暴跌,为增长较快省份的官员带来了压力,迫使他们提高产出数据以弥补差距,从而完成今年 6.5% 的全国增长目标。
小王子第四章:『大人們喜歡數字。「我看見一間用玫瑰色紅磚蓋成的房子,窗裡有天竺葵,屋頂上有鴿子......」他們無法得知這間房子有多美。你該告訴他們:「那是一間值十萬法郎的房子。」然後他們才叫道:「多麼美的房子呀!」』
回覆刪除有趣的文章:用機器學習裡面的 overfitting 來理解 goodhart's law。 「過度追逐數字績效,忘記初衷」 https://www.plurk.com/p/3ge6d4mtm9
回覆刪除