商品簡介
●日本AMAZON暢銷書,讀者4.5顆星好評
●以圖表為主、數式為輔,透過簡明易懂的方式,解說隨機對照試驗(RCT)、RD設計(不連續迴歸設計)、堆集分析、縱橫資料分析等最先進有效的手法!
●芝加哥大學哈里斯公共政策研究學院副教授伊藤公一朗親自撰寫,為想瞭解、分析大數據之人必備專業書籍
大數據+人的判斷力=發掘真相!
本書為資料分析入門書,聚焦於「廣告對業績有影響嗎?」、「實施某政策真能帶來良好影響嗎?」這類因果關係分析。序章使用各種實例,解說釐清因果關係為什麼是生意或政策的成功關鍵。第2章起不使用數學表達式,僅運用具體事例及視覺化的描寫,介紹隨機對照試驗、RD設計、縱橫資料分析等,可探究因果關係、最先進的資料分析手法。不使用數學表達式,僅透過簡明易懂的方式,解說隨機對照試驗(RCT)、RD設計(不連續迴歸設計)、堆集分析、縱橫資料分析等最先進有效的手法!
【本書介紹的主要具體事例】
.前美國總統歐巴馬於2012年總統大選時,因正確釐清競選廣告策略的因果關係,募得多達72億日圓的選舉資金。
.Google顯示的藍字,用的是透過因果分析實驗,從「41種藍色」中選出的最佳藍色。
.標示含稅價後,超市業績減少8%?
.Uber如何運用資料分析,調整最合適的費用?
.無償提供筆記型電腦,孩童的成績就會變好嗎?
.「節電請求」真能促進節電嗎?
.醫療費用的自負額降低,會使看病人數暴增嗎?
.汽車的油耗規定,真能提升燃油效率嗎?
.提高所得稅會使人們不想工作嗎?會使人們移居到稅金較低的國家嗎?
.廣發補助金的景氣刺激政策,真的有效果嗎?
作者簡介
芝加哥大學哈里斯公共政策研究學院副教授。一九八二年出生於宮城縣。京都大學經濟學院畢業,加州大學柏克萊分校博士課程修畢(Ph.D.)。曾任史丹佛大學經濟政策研究院研究員、波士頓大學商學院副教授,二○一五年起從事現職。專攻環境能源經濟學、產業組織理論、應用計量經濟學。目前在芝加哥大學進行環境政策、能源政策的實證研究,同時也向研究生講授資料分析的理論與應用。
序
處處講求資料分析的時代
隨著以大數據(Big Data)為代表的資訊科技持續發展,各種有關生活及商業的資料皆記錄保存下來,人們變得更容易取得大量資料。這種現象對我們的生活帶來什麼改變呢?
資訊傳播革命帶來的其中一個大變化就是,以往只有特定的專業人士必須具備資料分析能力,如今各行各業都開始要求這項能力。
舉民間企業為例。
業務部或行銷部經常能聽到這樣的對話:
「我想知道下一期該採用何種廣告策略才能提升業績,你可以幫我調查打過廣告的商品業績資料,分析廣告對業績的影響嗎?」
人事部也不時能聽到這樣的對話:
「我想知道該用什麼方法才能提升員工的工作效率。只要觀察員工的內勤工作時間、外勤工作時間及銷售成績等資料,就能明白勞動時間對銷售成績有何影響吧?」
其實,不只民間企業產生這種變化。在行政機關或學校這類非營利組織任職的人,接觸到的資料同樣比過去還多,而且更常需要分析資料,或是利用別人的資料分析結果。
舉例來說,自從日本導入事業分類(譯註:針對國家與地方政府的事業進行公開討論,判斷該事業是否有其必要、該由誰負責、預算有無浪費之手法)後,行政機關就經常進行這樣的討論:
「我們需要分析去年實施的補助金政策成效,並向財務省報告。領取補助金的企業資料應該都有蒐集起來。只要經過分析,就能得知補助金的成效吧?」
同樣的,學校之類的教育現場,近來也開始注重教學評鑑或教育成效評鑑,因此經常進行這樣的討論:
「為了得知之前使用的教材何者較具成效,我們就蒐集學生的理解程度資料進行分析吧?」
文科與理科都必須具備的分析力
從前大家都認為,資料分析屬於對數字敏感的理科專業領域。不過,在今後的時代,無論你從事理科或文科方面的工作、處於何種立場,都必須具備資料分析能力。
光看前面的例子就知道,運用資料分析的人不只技術員及科學家而已。文科人今後也會越來越常遇到必須分析資料的狀況。
此外,如同前述,在職場上即便你不是負責分析資料的那個人,依據「某人的資料分析」做出重要決策的機會同樣越來越多。因此,就算你不是分析負責人,一樣需要鑑別資料分析結果的能力「以免被某人的資料分析欺騙」。
大數據時代下不可或缺的分析力
儘管社會出現這樣的變化,仍有許多人不熟悉「資料分析」這個概念。日本的小學至高中都有數理科目,但我們的學校教育卻鮮少教導「資料分析」之概念。
近年來出現一種論調,認為大數據提供許多資料,可解決一切問題。其實,人的判斷對資料的處理、分析、解釋具有非常重要的作用,這點從本書的內容就能窺知一二。
最近商業界――特別是IT業――越來越重視分析力(Analytics),並且認為光有大數據依舊很難進行實務改善,剖析大數據使之可用於商場決策才重要。
尤其在本書聚焦的「釐清因果關係」這點上,就算增加資料量也無法根本解決問題,因此我們必須具備解析資料的能力。
資料分析的原則與壽司師傅的工作有共通之處
資料分析的重要原則,與壽司師傅的工作有共通之處。據說要做出好吃的壽司,至少必須注意3個重點。
第1個重點是,採購優質食材。第2個重點是,具備能發揮食材美味的刀工。即便有了優質食材,如果料理者缺乏技能,不知道該從哪個角度切下食材,品嘗時就吃不出食材的美味。第3個重點則是,能否提供眼前顧客所要求的味道或餐點。
題外話,筆者目前住在美國,當地雖然找得到選用優質食材的壽司店,但要找到「刀工好到能發揮食材美味的師傅」,或是「餐點符合日本人口味的師傅」就不容易了。
資料分析也可說是一樣的情況。
在資訊傳播革命的影響下,大多數的人都能更容易取得好資料(食材)。這是一件很棒的事。可是,如果沒學習思考方法,或缺乏「該從何種角度剖析資料」之判斷力,分析時就無法發揮好不容易取得的資料之價值。
此外,就算完美地分析資料,假如分析結果無法回答待解決的課題,便會面臨「分析結果明明很精彩,卻完全派不上用場」這種本末倒置的情況。
那麼具體而言,分析資料時,需要哪些觀念與技能呢?
如果能有一本專門解說這方面新知的入門書,應該能幫助許多人吧?這就是筆者撰寫本書的動機。
在經商與施策的各種場面上,釐清因果關係是決定成敗的關鍵
本書為資料分析入門書,聚焦於「廣告對業績有影響嗎?」、「實施某政策真能對社會帶來良好影響嗎?」這類因果關係的探究方法。為什麼要聚焦於因果關係呢?這是因為,在有關生意或政策的各種場面上,釐清因果關係對實務家而言非常重要。
舉例來說,前美國總統歐巴馬(Barack Obama)2012年競選總統時,就是因為確切釐清競選廣告策略的因果關係,才能再募到約6000萬美元(72億日圓)的政治獻金。IT企業Google則分析網站文字顏色與瀏覽人數的因果關係,藉此提升利潤。計程車業的生力軍Uber,也是藉由釐清價格與消費者行為的因果關係,找出可平衡司機人數與使用者人數的方法。
近來許多企業都懂得利用因果關係分析,找出最佳的商業策略,這種情況逐漸成為常態。
除此之外,認真分析因果關係,也可發現立意良善的政策反而造成意料之外的結果,抑或原本以為沒什麼效果的政策其實產生不小的成效。
舉例來說,日本政府為改善汽車燃油效率而實施的環保政策,其實反而促使汽車重量增加。美國政府為刺激景氣而實施的環保車政策,其實只是撒錢政策,無助於刺激景氣。另外,對青少年實施的犯罪預防教育,不但抑制犯罪的成效超乎預期,更令人意外的是,這對學業也有良好影響。
以上這些有關生意或政策的具體事例,只是本書介紹的資料分析運用事例的一部分。只要閱讀本書,便可透過各種有關生意或政策的具體事例,了解因果關係分析為何重要、為什麼不易分析,以及有什麼解決方法。
本書的目的與結構
本書不使用數學表達式,而是運用具體事例及視覺化的描寫,解說資料分析概念中最基本的「釐清因果關係的方法」。
當然,要成為資料分析專家,必須具備靈活運用深入的統計學知識與統計軟體的能力。不過,從事資料分析的實務工作與教育工作的筆者認為,學習入門知識,亦即「分析眼前的資料時必須注意什麼」時,不透過數學表達式理解,而是採「直覺式學習」也很重要。
因此,希望「學了統計學或計量經濟學,卻無法喜歡上這門學問」的人,也可以將本書當成課外讀物來閱讀。不如說,筆者撰寫本書的目的,就是希望你在看完之後,能夠覺得「原來資料分析這麼有趣呀。既然可以做到這些事,我就再多學一點更深入的知識吧」。
第1章要解說的是,從資料導出因果關係為什麼並不容易。前面所舉的業務部與行銷部的例子、人事部的例子、行政機關的例子與學校的例子,四者的共同點是:資料分析的最終目的,大多為釐清「某個行為(X)對結果(Y)造成何種影響?」之因果關係。
以行銷的例子來說,問題就是「廣告(X)對業績(Y)造成何種影響?」;以學校的例子來說,問題就是「教材(X)對學生的理解程度(Y)造成何種影響?」。第1章將針對「為何這個乍看之下十分簡單的問題,難以透過資料分析得到答案」,進行直覺式的解說。
第2章介紹的是,可百分之百解決「難以導出因果關係」之問題的最佳方法。在醫學與經濟學等學術領域,這個方法稱為RCT(Randomized Controlled Trial,隨機對照試驗),在商業領域則稱為A╱B測試。這在醫學領域是運用已久、很常見的手法,但在經濟學與商業領域則是直到最近才常被使用,可說是最新的手法。這個章節同樣採直覺式說明,不使用數學表達式。
倘若每次都能運用最佳方法RCT當然是最理想的,只可惜因為某些緣故,能夠運用RCT的機會很有限。
假如不能使用RCT,我們該如何導出因果關係、解決問題呢?
近年來,經濟學領域十分盛行這項研究。「自然實驗(Natural Experiment)」便是其中一種「善加利用猶如做過實驗的狀況」,可運用在各種場合上的手法。第3章至第5章便是解說,當我們無法使用RCT時,可以改用何種「自然實驗法」。
第3章介紹的方法是RD設計(Regression Discontinuity Design,不連續迴歸設計)。
這是一種只要善加利用世上的「界線」,即使無人進行實驗,依然能製造出「猶如做過實驗的狀態」之方法。這裡說的界線十分廣義,像地理上的界線、企業調整定價的分界點、可領政府補助金的年齡……等等,全都包含在內。因此,能夠運用這個方法分析資料的機會比想像中多。
第4章介紹的是,最近在經濟學研究的推廣下開始運用的手法「堆集分析(Bunching Analysis)」。
報酬或支款大多呈「階梯狀變化」,例如採累進稅率的所得稅、薪資結構、政府設置的規定值之變動、企業制定價格的方式……等等。只要善加利用這類階梯狀變化,同樣能製造出「猶如做過實驗的狀態」。
第5章介紹的是「縱橫資料分析(Panel Data Method)」,這種手法用於可取得數個期間的資料之情況。
我們的身邊有許多可每月或每年蒐集的資料,例如廣告支出、業績、職員的勞動時間、學生的成績……等等。此外,我們不只能蒐集個人或單一企業的這類資料,也能蒐集數人或數家企業的資料。第5章即是解說,如何利用「數個期間、數個對象的資料」分析因果關係。
那麼,實際在企業或公共機構任職的實務家,該如何將第2章至第5章介紹的資料分析手法,應用在實務決策上呢?
第6章即介紹許多國外的具體事例,並探討如何將資料分析,應用在商業策略或政策制定上。
本書畢竟是入門書,前6章省略了適合高階者閱讀的內容。本書介紹的方法論都是學術上最新的方法,在實務上也非常有用。不過,任何方法論都有弱點或缺點,了解這些弱點與缺點十分重要。因此,筆者將第7章訂為進階篇,解說資料分析的不完全性與極限。
假如第2章至第5章介紹的方法全都無法使用,我們該如何分析資料呢?目前經濟學領域仍持續研發,可用於這種狀況的分析手法(工具變數法、匹配法、合成對照群法、離散選擇法、結構估計法等)。可惜,這些手法必須借助數學表達式才能解釋清楚,本書就省略不談了。不過,筆者會在第8章介紹推薦書籍給想進一步學習的人。
本書是以2014年10月,筆者於波士頓日籍研究者交流會上演講的資料為基礎,添加筆者在芝加哥大學任職時的授課內容與研究內容而成。內容以方法論及具體應用事例為主,針對一般民眾解說「經濟學的實證分析」領域的其中一部分。說到經濟學,大多數的人應該會想到「利用數學表達式進行理論式分析的經濟理論」。不過近年來,經濟學領域除了研究經濟理論外,也很盛行研究「經濟學的實證分析」,也就是「使用資料,分析理論預測是否真在現實社會中發生」。如果你在看完本書介紹的資料分析具體事例後,能夠覺得「原來經濟學與經濟理論結合資料分析後這麼有意思」,筆者會很開心的。
2016年秋季 寫於芝加哥
伊藤公一朗
目次
前言
第1章 從資料導出因果關係為什麼並不容易?
例1:廣告使冰淇淋的業績增加了?
例2:調漲電價能促進節電嗎?
例3:出國留學比較容易找到工作?
難以證明因果關係的原因1:有可能是其他因素造成影響
難以證明因果關係的原因2:有可能為反向因果關係
因果關係不同於相關關係
社會上充斥著啟人疑竇的資料分析結果
為什麼誤判因果關係會出問題?
讓小孩開著燈睡覺就會近視?
只要蒐集資料,就能排除所有的其他因素嗎?
即使增加資料觀察數也無法解決偏誤問題
第2章 在現實世界「實際進行實驗」――隨機對照試驗(RCT)
因果關係可用「介入效果」定義
難以導出因果關係是因為「如果」的資料並不存在
解決辦法就是介入組與比較組之概念
分組方式的壞例子:應要求予以介入(自行選擇)
最好的解決辦法就是「隨機對照試驗(RCT)」
為什麼隨機分組是關鍵?
RCT的具體事例1:北九州市的電價實地實驗
若採隨機分組,兩者的各項因素實際上是相等的
實驗結果:調漲電價真能促進節電嗎?
RCT的優點之一就是分析與結果具透明性
RCT的具體事例2:前美國總統歐巴馬競選活動的行銷策略
RCT的鐵則1:妥善建立群組
RCT的鐵則2:一定要隨機分組
RCT的鐵則3:各組的樣本數必須充足
歐巴馬陣營的實驗結果如何?
RCT的具體事例3:電力不足能靠道德解決嗎?價格政策有效嗎?
短期來看,道德政策與價格政策皆有效果
效果的持續性如何?
實際上該如何進行「隨機分組」?
RCT的優點與弱點
第3章 善加利用「界線」的RD設計
如果無法使用RCT該怎麼辦?介紹「自然實驗」手法
RD設計入門:以日本的醫療支出問題為例
著眼於醫療費用自負額變動之「界線」的分析手法
為什麼患者人數在70歲之「界線」上不連續地增加?
自負額從3成減少為1成後,門診患者人數增加10%左右
RD設計需要的假設
從醫療費用自負額的分析來看,RD設計的假設有可能成立嗎?
運用RD設計時分析者該做的事:檢驗其他因素是否在界線上發生不連續的跳躍
什麼情況會使RD設計的假設不成立?
RD設計是在界線附近製造近似RCT的狀況
RD設計有什麼弱點?
RD設計有什麼優點?
只因隔著1條界線,南北電價就大不相同?利用地理界線的RD設計
在「地理界線上」RD設計的假設成立嗎?
運用RD設計時,檢驗能否主張「針對某對象的因果關係」十分重要
第4章 善加利用「階梯狀變化」的堆集分析
汽車越大臺,油耗規定越寬鬆?
著眼於誘因呈階梯狀變化的日本油耗政策
只要繪製直方圖就能釐清企業行為
堆集分析與RD設計的差異
堆集分析的基本概念
堆集分析的假設
堆集分析的結果:油耗規定導致重量平均增加了110kg
堆集分析的優點和弱點是什麼?
堆集分析的事例:所得稅的稅率會影響工作方式嗎?
第5章 運用「數個期間的資料」的縱橫資料分析
要不要移居到所得稅較低的國家?所得稅與移民行動的因果關係分析
運用丹麥個人納稅資料的研究
縱橫資料分析的概念
縱橫資料分析需要的「平行趨勢假設」
關於平行趨勢假設,資料分析者可提供的2種資訊
何種情況會推翻平行趨勢假設?
縱橫資料分析的優點和弱點
縱橫資料分析的事例:撒錢實施景氣刺激政策只會增加搶購需求嗎?
第6章 實踐篇:如何將資料分析應用在經商或政策制定上?
矽谷平常都會運用RCT進行商業策略分析
美國聯邦政府內部推動的「循證政策制定」
評議會的使命
若要將資料分析應用在商業策略或政策制定上,關鍵是什麼?
成功關鍵1:與資料分析專家建立合作關係
成功關鍵2:開放資料
企業與資料分析者的夥伴關係事例1:加州大學、史丹佛大學與大型超市的合作
企業與資料分析者的夥伴關係事例2:加州大學與電力公司的合作
企業與資料分析者的夥伴關係事例3:芝加哥大學與Uber的合作
政府與資料分析者的夥伴關係事例1:芝加哥大學與芝加哥市的合作
政府與資料分析者的夥伴關係事例2:由經濟產業省資源能源廳主導的社會系統實證實驗
第7章 進階篇:了解資料分析的不完全性與極限
1 假如資料本身有問題,分析手法再出色也難以解決問題
2 分析結果的「外在效度」問題
3 「出版偏誤」與「夥伴關係偏誤」問題
4 介入存在「外溢效果」時的注意要點
5 存在一般均衡效果時的注意要點
第8章 給想進一步學習的人:參考書籍介紹
聚焦於計量經濟學實踐層面的日文入門書
讀完入門書後的中階書(經濟學院大學生程度)與高階書(研究所程度)
後記
引用文獻
數學附錄
書摘/試閱
第1章 從資料導出因果關係為什麼並不容易?
從資料導出因果關係為什麼那麼困難呢?
本章將使用3個具體例子說明這一點。
第1個例子,是以在企業任職者的觀點來看行銷策略。第2個例子,是以在公家機關任職者的觀點來看政策制定。第3個具體例子,則是從在教育機構任職者的觀點來思考。
例1:廣告使冰淇淋的業績增加了?
假設你在販售冰淇淋的企業任職,隸屬行銷部。目前公司正在研究,在網站上打廣告能否提升今年夏季的業績。上司想知道打廣告能增加多少業績,於是請你分析資料。
看了過去的資料後,你得知以下資訊:
你的公司曾在2010年,針對某項冰淇淋商品推出網路廣告。跟沒打廣告的2009年相比,2010年的業績增加40%。圖表1-1為資料走勢。從這張圖來看,業績似乎因廣告的影響而增加。於是,你向上司報告:
「如這張圖所示,分析之後可知,受到廣告的影響,2010年的業績比2009年多了40%。」
現在請想一想,為什麼你的結論有可能是錯的?原因可能是什麼呢?
這裡的問題是,能否從你的資料分析結果導出:
「推出廣告↓業績因廣告的影響而增加40%」
也就是廣告與業績的因果關係(英文稱為Causal Relationship或Causality)。
那麼,假如2010年的夏季比2009年的夏季還熱呢?
實際上,2009年日本的夏季較為涼爽,2010年的夏季則十分炎熱。如果業績在這種情況下增加了4成,就有可能不是受到廣告的影響,單純是因為氣溫變高,促使消費者想吃冰吧?
除此之外還有其他可能的原因。
舉例來說,自從2008年爆發全球金融危機以後,日本就面臨消費低迷的情況,但從2010年起消費便逐漸回溫。如果業績在這種情況下增加了4成,就有可能不是廣告的成效,單純是因為整體經濟好轉,消費者終於願意打開荷包吧?
從資料來看,廣告量在2010年變多,與此同時冰淇淋的業績也增加了。我們究竟能不能根據這項分析結果,主張「廣告帶動了冰淇淋的業績」之因果關係呢?
例2:調漲電價能促進節電嗎?
第2個例子,我們來看實施政策的政策負責人所抱持的課題。
假設你是經濟產業省的職員,正在研擬明年夏季的節電對策。本次的專案目的,是向上司報告調漲電價能帶來多少節電效果。於是,你蒐集過去的電價與用電量資料。
看過資料後,你得知以下資訊:
日本某地區於2012年調漲電價。假設2008年電價每單位20日圓,到了2012年調漲為25日圓。再看用電量資料,跟2008年相比,2012年的電力使用量每小時下降5kWh(註:kWh即「度」,為電力使用量之單位。日本夏季的家庭平均用電量,每小時約20kWh)。於是,你向上司報告:
「從圖表1-2就能看出,電價增加5日圓後,用電量下降了5kWh。因此,只要調漲電價,應該就能收到不小的節電效果。」
現在請想一想,為什麼你的結論有可能是錯的?原因可能是什麼呢?
前述的分析認為電價對用電量造成影響,不過除了電價之外,應該還能想到其他因素吧?
舉例來說,有可能因為2012年的夏季較為涼爽,減少了使用冷氣的機會。又或者,可能是因為2011年發生東日本大地震,促使消費者的節電意識高漲。所以,這裡的問題跟廣告與冰淇淋的例子一樣,我們無法根據這項分析結果,判定「調整電價,就能改變電力使用量」之因果關係。
從資料來看,電價在2012年調漲,與此同時用電量卻下滑。我們究竟能不能根據這項分析結果,主張「調漲電價能促進節電」之因果關係呢?
例3:出國留學比較容易找到工作?
接下來用教育的例子,討論相同的資料分析問題吧!
前幾天,筆者在報紙上看到以下的報導:
「根據致力推廣留學的某大學調查,曾經出國留學的學生,就職率比不曾留學的學生高。該大學指出,從這項分析結果來看,留學經驗可提升就職率。」
這篇報導的前半段提到,曾經出國留學的學生,就職率比不曾留學的學生高,這應該是資料呈現的事實。不過,我們可以從這個結果,導出以下的因果關係嗎?
「出國留學↓就職率增加」
假設A學生曾出國留學,B學生不曾留學。這裡的問題是,除了「有無留學經驗」這點外,A和B很可能還有其他差異。
舉例來說,A很有可能生於財力足以讓他留學的家庭。或者,A可能成績本來就好到能領留學獎學金。除此之外,A也可能原本就很想留學,或是富有好奇心。
如同上述,假如A和B除了留學這點以外,還有其他的相異之處,影響雙方就職率的有可能是留學,也可能是其他因素。
難以證明因果關係的原因1:有可能是其他因素造成影響
前面3個例子的共同點是:主張「某因素(X)對結果(Y)造成影響」,亦即X↓Y的因果關係。第1個例子主張「廣告(X)影響冰淇淋的業績(Y)」之因果關係,最後的例子則主張「留學經驗(X)影響就職率(Y)」之因果關係。
難以證明「X對Y造成影響」之因果關係的最大原因,就是無法排除「Y之所以產生變化,或許是受到X以外的其他因素影響」這個可能性。
資料分析者主張「X影響了Y」。然而,社會其實不如實驗室那般單純。發生X的同時,有可能也發生了其他狀況(我們就稱X與Y以外的因素為V吧)。
以廣告的例子來說,發生X亦即廣告的同時,有可能也發生了氣溫上升或經濟狀況改變之類的V。以留學政策的例子來說,除了「曾經留學」這個X外,留學以前的成績、父母的財力、邁向國際的志向等V也有可能影響了Y。
在這種情況下,即使X與Y的資料如圖表1-1與圖表1-2那樣,看上去是同時變動,仍有可能不是X對Y造成直接影響,而是V同時影響了X與Y。
主題書展
更多書展今日66折
您曾經瀏覽過的商品
購物須知
為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。
若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。