7小時,統計學從天書變故事書:平均數、中位數、常態分布、迴歸分析、費米估算……統計這樣讀,輕鬆戰勝商學院大魔王。(電子書)
商品資訊
定價
:NT$ 460 元優惠價
:70 折 322 元
閱讀器:書紐電子書
下單可得紅利積點:9 點
商品簡介
作者簡介
序
目次
書摘/試閱
相關商品
商品簡介
◎用哪個關鍵字當書名比較能賣,統計可以幫你找答案。
◎美國前總統歐巴馬2008年能勝選,就是將「隨機對照」搬到網路上測試。
◎美國沃爾瑪發現,把啤酒放在嬰兒紙尿布旁,銷量會提升,就是靠統計分析。
◎對全民進行PCR普篩,可以有效杜絕疫情嗎?統計學家算給你看。
提到統計學,商學院學生馬上會告訴你,天呀,這根本是「大魔王」,
從各種分布、檢定開始,課本內容似乎變成天書,什麼虛無、對立假設……
初級統計用到的數學不難呀,怎麼搞到二修都快過不了,幾乎要延畢。
既然統計這麼難讀,為何還要學?因為:
開門做生意要靠因果分析,你才會找到賺錢與賠錢的關聯性。
統計就是一種邏輯,看穿怎麼用不同圖表呈現來唬人或防止被唬。
還有,這是一門預測的技術,還教你用機率來思考,
幫你八九不離十料中事情結果,就算只用在運彩也助你發財。
作者本丸諒,編輯超過30本以上的統計學暢銷書,
他透過各種案例與故事,教你用最快速度學會
平均數、中位數、常態分布、迴歸分析、費米估算……
只要花一個晚上時間,你的邏輯能力暴增、思考能力暴增,
初級統計學成了能幫你一輩子的最強武器。
◎看穿數據偏差,避開統計上的地雷
.「倖存者偏差」──應該加厚戰鬥機哪個部位的裝甲?
二戰期間,同盟國在那些平安完成任務的戰鬥機上,發現一個獨特的模式,
就是機身彈孔大多集中在機體和機翼尖端,
因此軍方打算加厚這些部位的裝甲,
但有位統計學家卻認為,應該加厚未中彈部位的裝甲,為什麼?
這就是倖存者偏差的故事由來。
◎圖表的強項在於「比較」,幫你一眼看出(穿)資料與真相
1854年的野戰醫院十分髒亂,因感染疾病而死的士兵遠多於戰死人數,
這時,南丁格爾就把死亡人數的統計,從直方圖換成圓餅圖,
就成功說服國會議員願意提供經費,改善醫療環境,
為什麼只是換個圖表呈現,說服力就大增?
南丁格爾不只是護士,更是運用統計學的行家!
◎這樣學統計,天書會變成故事書!
.問我財產有多少?我和比爾‧蓋茲的財產平均超過450億美元!
極端的離群值會讓平均失真,主計處公布勞工平均薪資數字,就是犯了這種錯,
這就像拿你的錢跟比爾‧蓋茲的錢一起平均,然後說你們很有錢。
這時要利用中位數──由大到小排列後,取最中間的數值,
薪資調查統計要揭露中位數,才知道自己在前段班或是後段班。
.尼可拉斯.凱吉每年演出的電影越多,溺死人數也越多?
另一項數據顯示,冰淇淋賣得越好、當年泳池溺死人數也越多。
其實爛片王和冰淇淋與溺斃者並無直接因果關係。
隨便找1,000位演員演出的電影數量,都能找到與溺死人數變化有正相關,
只要蒐集夠大量資料,就能找出相關性,但是否有「因果」就很難說。
這時你要怎麼找因果?統計有解。
統計就是一種歸納,可以用在收視率調查、民意調查、賣場銷售業績,
甚至傳染病大約幾月幾日達到高峰、企業該替員工準備多少快篩劑、
醫院該準備多少病床、「超額死亡數」與疫情發展態勢,
都可透過統計來分析預測。
描述事實、了解原因與預見未來,最快與最好的方法,就是根據統計。
◎美國前總統歐巴馬2008年能勝選,就是將「隨機對照」搬到網路上測試。
◎美國沃爾瑪發現,把啤酒放在嬰兒紙尿布旁,銷量會提升,就是靠統計分析。
◎對全民進行PCR普篩,可以有效杜絕疫情嗎?統計學家算給你看。
提到統計學,商學院學生馬上會告訴你,天呀,這根本是「大魔王」,
從各種分布、檢定開始,課本內容似乎變成天書,什麼虛無、對立假設……
初級統計用到的數學不難呀,怎麼搞到二修都快過不了,幾乎要延畢。
既然統計這麼難讀,為何還要學?因為:
開門做生意要靠因果分析,你才會找到賺錢與賠錢的關聯性。
統計就是一種邏輯,看穿怎麼用不同圖表呈現來唬人或防止被唬。
還有,這是一門預測的技術,還教你用機率來思考,
幫你八九不離十料中事情結果,就算只用在運彩也助你發財。
作者本丸諒,編輯超過30本以上的統計學暢銷書,
他透過各種案例與故事,教你用最快速度學會
平均數、中位數、常態分布、迴歸分析、費米估算……
只要花一個晚上時間,你的邏輯能力暴增、思考能力暴增,
初級統計學成了能幫你一輩子的最強武器。
◎看穿數據偏差,避開統計上的地雷
.「倖存者偏差」──應該加厚戰鬥機哪個部位的裝甲?
二戰期間,同盟國在那些平安完成任務的戰鬥機上,發現一個獨特的模式,
就是機身彈孔大多集中在機體和機翼尖端,
因此軍方打算加厚這些部位的裝甲,
但有位統計學家卻認為,應該加厚未中彈部位的裝甲,為什麼?
這就是倖存者偏差的故事由來。
◎圖表的強項在於「比較」,幫你一眼看出(穿)資料與真相
1854年的野戰醫院十分髒亂,因感染疾病而死的士兵遠多於戰死人數,
這時,南丁格爾就把死亡人數的統計,從直方圖換成圓餅圖,
就成功說服國會議員願意提供經費,改善醫療環境,
為什麼只是換個圖表呈現,說服力就大增?
南丁格爾不只是護士,更是運用統計學的行家!
◎這樣學統計,天書會變成故事書!
.問我財產有多少?我和比爾‧蓋茲的財產平均超過450億美元!
極端的離群值會讓平均失真,主計處公布勞工平均薪資數字,就是犯了這種錯,
這就像拿你的錢跟比爾‧蓋茲的錢一起平均,然後說你們很有錢。
這時要利用中位數──由大到小排列後,取最中間的數值,
薪資調查統計要揭露中位數,才知道自己在前段班或是後段班。
.尼可拉斯.凱吉每年演出的電影越多,溺死人數也越多?
另一項數據顯示,冰淇淋賣得越好、當年泳池溺死人數也越多。
其實爛片王和冰淇淋與溺斃者並無直接因果關係。
隨便找1,000位演員演出的電影數量,都能找到與溺死人數變化有正相關,
只要蒐集夠大量資料,就能找出相關性,但是否有「因果」就很難說。
這時你要怎麼找因果?統計有解。
統計就是一種歸納,可以用在收視率調查、民意調查、賣場銷售業績,
甚至傳染病大約幾月幾日達到高峰、企業該替員工準備多少快篩劑、
醫院該準備多少病床、「超額死亡數」與疫情發展態勢,
都可透過統計來分析預測。
描述事實、了解原因與預見未來,最快與最好的方法,就是根據統計。
作者簡介
本丸諒
橫濱市立大學畢業後進入出版社工作,負責企劃、編輯許多暢銷書籍,主要以科學領域為主。
特別擅長統計學相關類型,除了入門書籍以外,也曾製作多變量分析、統計分析等全面性的內容,以及用Excel進行統計、迴歸分析、貝氏統計、統計學用語事典等,催生超過30本統計學相關書籍,也身兼資料專業誌(月刊)的總編輯。
自立門戶後,成立編輯工房Siracusa。成為「將理科主題超譯給文組人看」的科普作家,不論是編輯能力和寫作能力都深受好評。日本數學協會會員。
著作(含共同著作)包含《文科生也看得懂的工作用統計學》、《先從這一本開始了解微分、積分的意義》(Beret出版)、《數學和符號的不可思議》(SB Creative出版)、《3小時讀通幾何》、《永久磁鐵》等。
林信帆
輔仁大學跨文化研究所翻譯學碩士班中日組修業完畢,為專職專業的自由譯者。譯有《完美的擺脫》、《手把手!勝率之王教你買股票》、《破解四季報,年年找到漲10倍飆股》、《帶人的問題,Amazon都怎麼解決?》(以上皆為大是文化出版)等書。
橫濱市立大學畢業後進入出版社工作,負責企劃、編輯許多暢銷書籍,主要以科學領域為主。
特別擅長統計學相關類型,除了入門書籍以外,也曾製作多變量分析、統計分析等全面性的內容,以及用Excel進行統計、迴歸分析、貝氏統計、統計學用語事典等,催生超過30本統計學相關書籍,也身兼資料專業誌(月刊)的總編輯。
自立門戶後,成立編輯工房Siracusa。成為「將理科主題超譯給文組人看」的科普作家,不論是編輯能力和寫作能力都深受好評。日本數學協會會員。
著作(含共同著作)包含《文科生也看得懂的工作用統計學》、《先從這一本開始了解微分、積分的意義》(Beret出版)、《數學和符號的不可思議》(SB Creative出版)、《3小時讀通幾何》、《永久磁鐵》等。
林信帆
輔仁大學跨文化研究所翻譯學碩士班中日組修業完畢,為專職專業的自由譯者。譯有《完美的擺脫》、《手把手!勝率之王教你買股票》、《破解四季報,年年找到漲10倍飆股》、《帶人的問題,Amazon都怎麼解決?》(以上皆為大是文化出版)等書。
序
說服別人的最快方法:根據統計
一提到「數據分析」一詞,就會很不可思議的,不自覺的把「分析數據」當作是最後的目的(我也是如此)。但「分析」本身不應是你的目的。因為分析數據,只不過是為了達成某種目的的手段而已。
當然,目的會因人而異。若是在企業內部,大多數人的目的應該是找出自身公司的瓶頸並一一解決,以創造利潤。
用比較貼近生活的例子來看,如果你正因與鄰居之間的糾紛而煩惱(例如樓上住戶半夜十分吵鬧,讓你睡不著覺等),那麼你的終極目的,想必就是解決這個問題。
反過來一想,不管你蒐集了多少數據(或資訊)來分析,如果無法解決問題,那就毫無幫助。
換句話說,數據分析永遠都有其「目的」,而且會追求「結果」。從這個含意來看,是否用了什麼高級的方法,或者是否利用電腦之類的工具,其實在數據分析上並不重要。
我以前任職的小型企業也是一樣,課長在開會前,會發幾十張A3 大小的數據資料(從左上到右下塞滿圖表)。從這個例子就知道,即便是小公司,數據也是要多少有多少,但很少有人可以在閱讀數據報表之後,便立刻指出「這裡是不是怪怪的」,立刻找到問題點。
在這種時候,需要的第一個工具就是「圖表化」。以豐田(TOYOTA)公司的用語來說,就是可視化,只要把數據轉換成適當的圖表,就連我這樣的普通人,也能看得懂。
數據分析的第一步,就是把適當的數據替換成適當的圖表。「圖表」的強項在於比較,這種工具可以協助人類更直覺的理解情況。
然而,即便靠圖表、在直覺上找出了問題點,光是這樣仍然無法說服其他人。原因在於,當你徵求他們的認同:「看這張圖表,可以得知這兩個數據是有關連的,對吧?」如果對方不太認同:「是這樣嗎?」雙方就不會有交集。
因為只靠圖表,就說服的層面來說,還缺乏力量。
下一個階段,必須用每個人都能同意的數字來設定範圍、做出區隔。換言之,就是「有根據的區隔」──為此,你所需要的強力工具,就是初階的「統計學」。
但統計學,甚至是統計分析的工具,是非常廣泛、艱深的世界。因此最好盡快學會「常態分布」(還有許多其他類型的分布),而且要會使用畫一條線來思考的「迴歸分析」。這兩者都有「用機率來思考」和「用數字來區隔」的概念,只要透過它們來表達,想必就能增加說服力。
有些企業會招募數據科學家,徹底分析企業內的問題點。但你應該比這些數據科學家,更清楚自己公司的瓶頸。
還記得我一開頭提到的嗎?沒錯,數據分析的目的,不是分析,而是達到目的。你想解決的目的是什麼,你自己最清楚。
接下來,就是知道擁有哪些數據(資訊),以及該如何用它們解決問題。這一點與其藉助數據科學家的幫助,不如各位自己來學習,並善用幾個簡單的工具。
本書不會使用艱澀的分析方法,希望能透過解讀數據、學習避免被偏見誤導的訣竅,以及簡單的統計方法,協助你達到目的。
推薦序
一本簡單易懂的「統計學故事書」
「資料科學家的工作日常」粉專版主╱張維元
資料科學曾被譽為「21 世紀最性感的工作」,更是許多公司在數位轉型時十分重要的一環。近年來,數據科學或資料科學成為企業擴編的新寵,也有越來越多公司希望數位轉型之後,可以利用數據來幫助經營者即時的決策。隨著雲端與大數據的技術逐漸成熟,數據科學已然成為數位時代下不得不具備的技能。
然而,資料科學其實不是全新的技術,其中最核心的基礎「統計學」(Statistics),就是從過去持續發展至今、且已融入各行各業的重要解法。統計學作為數據科學中的基石,能夠「從資料中萃取出資訊」用以幫助決策,學好這門學問更是建立數據科學思維的第一步。統計學是由數學發展而來,可以區分為敘述統計和推論統計兩種類型,依其性質可再分為理論統計學與應用統計學。從探索過去、了解現在到預測未來,統計思考脈絡一共可以分成五個層次。
不過,對許多人來說,統計學總是存在一道無形的門檻,其中用到的數學公式往往令人卻步。你是否也曾擔心自己數學差,沒辦法學好統計或是資料科學?如果我們能跳脫應付考試的學習,試著從生活案例中解釋統計學,你會發現它其實沒有想像中的可怕與困難。
本書《7小時,統計學從天書變故事書》運用了大量日常生活中的經驗作為案例,每個單元都從日常的情境出發,從觀察到思考、再帶出統計學所扮演的角色。而所謂的數據思維,也稱得上是一種從「我覺得」到「看數據說話」的解決問題策略。簡單來說,就是當你面對一堆數據與圖表時,你該如何思考與推論、進而決策?如果我們始終仰賴經驗與主觀的判斷,便很難實現系統性的成長。
統計學是一種歸納法,能夠從累積的資料中觀察趨勢,讓我們從資料中「鑑往知來」,而不再只是主觀的判斷。更重要的是,我們能夠藉由學習統計學所培養的敏銳度,更精準的解讀資料,避免陷入資料的盲點與誤區。本書利用了許多有趣且好理解的案例,例如「倖存者偏差」、「隨機對照實驗」,到各種統計值的計算與圖表視覺化的解讀。除了在每一個單元幫你建立觀念,最後一個章節中也準備了幾個真實的情境,讓你思考如何有效的運用統計學。
統計學與數據科學不再只是理工人的專屬技能,早已成為數據時代下必須掌握的數位能力。如果你正在尋找一本讀得懂的統計學書籍,這本「故事書」,你一定會喜歡。
一提到「數據分析」一詞,就會很不可思議的,不自覺的把「分析數據」當作是最後的目的(我也是如此)。但「分析」本身不應是你的目的。因為分析數據,只不過是為了達成某種目的的手段而已。
當然,目的會因人而異。若是在企業內部,大多數人的目的應該是找出自身公司的瓶頸並一一解決,以創造利潤。
用比較貼近生活的例子來看,如果你正因與鄰居之間的糾紛而煩惱(例如樓上住戶半夜十分吵鬧,讓你睡不著覺等),那麼你的終極目的,想必就是解決這個問題。
反過來一想,不管你蒐集了多少數據(或資訊)來分析,如果無法解決問題,那就毫無幫助。
換句話說,數據分析永遠都有其「目的」,而且會追求「結果」。從這個含意來看,是否用了什麼高級的方法,或者是否利用電腦之類的工具,其實在數據分析上並不重要。
我以前任職的小型企業也是一樣,課長在開會前,會發幾十張A3 大小的數據資料(從左上到右下塞滿圖表)。從這個例子就知道,即便是小公司,數據也是要多少有多少,但很少有人可以在閱讀數據報表之後,便立刻指出「這裡是不是怪怪的」,立刻找到問題點。
在這種時候,需要的第一個工具就是「圖表化」。以豐田(TOYOTA)公司的用語來說,就是可視化,只要把數據轉換成適當的圖表,就連我這樣的普通人,也能看得懂。
數據分析的第一步,就是把適當的數據替換成適當的圖表。「圖表」的強項在於比較,這種工具可以協助人類更直覺的理解情況。
然而,即便靠圖表、在直覺上找出了問題點,光是這樣仍然無法說服其他人。原因在於,當你徵求他們的認同:「看這張圖表,可以得知這兩個數據是有關連的,對吧?」如果對方不太認同:「是這樣嗎?」雙方就不會有交集。
因為只靠圖表,就說服的層面來說,還缺乏力量。
下一個階段,必須用每個人都能同意的數字來設定範圍、做出區隔。換言之,就是「有根據的區隔」──為此,你所需要的強力工具,就是初階的「統計學」。
但統計學,甚至是統計分析的工具,是非常廣泛、艱深的世界。因此最好盡快學會「常態分布」(還有許多其他類型的分布),而且要會使用畫一條線來思考的「迴歸分析」。這兩者都有「用機率來思考」和「用數字來區隔」的概念,只要透過它們來表達,想必就能增加說服力。
有些企業會招募數據科學家,徹底分析企業內的問題點。但你應該比這些數據科學家,更清楚自己公司的瓶頸。
還記得我一開頭提到的嗎?沒錯,數據分析的目的,不是分析,而是達到目的。你想解決的目的是什麼,你自己最清楚。
接下來,就是知道擁有哪些數據(資訊),以及該如何用它們解決問題。這一點與其藉助數據科學家的幫助,不如各位自己來學習,並善用幾個簡單的工具。
本書不會使用艱澀的分析方法,希望能透過解讀數據、學習避免被偏見誤導的訣竅,以及簡單的統計方法,協助你達到目的。
推薦序
一本簡單易懂的「統計學故事書」
「資料科學家的工作日常」粉專版主╱張維元
資料科學曾被譽為「21 世紀最性感的工作」,更是許多公司在數位轉型時十分重要的一環。近年來,數據科學或資料科學成為企業擴編的新寵,也有越來越多公司希望數位轉型之後,可以利用數據來幫助經營者即時的決策。隨著雲端與大數據的技術逐漸成熟,數據科學已然成為數位時代下不得不具備的技能。
然而,資料科學其實不是全新的技術,其中最核心的基礎「統計學」(Statistics),就是從過去持續發展至今、且已融入各行各業的重要解法。統計學作為數據科學中的基石,能夠「從資料中萃取出資訊」用以幫助決策,學好這門學問更是建立數據科學思維的第一步。統計學是由數學發展而來,可以區分為敘述統計和推論統計兩種類型,依其性質可再分為理論統計學與應用統計學。從探索過去、了解現在到預測未來,統計思考脈絡一共可以分成五個層次。
不過,對許多人來說,統計學總是存在一道無形的門檻,其中用到的數學公式往往令人卻步。你是否也曾擔心自己數學差,沒辦法學好統計或是資料科學?如果我們能跳脫應付考試的學習,試著從生活案例中解釋統計學,你會發現它其實沒有想像中的可怕與困難。
本書《7小時,統計學從天書變故事書》運用了大量日常生活中的經驗作為案例,每個單元都從日常的情境出發,從觀察到思考、再帶出統計學所扮演的角色。而所謂的數據思維,也稱得上是一種從「我覺得」到「看數據說話」的解決問題策略。簡單來說,就是當你面對一堆數據與圖表時,你該如何思考與推論、進而決策?如果我們始終仰賴經驗與主觀的判斷,便很難實現系統性的成長。
統計學是一種歸納法,能夠從累積的資料中觀察趨勢,讓我們從資料中「鑑往知來」,而不再只是主觀的判斷。更重要的是,我們能夠藉由學習統計學所培養的敏銳度,更精準的解讀資料,避免陷入資料的盲點與誤區。本書利用了許多有趣且好理解的案例,例如「倖存者偏差」、「隨機對照實驗」,到各種統計值的計算與圖表視覺化的解讀。除了在每一個單元幫你建立觀念,最後一個章節中也準備了幾個真實的情境,讓你思考如何有效的運用統計學。
統計學與數據科學不再只是理工人的專屬技能,早已成為數據時代下必須掌握的數位能力。如果你正在尋找一本讀得懂的統計學書籍,這本「故事書」,你一定會喜歡。
目次
推薦序 一本簡單易懂的「統計學故事書」╱張維元
前言 說服別人的最快方法:根據統計
序章 一門沒有絕對正確答案的學科
1.所謂的數據分析,就是統計
2.費米估算,答案概略卻堪用
第1章 看穿數據偏差,避開地雷
1.倖存者偏差──應該加厚哪個部位的裝甲
2.自己開車和AI幫你開,哪個安全?
3.連續說中8場比賽結果,章魚保羅真有那麼神?
4.數字常常會唬人,怎麼看穿?
5.抽樣的眉角和偏誤
第2章 隨機對照試驗,驗證你的假說
1.對照組與介入組 的實驗
2.現實中很難做AB測試,但網路可以
3.動用一艘軍艦來驗證假說
4.就算因果不明,也能導出真相
5.統計出現顯著差異,這可能不是偶然
第3章 圖表能幫你一眼看出重點
1.長條圖,適合用來比較
2.直方圖,代表一種連續
3.折線圖,觀察時間軸傾向
4.觀察比率,就用圓餅圖
5.怎麼畫圖最有說服力?南丁格爾很懂
6.最常見的分布,常態分布?
第4章 這樣學統計,天書變故事書
1.平均數、加權平均數、幾何平均數
2.生活中常用的平均數
3.中位數,比平均數更接近真實
4.數據總伴隨「離散」,只是程度不同
5.常態分布規則──「68–95–99.7法則」
6.收視率調查,這樣抽樣才會準
7.盒鬚圖與四分位數
8.最大值和最小值
第5章 相關關係和因果關係
1.有關係,才有分析的意義
2.找不到因果關係,怎麼辦?
3.有相關,不見得有因果
4.由錯覺與偶然促成──虛假關係
第6章 畫一條直線解讀數據──「迴歸分析」
1.人一被讚美,就會鬆懈,一被批評,就有幹勁?
2.迴歸直線怎麼畫?不能憑感覺
3.迴歸分析,輕鬆預測營收
4.用多元迴歸分析,找出影響營收的因素
第7章 三個測驗題,試試看你懂多少
1.一到三月出生的孩子,運動方面較吃虧?
2.一到三月的孩子,學習程度比較差?
3.全民進行PCR普篩,有必要嗎
後記 人會刻意迴避不樂見的數據
索引
主要參考文獻
前言 說服別人的最快方法:根據統計
序章 一門沒有絕對正確答案的學科
1.所謂的數據分析,就是統計
2.費米估算,答案概略卻堪用
第1章 看穿數據偏差,避開地雷
1.倖存者偏差──應該加厚哪個部位的裝甲
2.自己開車和AI幫你開,哪個安全?
3.連續說中8場比賽結果,章魚保羅真有那麼神?
4.數字常常會唬人,怎麼看穿?
5.抽樣的眉角和偏誤
第2章 隨機對照試驗,驗證你的假說
1.對照組與介入組 的實驗
2.現實中很難做AB測試,但網路可以
3.動用一艘軍艦來驗證假說
4.就算因果不明,也能導出真相
5.統計出現顯著差異,這可能不是偶然
第3章 圖表能幫你一眼看出重點
1.長條圖,適合用來比較
2.直方圖,代表一種連續
3.折線圖,觀察時間軸傾向
4.觀察比率,就用圓餅圖
5.怎麼畫圖最有說服力?南丁格爾很懂
6.最常見的分布,常態分布?
第4章 這樣學統計,天書變故事書
1.平均數、加權平均數、幾何平均數
2.生活中常用的平均數
3.中位數,比平均數更接近真實
4.數據總伴隨「離散」,只是程度不同
5.常態分布規則──「68–95–99.7法則」
6.收視率調查,這樣抽樣才會準
7.盒鬚圖與四分位數
8.最大值和最小值
第5章 相關關係和因果關係
1.有關係,才有分析的意義
2.找不到因果關係,怎麼辦?
3.有相關,不見得有因果
4.由錯覺與偶然促成──虛假關係
第6章 畫一條直線解讀數據──「迴歸分析」
1.人一被讚美,就會鬆懈,一被批評,就有幹勁?
2.迴歸直線怎麼畫?不能憑感覺
3.迴歸分析,輕鬆預測營收
4.用多元迴歸分析,找出影響營收的因素
第7章 三個測驗題,試試看你懂多少
1.一到三月出生的孩子,運動方面較吃虧?
2.一到三月的孩子,學習程度比較差?
3.全民進行PCR普篩,有必要嗎
後記 人會刻意迴避不樂見的數據
索引
主要參考文獻
書摘/試閱
統計學依據歸納,無法斷言「永遠正確」
相較之下,統計學是依據「歸納法」,和演繹法是立基於完全不同的思維。所謂的歸納法,跟經驗是相同的邏輯。
「那隻天鵝是白色的,這隻天鵝也是白色的,另一隻天鵝也是白色的。」
「看來所有天鵝似乎都是白色的。」
這是蒐集許多人關於「天鵝」的經驗和知識,從中找出共通點(白色),以獲得「結論」的方法(天鵝是白色的),這就是歸納法。
歸納法通用於人類的經驗或是人工智慧(AI)的學習。人工智慧透過大量的案例來學習,道理等同於人類累積大量的經驗。兩者都是透過歸納法來處理,重點在於歸納法只不過是透過經驗所得到的「假說」而已。
這是歸納法最大的弱點。因為只要發現有黑天鵝或是紅天鵝的存在,就算只有一隻也好,「天鵝是白色」的假說就會出錯。
實際上,歐洲人有很長一段時間,深信「天鵝是白色的」,但1697年在南半球的澳洲發現了「黑天鵝」(從黑天鵝的案例,衍生出「黑天鵝〔理論〕」一詞,用以形容發生了經驗上無法預測的極端事件,或至今大眾覺得不可能會發生的事情,而帶給人們巨大衝擊。金融危機、自然災害和全球性流行疾病等,也常會使用「黑天鵝」一詞)。黑天鵝只有顏色是黑色的,其身體構造與白天鵝一模一樣。在那個瞬間,鳥類學家過去以來的常識和定論也跟著瓦解了。
創意不是天馬行空,來自歸納
如前所述,歸納法是藉由經驗去推估「好像是這樣」,但只要找到一個相反的例子,假說就會瓦解,所以並非絕對正確。
讀到這裡,你或許會覺得比起演繹法,歸納法是「差勁的邏輯」,但其實並非如此。演繹法只是不斷累積已經明白的命題,無法獲得進一步的見解(或許說得有點過頭)。
但歸納法卻可能從中獲得新的「假說」(見解),如「在普通的環境下天鵝是白色的,但是在某種生活環境下,也可能會是黑色(白色太顯眼、容易被獵食等原因)」,所以深具啟發性。
反之,若是明明使用了歸納法,歸納出如「蘇格拉底死了,柏拉圖死了,我爺爺也死了,所以人類都會死」這類,任何人都知道的假說,就不算是活用歸納法的特性,而且一點都不有趣,這實在很可惜。
特別是在商場上,希望大家能用歸納法,多多少少找出一些「跳躍性的假說」,這可稱為溯因推理(abduction,形成啟發性的假說,意指生成假設來解釋觀察和結論)。
比方說,飛機原本是將引擎裝在機翼下方,但噴射機實現了一種前所未有的創新──把引擎裝在機翼上方,此為本田飛機公司(Honda Aircraft Company)的小型噴射機。一橋大學名譽教授野中郁次郎曾表示:「我們不是把引擎、機體、機翼拆分開來思考,而是將全部當作一個整體,然後大家一起愉快的討論發想,
所以才會產生這個創意吧。」這就是一種溯因推理。
就算創意發想還不到這種程度,只要觀察身邊發生的眾多事實,照樣能用歸納法激發創意。
假如你是一位便利商店的店長,就可以歸納出以下的創意:「本週日是小學運動會,學校不供餐、學生要自己帶便當。不過聽說最近很多媽媽都很忙,很多家庭沒辦法替孩子準備便當。可是,超商便當的透明塑膠盒又沒有『親手烹調的感覺』。既然這樣,我就準備黑色、有質感的塑膠便當盒,然後製作十種便當試賣看看。對!趕快在超商前面立廣告旗,向媽媽們宣傳吧。」
從當地民眾身上獲取各種資訊,然後想出一個「結論(假說)=有高質感的便當」。後續的銷售數字會驗證該假說是否合理。從這裡便可看出,歸納法是相當適合用在商場上的處理方式。
統計學原本就是從眾多的案例推理「是不是這樣」,然後建立假說,所以統計學也可以說是使用了歸納法。
倖存者偏差──應該加厚哪個部位的裝甲
亞伯拉罕.沃德(Abraham Wald)於1902年出生於奧匈帝國,父親是經營麵包店的猶太人。亞伯拉罕的數學才能獲得認可而進入維也納大學就讀,後來因為納粹崛起而赴美,在哥倫比亞大學獲得了統計學教授的工作,以同盟國的一員參與了第二次世界大戰。
亞伯拉罕隸屬的統計學研究團體(Statistical Research Group,簡稱SRG),希望能將統計學家的力量活用在戰爭中,是一個質與量皆超群的統計學者組織。對軍方來說,其中的亞伯拉罕更是個可靠的夥伴。
「飛機被擊落=死亡」,所以每一位飛行員都不想被擊落,雖然想加厚整架飛機的裝甲以對抗機槍掃射,但機身太笨重又會大幅影響操縱性能。如果裝甲太薄弱,飛機就算輕微中彈,也會被擊落。正所謂顧此失彼,現實世界總是充滿兩難。
這時有一份數據送到,上面調查了戰鬥機在歐洲作戰後,從戰地返航時的機身彈孔分布。
觀察戰鬥機上的彈孔分布,就會看出有非常明顯的傾向,彈孔大都集中在機體和機翼前端,並非整架飛機都布滿彈孔。
於是軍官們有了結論,就是要「加厚損傷較多的部位」。但不知道裝甲該加到多厚,於是他們跑來諮詢統計學研究團體中最優秀的專家亞伯拉罕。
如何以概率思考機身中彈?
照理來說,應該是整個機身會布滿彈孔,但平安歸來的飛機卻只有特定的部位中彈⋯⋯。
反過來說,可以認為「飛機是因為特定部位彈痕以外的機身部位中彈,所以才回不來」,其中彈部位就是把「布滿機身的彈痕」,減去「返航歸來飛機的彈痕」,這些也是應該加厚裝甲的部位。
換言之,我們打算分析的資訊(返航的飛機)本身存在了邏輯謬誤,也就是所謂的「倖存者偏差」。這讓我們只聽見倖存者的聲音,而忽略了亡者的聲音。
亞伯拉罕的結論
大家應該已經知道,亞伯拉罕的結論是什麼了,他認為「應該在返航飛機未中彈的『引擎部位』為中心,來加厚裝甲」。
通常我們會一廂情願的深信「拿到的數據就是一切」,但我們也必須懷疑,調查報告可能打從一開始就缺少某些數據。而且,重要資訊有時正是隱藏在缺失的數據中。你必須要有「想像力」,才能看出缺少的數據是什麼。
平均數、加權平均數、幾何平均數
假設現在有4個人在小酒館喝酒喝得很盡興,大概是喝太醉了,他們開始在聊沒有存款、都是貸款⋯⋯之類的話題,最後竟然開始大聲討論「彼此的存款和股票等金融資產有多少」,聲音大到連周圍的人都聽得見。4人的金融資產如下所示:
10 萬日圓、40 萬日圓、150 萬日圓、200 萬日圓→平均100 萬日圓
平均下來剛好是每人100 萬日圓。這時,他們拿手機查了一下日本2019年的金融資產持有金額,發現平均是645萬日圓,中位數(後述)是45萬日圓(日本金融廣報中央委員會的《家計的金融行動相關民調》〔單身世代〕,2019年)。平均數和中位數差得還真遠呢。
這時,有位外國人跑來問他們能不能併桌,這位外國人自稱叫「蓋茲」。「蓋茲?這張臉好像在哪裡看過。你有多少資產啊?」聽到4人的問題,蓋茲回答說:「我的資產是965億美元。」(根據富比士的全球富豪榜〔2019〕, 第一名是亞馬遜〔Amazon〕的傑佛瑞.貝佐斯〔Jeff Bezos〕、1,310億美元,第二名是比爾.蓋茲〔Bill Gates〕、965億美元,第三名是華倫.巴菲特〔Warren Buffett〕、825億美元。)雖然金融資產和資產不一樣,而且雙方位數也不同,但這邊就當作是一樣的吧。用1美元約為110日圓換算,大概是10兆6,150億日圓!
10萬日圓、40萬日圓、150萬日圓、200萬日圓、10兆6,150億日圓
重新用5個人的數據取平均的話, 就會是2兆1,230億日圓⋯⋯。
正如上述,平均數的弱點,就是當有一個大得異常的「離群值」加入時,整體的平均數就會被離群值大幅拉高(此處計算的是單純平均)。
由錯覺與偶然促成──虛假關係
在「有相關關係,卻無因果關係」的模式中,有時會出現純屬偶然的案例。最廣為人知的就是美國男星尼可拉斯.凱吉(Nicolas Cage)的每年電影演出數量,與溺死人數的相關性。這跟氣溫毫無關係,但搭配多組數據來看,有時會出現「偶然相關」的狀況。
重點在於如何推測兩者的因果關係。拿尼可拉斯.凱吉的電影來說,我們試著驗證以下兩點:
❶電影是否一定會有游泳鏡頭?
❷ 演出的電影每年都有10部左右嗎(要有某種程度的數據量)?
我自己只看過幾部尼可拉斯.凱吉的電影,這些電影裡頭完全沒有游泳鏡頭。
另外,每年拍攝的電影數量,不管是哪個演員都很少,靠每年只差幾部的些許差異,很難下判斷。在這個案例中,就算不是尼可拉斯.凱吉,改用強尼.戴普(Johnny Depp)或安潔莉娜.裘莉(Angelina Jolie)也一樣,隨便搜尋1,000位演員的演出電影數量,都能找到演出電影數和溺死人數變化相似的演員吧。
蒐集大量數據,就能找到意外的相關關係,但是否存在因果關係,就另當別論了。
相較之下,統計學是依據「歸納法」,和演繹法是立基於完全不同的思維。所謂的歸納法,跟經驗是相同的邏輯。
「那隻天鵝是白色的,這隻天鵝也是白色的,另一隻天鵝也是白色的。」
「看來所有天鵝似乎都是白色的。」
這是蒐集許多人關於「天鵝」的經驗和知識,從中找出共通點(白色),以獲得「結論」的方法(天鵝是白色的),這就是歸納法。
歸納法通用於人類的經驗或是人工智慧(AI)的學習。人工智慧透過大量的案例來學習,道理等同於人類累積大量的經驗。兩者都是透過歸納法來處理,重點在於歸納法只不過是透過經驗所得到的「假說」而已。
這是歸納法最大的弱點。因為只要發現有黑天鵝或是紅天鵝的存在,就算只有一隻也好,「天鵝是白色」的假說就會出錯。
實際上,歐洲人有很長一段時間,深信「天鵝是白色的」,但1697年在南半球的澳洲發現了「黑天鵝」(從黑天鵝的案例,衍生出「黑天鵝〔理論〕」一詞,用以形容發生了經驗上無法預測的極端事件,或至今大眾覺得不可能會發生的事情,而帶給人們巨大衝擊。金融危機、自然災害和全球性流行疾病等,也常會使用「黑天鵝」一詞)。黑天鵝只有顏色是黑色的,其身體構造與白天鵝一模一樣。在那個瞬間,鳥類學家過去以來的常識和定論也跟著瓦解了。
創意不是天馬行空,來自歸納
如前所述,歸納法是藉由經驗去推估「好像是這樣」,但只要找到一個相反的例子,假說就會瓦解,所以並非絕對正確。
讀到這裡,你或許會覺得比起演繹法,歸納法是「差勁的邏輯」,但其實並非如此。演繹法只是不斷累積已經明白的命題,無法獲得進一步的見解(或許說得有點過頭)。
但歸納法卻可能從中獲得新的「假說」(見解),如「在普通的環境下天鵝是白色的,但是在某種生活環境下,也可能會是黑色(白色太顯眼、容易被獵食等原因)」,所以深具啟發性。
反之,若是明明使用了歸納法,歸納出如「蘇格拉底死了,柏拉圖死了,我爺爺也死了,所以人類都會死」這類,任何人都知道的假說,就不算是活用歸納法的特性,而且一點都不有趣,這實在很可惜。
特別是在商場上,希望大家能用歸納法,多多少少找出一些「跳躍性的假說」,這可稱為溯因推理(abduction,形成啟發性的假說,意指生成假設來解釋觀察和結論)。
比方說,飛機原本是將引擎裝在機翼下方,但噴射機實現了一種前所未有的創新──把引擎裝在機翼上方,此為本田飛機公司(Honda Aircraft Company)的小型噴射機。一橋大學名譽教授野中郁次郎曾表示:「我們不是把引擎、機體、機翼拆分開來思考,而是將全部當作一個整體,然後大家一起愉快的討論發想,
所以才會產生這個創意吧。」這就是一種溯因推理。
就算創意發想還不到這種程度,只要觀察身邊發生的眾多事實,照樣能用歸納法激發創意。
假如你是一位便利商店的店長,就可以歸納出以下的創意:「本週日是小學運動會,學校不供餐、學生要自己帶便當。不過聽說最近很多媽媽都很忙,很多家庭沒辦法替孩子準備便當。可是,超商便當的透明塑膠盒又沒有『親手烹調的感覺』。既然這樣,我就準備黑色、有質感的塑膠便當盒,然後製作十種便當試賣看看。對!趕快在超商前面立廣告旗,向媽媽們宣傳吧。」
從當地民眾身上獲取各種資訊,然後想出一個「結論(假說)=有高質感的便當」。後續的銷售數字會驗證該假說是否合理。從這裡便可看出,歸納法是相當適合用在商場上的處理方式。
統計學原本就是從眾多的案例推理「是不是這樣」,然後建立假說,所以統計學也可以說是使用了歸納法。
倖存者偏差──應該加厚哪個部位的裝甲
亞伯拉罕.沃德(Abraham Wald)於1902年出生於奧匈帝國,父親是經營麵包店的猶太人。亞伯拉罕的數學才能獲得認可而進入維也納大學就讀,後來因為納粹崛起而赴美,在哥倫比亞大學獲得了統計學教授的工作,以同盟國的一員參與了第二次世界大戰。
亞伯拉罕隸屬的統計學研究團體(Statistical Research Group,簡稱SRG),希望能將統計學家的力量活用在戰爭中,是一個質與量皆超群的統計學者組織。對軍方來說,其中的亞伯拉罕更是個可靠的夥伴。
「飛機被擊落=死亡」,所以每一位飛行員都不想被擊落,雖然想加厚整架飛機的裝甲以對抗機槍掃射,但機身太笨重又會大幅影響操縱性能。如果裝甲太薄弱,飛機就算輕微中彈,也會被擊落。正所謂顧此失彼,現實世界總是充滿兩難。
這時有一份數據送到,上面調查了戰鬥機在歐洲作戰後,從戰地返航時的機身彈孔分布。
觀察戰鬥機上的彈孔分布,就會看出有非常明顯的傾向,彈孔大都集中在機體和機翼前端,並非整架飛機都布滿彈孔。
於是軍官們有了結論,就是要「加厚損傷較多的部位」。但不知道裝甲該加到多厚,於是他們跑來諮詢統計學研究團體中最優秀的專家亞伯拉罕。
如何以概率思考機身中彈?
照理來說,應該是整個機身會布滿彈孔,但平安歸來的飛機卻只有特定的部位中彈⋯⋯。
反過來說,可以認為「飛機是因為特定部位彈痕以外的機身部位中彈,所以才回不來」,其中彈部位就是把「布滿機身的彈痕」,減去「返航歸來飛機的彈痕」,這些也是應該加厚裝甲的部位。
換言之,我們打算分析的資訊(返航的飛機)本身存在了邏輯謬誤,也就是所謂的「倖存者偏差」。這讓我們只聽見倖存者的聲音,而忽略了亡者的聲音。
亞伯拉罕的結論
大家應該已經知道,亞伯拉罕的結論是什麼了,他認為「應該在返航飛機未中彈的『引擎部位』為中心,來加厚裝甲」。
通常我們會一廂情願的深信「拿到的數據就是一切」,但我們也必須懷疑,調查報告可能打從一開始就缺少某些數據。而且,重要資訊有時正是隱藏在缺失的數據中。你必須要有「想像力」,才能看出缺少的數據是什麼。
平均數、加權平均數、幾何平均數
假設現在有4個人在小酒館喝酒喝得很盡興,大概是喝太醉了,他們開始在聊沒有存款、都是貸款⋯⋯之類的話題,最後竟然開始大聲討論「彼此的存款和股票等金融資產有多少」,聲音大到連周圍的人都聽得見。4人的金融資產如下所示:
10 萬日圓、40 萬日圓、150 萬日圓、200 萬日圓→平均100 萬日圓
平均下來剛好是每人100 萬日圓。這時,他們拿手機查了一下日本2019年的金融資產持有金額,發現平均是645萬日圓,中位數(後述)是45萬日圓(日本金融廣報中央委員會的《家計的金融行動相關民調》〔單身世代〕,2019年)。平均數和中位數差得還真遠呢。
這時,有位外國人跑來問他們能不能併桌,這位外國人自稱叫「蓋茲」。「蓋茲?這張臉好像在哪裡看過。你有多少資產啊?」聽到4人的問題,蓋茲回答說:「我的資產是965億美元。」(根據富比士的全球富豪榜〔2019〕, 第一名是亞馬遜〔Amazon〕的傑佛瑞.貝佐斯〔Jeff Bezos〕、1,310億美元,第二名是比爾.蓋茲〔Bill Gates〕、965億美元,第三名是華倫.巴菲特〔Warren Buffett〕、825億美元。)雖然金融資產和資產不一樣,而且雙方位數也不同,但這邊就當作是一樣的吧。用1美元約為110日圓換算,大概是10兆6,150億日圓!
10萬日圓、40萬日圓、150萬日圓、200萬日圓、10兆6,150億日圓
重新用5個人的數據取平均的話, 就會是2兆1,230億日圓⋯⋯。
正如上述,平均數的弱點,就是當有一個大得異常的「離群值」加入時,整體的平均數就會被離群值大幅拉高(此處計算的是單純平均)。
由錯覺與偶然促成──虛假關係
在「有相關關係,卻無因果關係」的模式中,有時會出現純屬偶然的案例。最廣為人知的就是美國男星尼可拉斯.凱吉(Nicolas Cage)的每年電影演出數量,與溺死人數的相關性。這跟氣溫毫無關係,但搭配多組數據來看,有時會出現「偶然相關」的狀況。
重點在於如何推測兩者的因果關係。拿尼可拉斯.凱吉的電影來說,我們試著驗證以下兩點:
❶電影是否一定會有游泳鏡頭?
❷ 演出的電影每年都有10部左右嗎(要有某種程度的數據量)?
我自己只看過幾部尼可拉斯.凱吉的電影,這些電影裡頭完全沒有游泳鏡頭。
另外,每年拍攝的電影數量,不管是哪個演員都很少,靠每年只差幾部的些許差異,很難下判斷。在這個案例中,就算不是尼可拉斯.凱吉,改用強尼.戴普(Johnny Depp)或安潔莉娜.裘莉(Angelina Jolie)也一樣,隨便搜尋1,000位演員的演出電影數量,都能找到演出電影數和溺死人數變化相似的演員吧。
蒐集大量數據,就能找到意外的相關關係,但是否存在因果關係,就另當別論了。
主題書展
更多
主題書展
更多書展今日66折
您曾經瀏覽過的商品
購物須知
為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。
若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。