懶人圖解統計學:統整複雜數據,看穿大數據背後真相
商品資訊
系列名:科學視界
ISBN13:9789865408350
替代書名:統計学 最高の教科書 現実を分析して未来を予測する技術を身につける
出版社:世茂出版社
作者:今野紀雄
譯者:陳朕疆
出版日:2020/12/02
裝訂/頁數:平裝/192頁
規格:21cm*14.8cm*1.3cm (高/寬/厚)
重量:348克
版次:1
商品簡介
擁有統計力,就能提升解決問題的能力
用圖像思考分析「現在」,用數學邏輯演算「未來」
用最不燒腦的方式學習統計學!
【設計生活化情境題】+【資料視覺化】+【專有名詞變白話】
淡江大學統計學系教授 林志娟審訂推薦
統計學博士 程毅豪 誠心推薦
一看就懂的統計學新手入門書
就算「沒有統計知識」也沒關係!
從基本原理開始,一點一點詳細說明
快速掌握必備觀念,輕鬆漫遊大數據時代
統計學哪裡只是公式運算,更是生活的準則、日常的指標!
★擲骰子、丟硬幣、中樂透,遊戲輸贏一瞬間,人生賽局是命運還是機會?
★調查收視率可以掌握市場變化,看準投資方向一點也不難!
★拚經濟跟統計有關,玩政治也跟統計有關,一切都在計算之中!
★數據展現實力!棒球迷如何從統計視角一窺棒球場上孰強孰弱?
★班佛定律可以教你識破會計數字是真是假,看出是誰在幕後以假亂真?
●打好統計學的基礎,應用在你的工作上!
●適合初學統計的人,以及想重新學統計的人!
●用每章最後的練習題與詳細解說,確認你理解了多少。
用「最短」、「最快」的方式學習統計學!
「統計學」總給人很艱澀的印象。不過,只要從基礎開始一步步學習,就會發現統計學其實一點也不難。即使是從來沒學過任何統計學知識的人,閱讀本書時也不會有任何障礙,而是能在不知不覺中讀完這本書,明白到統計學的本質。統計學是「分析現在、預測未來」的最強「技術」。請各位在讀完本書後,化統計學為自身的力量吧!
作者簡介
今野紀雄(Norio Konno)
1957年出生於東京。1982年東京大學理學部數學科畢業。1987年東京工業大學大學院理工學研究科博士課程修畢退學。曾任室蘭工業大學數理科學共通講座副教授、康乃爾大學數理科學研究所客座研究員,現為橫濱國立大學大學院工學研究院教授。主要著作包括《不可思議的數學》、《3小時讀通統計》、《拓樸學超入門》(共著)、《看漫畫學複雜網路》(共著)(Science-i新書)、《圖解雜學 機率》、《圖解雜學 機率模型》(Natsume社)、《Newton》雜誌監修工作。
譯者簡介
陳朕疆
自由譯者。清大生命科學學士、政大財務管理碩士、京都大學農學部交換一年。現為專職譯者,譯有多本科普、健康、商管書籍,歡迎批評指教。
序
前言
各位知道 10 月 18 日是什麼日子嗎?
這天是日本的統計日。在日本總務省統計局的網站中提到,1872 年 9 月 24 日,日本太政官公布了日本第一個近代生產統計表—《府縣物產表》,這天換算成陽曆後就是 10 月 18 日。於是日本政府就在 1973 年,訂這天為統計日。
在統計日這天,總務省會舉辦各種活動,促進日本國民關心統計,使國民了解統計的重要性,並配合政府的各種統計調查。
其中一項活動就是「募集標語」。總務省會將募集到的標語用於海報等廣告宣傳。2018 年度的特選作品,是由統計調查員組別選出的「活用統計、指向未來」。總務省的網站上可以看到歷屆入選作品,而且這些標語一個比一個驚豔。以下介紹其中幾個標語。
「這是為了誰?這是為了所有人的統計調查」 2000 年
「數字重於理論,統計重於直覺」 2003 年
「統計能獲得正確資訊,讓人放心」 2006 年
2019 年度的標語從 2 月開始募集,那時有人踢爆政府各部會偽造統計數據,引發了不小的問題,這也使 Twitter 上大量出現揶揄這次事件的標語。
「混亂的統計,可疑的指標」
「統計都是編造的數字,不要隨便相信」
「數字不合,就自己編造,統計都是假的」
「就算不景氣,統計數字也會說景氣很好」
我和其他教授談起這些統計調查事件時,聊到「有沒有什麼方法,可以看出這些統計數字的問題呢?」這裡先把這個方法命名為「規則 X」。我們會在本書的專欄中,與各位談談有什麼方法可以做到這件事,敬請期待!
本書會用淺顯易懂的方式,說明高中等級的統計。以下就簡單說明一下本書內容。
第 1 章介紹平均值(期望值)、變異數、標準差等,能描述數據特徵的數值;第 2 章介紹基礎機率,幫助各位理解本書後半提到的統計學知識;第 3 章介紹隨機變數;第 4 章介紹典型的分配範例—二項分配、常態分配;第 5 章介紹估計方法,說明如何由部分數據推論整體數據;第 6 章介紹檢定方法,說明如何建立假設、如何判斷假設正確與否;第7 章介紹如何描述不同數據間的相關關係。
另外,在每章的最後面會列出幾個練習問題,請各位試著挑戰看看,以加深理解。
最後,本書的出版過程受到科學書籍編輯部的石井顯一先生不少照顧,在此表達誠摯謝意。
今野紀雄
目次
前言 3
第 1 章 數據的特徵 9
1-1 當有人問你「每週喝幾次酒」,你會覺得很難回答嗎? 10
1-2 雖然平均月薪相同,但你不覺得哪裡奇怪嗎? 12
1-3 即使平均值相同,也不代表數據有相同特徵 14
1-4 將數據畫成「直方圖」會更好了解 16
1-5 配合數據特徵,選擇適當組距 18
1-6 由直方圖的形狀,可以看出某些數據不適合用「平均值」來描述 20
1-7 除了平均值,還有其他可以代表整體數據的數值 22
1-8 正中央數值—中位數 24
1-9 如何計算中位數? 26
1-10 哪個數值最多?什麼是眾數? 28
1-11 表示數據分布範圍的「全距」 30
1-12 如何表示數據分散程度? 32
1-13 用「變異數」來表示數據分散程度會方便許多 34
1-14 如何用變異數來計算數據分散程度? 36
章末練習 ① 38
專欄 1 統計虛擬貨幣之現價總額的首位數字,會有什麼結果? 40
第 2 章 機率的基礎 41
2-1 「樣本點」「樣本空間」與「事件」分別是什麼? 42
2-2 「和事件」「積事件」和「餘事件」 44
2-3 機率的定義 46
2-4 「事件機率」的計算 48
2-5 以「擲硬幣」為例,做機率的計算 50
2-6 丁半賭博中「丁」的機率和「半」的機率分別是多少? 52
2-7 不會同時發生的「互斥事件」 54
2-8 互斥的兩個「事件」有什麼關係? 56
2-9 發生「餘事件(非∼的事件)」的機率是多少? 58
2-10 什麼是「條件機率」? 60
2-11 學會使用方便的「乘法規則」 62
2-12 不被其他事件影響的「獨立事件」 64
章末練習 ② 66
專欄 2 首位數字的出現機率會符合「班佛定律」 68
第 3 章 隨機變數 69
3-1 由偶然決定數值的「隨機變數」 70
3-2 利用機率的性質,讓機率的計算變簡單 72
3-3 隨機變數和與之對應的「機率分配」 74
3-4 機率合計為「1」 76
3-5 計算隨機變數X 的期望值 78
3-6 即使各個事件的機率不一樣,也能求出期望值E(X) 80
3-7 「標準差」是變異數的正平方根 82
3-8 「平均值前後一個標準差」是最常出現的數值 84
章末練習 ③ 86
專欄 3 應用班佛定律找出偽造數據 90
第 4 章 分配 91
4-1 考慮順序時的「可能情況數」 92
4-2 不考慮順序時的「可能情況數」 94
4-3 由二項分配算出擲骰子結果的機率 96
4-4 由二項分配算出擲骰子結果的分配 98
4-5 擲骰次數增加,二項分配的形狀也會跟著改變 100
4-6 身高、雨量、產品誤差⋯⋯我們可以在許多數據上看到常態分配 102
4-7 常態分配的性質 104
4-8 常態分配中,幾乎所有事件都會在「3 σ 範圍」內 106
4-9 常態分配標準化的「標準常態分配」 108
4-10 從圖看出標準常態分配的性質 110
4-11 用標準常態分配來計算機率 112
章末練習 ④ 114
專欄 4 「末位數字」的分配也會偏向一邊嗎? 116
第 5 章 估計 117
5-1 從部分數據估計整體數據 118
5-2 由估計方法決定適當的樣本數 120
5-3 如何調查電視的收視率? 122
5-4 如何用統計方法估計收視率 124
5-5 估計一個數值點—「點估計」 126
5-6 估計一段區間—「區間估計」∼其一 128
5-7 估計一段區間—「區間估計」∼其二 130
5-8 信心水準的大小與信賴區間的關係 132
5-9 精靈寶可夢的收視率變化 134
5-10 信心水準提高,信賴區間也會變大 136
5-11 估計大谷翔平選手未來的打擊率,會得到什麼結果? 138
章末練習 ⑤ 140
專欄 5 「辛普森悖論」是什麼? 144
第 6 章 檢定 145
6-1 如果連續擲硬幣五次都是正面,可以說「這是一枚不公正硬幣」嗎? 146
6-2 如何檢定「這是一枚公正硬幣」的假設是否正確? 148
6-3 了解檢定的獨特概念與流程 150
6-4 檢定會因為「錯誤率」不同而得到不一樣的結果 152
6-5 當「五次有四次是正面」,可以說「這是一枚不公正硬幣」嗎? 154
6-6 即使「五次有四次正面」,也不能說「這是一枚不公正硬幣」 156
6-7 若錯誤率是5%,那麼當「十次有九次正面」,就可以說「這是一枚不公正硬幣」 158
章末練習 ⑥ 160
專欄 6 在日本買彩券應該買「連號」?還是買「號碼分散」? 164
第 7 章 相關 165
7-1 判斷兩群數據的關係 166
7-2 用「相關圖」將不同數據間的關係視覺化 168
7-3 什麼是「強相關」「弱相關」和「零相關」? 170
7-4 「相關係數」可以表示不同數據間的相關程度 172
7-5 「相關係數」的公式 174
7-6 相關係數的計算方法∼例一 176
7-7 相關係數的計算方法∼例二 178
7-8 相關係數的計算方法∼例三 180
7-9 相關係數的總整理 182
章末練習 ⑦ 184
專欄 7 「無法計算期望值」的抽獎 186
後記 187
主要參考文獻 189
索引 190
書摘/試閱
1-1 當有人問你「每週喝幾次酒」,你會覺得很難回答嗎?
我很喜歡喝酒(或者應該說,我很喜歡酒宴時的氣氛)。朋友們知道這件事後,一定會問我:「平均每週喝幾次酒?」
我覺得這個問題實在很難回答。我從來不曾認真記錄哪天有喝酒、哪天沒喝,更不會像是計算棒球選手的打擊率那樣,計算每天喝酒情況的變化。但是,問我這個問題的人也不認為我會這麼做吧?
事實上,我喝酒的頻率變動很大。雖然我沒有晚酌的習慣,但是想喝酒的時候,每天晚上都會喝一些。但如果幾天不喝,就會像變了一個人似的,整個月都不碰酒精。就算我憑著那不怎麼可靠的記憶,計算出平均值約為「每週喝兩次」,意義也不大,因為連我自己都覺得這個答案怪怪的。「每週喝兩次」這句話聽起來就像是我會固定在每週五、六喝酒一樣,但事實並非如此。
因此,如果你是那種什麼都只想靠平均值來判斷的人,還請先別這麼快就下定論。
第 1 章中,我們會介紹各種可以代表整體數據的數值,「平均值(期望值)」就是其中之一。
上面的例子中,當我被朋友問到「平均每週喝幾次酒」,我很難回答得出來。由這個例子可以知道,有時候「平均值並不是最適合用來代表整體數據的數值」。還請先記住這點,並繼續往下閱讀。
1-6 由直方圖的形狀,可以看出某些數據不適合用「平均值」來描述
次頁是A 公司到E 公司共五家公司的月薪直方圖。從這些直方圖可以看出這些公司的幾個特徵。
首先,A 公司、B 公司、C 公司的直方圖皆為左右對稱,而且 A 公司與 B 公司只有一個峰。這種只有一個峰、相對單純的分配,稱做「單峰型」分配。譬如男性身高的分配,就是單峰型分配的典型例子。
相較於此,C 公司的月薪分配有兩個峰。有兩個峰或更多峰的分配,稱做「多峰型」分配。舉例來說,如果不分男女,統計所有人的身高並做成次數分配表,就會是多峰型分配;在考試時,若明顯有一群人比較會解題,另一群人比較不會,則成績分配也會是多峰型。
至於 D 公司與 E 公司的月薪分配則非左右對稱,而是集中在左側。日本媒體常會報導棒球選手的年薪,他們的個人所得分配也明顯不是左右對稱。
回來談談平均值,當單峰型數據的直方圖左右對稱(或者接近左右對稱)時,以平均值做為整體數據的代表值,不會有什麼問題。
但是,如果是像 C 公司那樣的多峰型數據,即使左右對稱,平均值也無法做為整體數據的代表值。E 公司那種具有明顯落差的數據就更不用說了。
下一節中,我們就來談談除了平均值,還有哪些數值可以代表整體數據。
5-1 從部分數據估計整體數據
本章要說明的是「估計」方法。在這之前,先來看看以下這個簡單的例子。
若想知道日本所有滿 20 歲成年男子的平均身高,不可能花費大量時間和人力去實際調查每個日本成年男子的身高。更何況,在量所有人身高的期間內,調查對象也可能發生變化。例如某些已量完身高的人在這段期間內死亡,或者某些原本未成年的男子在這段期間內長為成人。
因此實務上,會從所有日本成年男子中選出一部分,只調查這些人的身高,再用這些數據去估計所有日本成年男子的身高。這就是本章要介紹的方法,如何從部分數據估計整體數據。
像是「所有日本成年男子」這種由所有調查對象構成的集合,稱做「母體」。為了分析母體資訊,從母體中選擇出來的部分對象,則稱做「樣本」。
如前所述,有時候我們無法知道母體內所有對象的資訊,例如以下情形
(1)母體內有非常多調查對象的時候。例如所有日本成年男子。
(2)雖然母體內的調查對象沒有很多,但不可能調查所有對象的時候。例如罐頭品質。
(3)發生在未來,不可能現在調查的數據。例如明年的失業率。
下一節中,將用幾個例子來說明估計方法
主題書展
更多書展今日66折
您曾經瀏覽過的商品
購物須知
為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。
若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。