沒有大數據分析力,AI就不存在!如何用一張Excel找出數據價值,做出更精準的商業決策?:從蒐集、分析、解讀、應用到傳達,培養企業最需要的AI資料科學力一本就夠!
商品資訊
系列名:view
ISBN13:9786267216521
替代書名:「それ、根拠あるの?」と言わせない データ・統計分析ができる本
出版社:好優文化
作者:柏木吉基
譯者:黃瓊仙
出版日:2023/08/31
裝訂/頁數:平裝/256頁
規格:23cm*17cm*1.8cm (高/寬/厚)
版次:1
適性閱讀分級:627【十年級】
商品簡介
作者簡介
序
目次
書摘/試閱
相關商品
商品簡介
∖Amazon 4顆星好評推薦∕
「最強AI」ChatGPT問世
背後仰賴的正是龐大的數據資料庫
資料與資料間的關聯性如何化為商業價值?
本書帶你探討背後的核心基礎
追趕AI前先培養大數據分析力!
人工智慧說白了就是統計學,會分析就會活用。
做企劃、提預算、估風險、分析市場……,
一張Excel教你搞定所有工作實務。
STEP 1:目的→假設→方法,順序不能顛倒
大數據時代,所有資料都能被分析,但得到的「結果」是否符合最初「目的」?不想到頭來白忙一場,本書教你:
提案前這樣思考最終目的,後續才能產生連結。
成立假設4重點,避免一步錯步步錯。
網羅資料4方法,讓訊息「可視化」才易於比較。
STEP 2:沒學過統計也沒關係!這樣做讓數字發揮真正價值
數字資料不是拿來就用,「分解」、「比較」都有訣竅,實務應用時才有意義:
單位、屬性、時間等基軸的交叉組合,會得到各式的觀點。
比較資料時務必確定「基準點」,否則將有天差地別的解讀(例如,A點到B點呈上升型態;B點到C點呈下降型態,那麼到底是市場擴大了,還是業績停滯了呢?)
無法取得資料時,也可以「創造」?讓作者教你該怎麼做。
STEP 3:定位市場 + 管理風險,懂這些數據就夠
當一項商品要投入市場前,得先推敲規模(例如,買氣如何、價格怎麼訂、多久才能回本、營運風險有多大等等),才能擬定策略:
平均數:將平均數乘以其他變數,就能大致掌握市場規模,倒過來計算,也能知道多少銷量才能達到收益目標。
中位數:有時特定區域會拉大平均數,讓人誤判現實,所以最好搭配中位數來檢視。
標準差:光靠平均數還不夠,透過「偏差值」更能檢視營運狀況。利用「直方圖」將離散程度視覺化,推估風險衝擊程度,就能做出合理假設,並模擬最壞狀況。
STEP 4:善用相關係數,讓錢花在刀口上
輸入資訊,0.5秒就跑出圖表,這是該加碼或該收手的訊息?怎樣才能花最少錢創造最大效益?廣告vs折價券,哪一個能讓營業額提升?算出相關係數,確認資料之間的強弱關係,就能找出利潤最大化的策略。特別注意:
相關程度無關數值大小,只是顯示強弱程度。
就算不具相關性的資料,也能算出相關係數,7技巧教你避開陷阱。
愈是重要的資料,愈要製作成分布圖,以便觀察整體狀況。
STEP 5:提出假設,邊思考邊修正目標計畫
用國中生都學過y=ax+b(單一迴歸分析)公式,就能看出資料間的關聯性。如何從斜率值看出成本效益?怎樣計算KPI目標值?答案就藏在一張EXCEL裡。
STEP 6:轉換思考模式,簡報才不會功虧一簣
辛苦分析了半天,當然希望提案能被認同,切記,分析和傳達本來就是兩件事,別只是丟出一堆圖表和訊息而已,你應該:
要以分析結果當作結論的依據。
將資料圖表化,並以簡潔文字歸納出重點。
註記資料來源,更能提高可信度。
――本書特色――
不諳統計分析的初學者也能輕鬆上手。
情境式模擬實務狀況,解決你的職場痛點。
不必死背硬記,什麼狀況下該套用什麼函數不藏私大公開。
――專文推薦――
張維元│「資料科學家的工作日常」版主
鄭宗記│政治大學商學院專任教授
賴彥甫│創創集團執行長/共同創辦人
(依姓氏筆畫排列)
――專業推薦――
蘇書平│先行智庫執行長
*本書為《會分析是基本功,看懂結果才最強》的全新增訂版
「最強AI」ChatGPT問世
背後仰賴的正是龐大的數據資料庫
資料與資料間的關聯性如何化為商業價值?
本書帶你探討背後的核心基礎
追趕AI前先培養大數據分析力!
人工智慧說白了就是統計學,會分析就會活用。
做企劃、提預算、估風險、分析市場……,
一張Excel教你搞定所有工作實務。
STEP 1:目的→假設→方法,順序不能顛倒
大數據時代,所有資料都能被分析,但得到的「結果」是否符合最初「目的」?不想到頭來白忙一場,本書教你:
提案前這樣思考最終目的,後續才能產生連結。
成立假設4重點,避免一步錯步步錯。
網羅資料4方法,讓訊息「可視化」才易於比較。
STEP 2:沒學過統計也沒關係!這樣做讓數字發揮真正價值
數字資料不是拿來就用,「分解」、「比較」都有訣竅,實務應用時才有意義:
單位、屬性、時間等基軸的交叉組合,會得到各式的觀點。
比較資料時務必確定「基準點」,否則將有天差地別的解讀(例如,A點到B點呈上升型態;B點到C點呈下降型態,那麼到底是市場擴大了,還是業績停滯了呢?)
無法取得資料時,也可以「創造」?讓作者教你該怎麼做。
STEP 3:定位市場 + 管理風險,懂這些數據就夠
當一項商品要投入市場前,得先推敲規模(例如,買氣如何、價格怎麼訂、多久才能回本、營運風險有多大等等),才能擬定策略:
平均數:將平均數乘以其他變數,就能大致掌握市場規模,倒過來計算,也能知道多少銷量才能達到收益目標。
中位數:有時特定區域會拉大平均數,讓人誤判現實,所以最好搭配中位數來檢視。
標準差:光靠平均數還不夠,透過「偏差值」更能檢視營運狀況。利用「直方圖」將離散程度視覺化,推估風險衝擊程度,就能做出合理假設,並模擬最壞狀況。
STEP 4:善用相關係數,讓錢花在刀口上
輸入資訊,0.5秒就跑出圖表,這是該加碼或該收手的訊息?怎樣才能花最少錢創造最大效益?廣告vs折價券,哪一個能讓營業額提升?算出相關係數,確認資料之間的強弱關係,就能找出利潤最大化的策略。特別注意:
相關程度無關數值大小,只是顯示強弱程度。
就算不具相關性的資料,也能算出相關係數,7技巧教你避開陷阱。
愈是重要的資料,愈要製作成分布圖,以便觀察整體狀況。
STEP 5:提出假設,邊思考邊修正目標計畫
用國中生都學過y=ax+b(單一迴歸分析)公式,就能看出資料間的關聯性。如何從斜率值看出成本效益?怎樣計算KPI目標值?答案就藏在一張EXCEL裡。
STEP 6:轉換思考模式,簡報才不會功虧一簣
辛苦分析了半天,當然希望提案能被認同,切記,分析和傳達本來就是兩件事,別只是丟出一堆圖表和訊息而已,你應該:
要以分析結果當作結論的依據。
將資料圖表化,並以簡潔文字歸納出重點。
註記資料來源,更能提高可信度。
――本書特色――
不諳統計分析的初學者也能輕鬆上手。
情境式模擬實務狀況,解決你的職場痛點。
不必死背硬記,什麼狀況下該套用什麼函數不藏私大公開。
――專文推薦――
張維元│「資料科學家的工作日常」版主
鄭宗記│政治大學商學院專任教授
賴彥甫│創創集團執行長/共同創辦人
(依姓氏筆畫排列)
――專業推薦――
蘇書平│先行智庫執行長
*本書為《會分析是基本功,看懂結果才最強》的全新增訂版
作者簡介
作者/柏木吉基
1972年出生,日本神奈川縣人。慶應義塾大學理工學部畢業後,進入日立製作所工作。取得美國Goizueta Business School的MBA學位。2004年進入日產汽車工作。任職於海外行銷&銷售部門後,成為組織開發部企業改革小組經理。在董事的領導下,參與「新公司、新組織的成立方案」、「全球業務流程分析、評價、改善」、「人才養成計畫」、「人、物等的全球資源最適化」等的經營課題解決企畫案。平日就在推廣思考決策論(Decision Science)。走遍全世界120個國家,舊東海道五百公里。
專業審定/胡智超
經歷:
1. 台南大學教育系測驗組。
2. 台南大學測驗統計研究所碩士班。
3. 台灣南部地區資優學生甄選(含縮修)題庫資源之擴充與管理:96/03/01~98/06/30負責自然科(可google「資優 GISA」, 7/1到隔年2月在國小實習和考教師檢定)。
4. 99-101年度攜手計畫課後扶助方案學生評量計畫:99/03/01~99/07/31負責英文科(3月回研究所完成論文時加入此計畫。於8月初去當兵,離開計畫)。
5. 國家華語能力測驗電腦適性化題庫研發計畫(華測會):100/09/07~101/08/14(退伍後隔天便進入華測會擔任測驗統計分析師)。
6. 國立彰化特殊教育學校:101/08/22~迄今,擔任國小部導師。
譯者/黃瓊仙
輔仁大學日文系畢業。熱愛文字工作的專職譯者,希望讓讀者感受輕鬆、愉悅的閱讀經驗。
1972年出生,日本神奈川縣人。慶應義塾大學理工學部畢業後,進入日立製作所工作。取得美國Goizueta Business School的MBA學位。2004年進入日產汽車工作。任職於海外行銷&銷售部門後,成為組織開發部企業改革小組經理。在董事的領導下,參與「新公司、新組織的成立方案」、「全球業務流程分析、評價、改善」、「人才養成計畫」、「人、物等的全球資源最適化」等的經營課題解決企畫案。平日就在推廣思考決策論(Decision Science)。走遍全世界120個國家,舊東海道五百公里。
專業審定/胡智超
經歷:
1. 台南大學教育系測驗組。
2. 台南大學測驗統計研究所碩士班。
3. 台灣南部地區資優學生甄選(含縮修)題庫資源之擴充與管理:96/03/01~98/06/30負責自然科(可google「資優 GISA」, 7/1到隔年2月在國小實習和考教師檢定)。
4. 99-101年度攜手計畫課後扶助方案學生評量計畫:99/03/01~99/07/31負責英文科(3月回研究所完成論文時加入此計畫。於8月初去當兵,離開計畫)。
5. 國家華語能力測驗電腦適性化題庫研發計畫(華測會):100/09/07~101/08/14(退伍後隔天便進入華測會擔任測驗統計分析師)。
6. 國立彰化特殊教育學校:101/08/22~迄今,擔任國小部導師。
譯者/黃瓊仙
輔仁大學日文系畢業。熱愛文字工作的專職譯者,希望讓讀者感受輕鬆、愉悅的閱讀經驗。
序
前言 /一張EXCEL,輕鬆看懂分析結果
「我想成為數字解讀能力很強的商務人士。」
這句話背後涵蓋了許多事。要將腦海裡知曉的事物,與每天工作的自己連結在一起,確實很難。應該很多人有這種感嘆吧?
數字只要再加點東西,就能獲得看不到的情報,這種「數字加工法」就叫做「統計」或「資料分析」。
不管你手邊有無資料,如果不懂這個加工方法,在許多情況下,其實你已經錯過了寶貴資訊。
那麼,如果有訣竅和技巧能降低整理數字的難度,可以更有效地使用統計數字或資料分析數字,不是很棒嗎?
可是應該有不少人,就算閱讀過坊間多本傳授統計和分析方法的書籍,卻還是無法加以活用吧?
統計或資料分析只是一個名詞稱號,其實個中方法所涵蓋的範圍很廣,沒有真正的極限標準。
不過,除了部分專門行業,還是要學會,商務人士在一般商業現場會用到的基本知識。
首先將焦點鎖定於方便使用的方法,學會有效的應用訣竅及思考模式後,慢慢地,你會覺得學會這些方法是「值得」且「聰明」的。
基於這樣的考量,本書傳授的方法從「平均分析法」到「單一迴歸分析法」都網羅在內。只要透過一張Excel,就能輕鬆活用每個方法,並可以立刻得知分析結果。
本書重點如下:
(1)看到眼前的資料,如何跨出第一步並加以利用。
(2)有效利用「分析出來的結果」。
(3)透過分析,創造具說服力的故事情節。
整體而言,本書以「製作事業計畫書」為例,介紹資料的實務使用方法。不過,本書並不是事業計畫書製作方法的教學指南,請各位諒解。
如果本書能成為,讓你變成「擁有優異數字解讀能力之商務人士」的入門書,深感榮幸。
2013年4月
柏木吉基
「我想成為數字解讀能力很強的商務人士。」
這句話背後涵蓋了許多事。要將腦海裡知曉的事物,與每天工作的自己連結在一起,確實很難。應該很多人有這種感嘆吧?
數字只要再加點東西,就能獲得看不到的情報,這種「數字加工法」就叫做「統計」或「資料分析」。
不管你手邊有無資料,如果不懂這個加工方法,在許多情況下,其實你已經錯過了寶貴資訊。
那麼,如果有訣竅和技巧能降低整理數字的難度,可以更有效地使用統計數字或資料分析數字,不是很棒嗎?
可是應該有不少人,就算閱讀過坊間多本傳授統計和分析方法的書籍,卻還是無法加以活用吧?
統計或資料分析只是一個名詞稱號,其實個中方法所涵蓋的範圍很廣,沒有真正的極限標準。
不過,除了部分專門行業,還是要學會,商務人士在一般商業現場會用到的基本知識。
首先將焦點鎖定於方便使用的方法,學會有效的應用訣竅及思考模式後,慢慢地,你會覺得學會這些方法是「值得」且「聰明」的。
基於這樣的考量,本書傳授的方法從「平均分析法」到「單一迴歸分析法」都網羅在內。只要透過一張Excel,就能輕鬆活用每個方法,並可以立刻得知分析結果。
本書重點如下:
(1)看到眼前的資料,如何跨出第一步並加以利用。
(2)有效利用「分析出來的結果」。
(3)透過分析,創造具說服力的故事情節。
整體而言,本書以「製作事業計畫書」為例,介紹資料的實務使用方法。不過,本書並不是事業計畫書製作方法的教學指南,請各位諒解。
如果本書能成為,讓你變成「擁有優異數字解讀能力之商務人士」的入門書,深感榮幸。
2013年4月
柏木吉基
目次
專文推薦1(張維元│「資料科學家的工作日常」版主)
專文推薦2(鄭宗記│政治大學商學院專任教授)
專文推薦3(賴彥甫│創創集團執行長/共同創辦人)
前言 一張EXCEL,輕鬆看懂分析結果
第1章 培養數字力,就等於養成企劃力
第1幕 /先有目的,才開始蒐集資料
你的數據資料,是否具說服力?
成立假設,分析就不會偏離目的
組合多項假設,引導出最有力論述
4個重點,成立有效的假設
利用「金字塔結構圖」,讓邏輯更順暢
專欄1 / 廣泛網羅資料,找出關聯性
第2章 蒐集資料4重點,讓數據發揮價值
第2幕 / 資料不是蒐集到就好,重點在於如何使用
弄清楚真正需要什麼,就不會受到思考限制
資料蒐集重點① 連假設範圍周邊的資料也蒐集
資料蒐集重點② 鎖定不同「主軸」,會帶出不同觀點
資料蒐集重點③ 界定不同時間範圍,多方分析比較
資料蒐集重點④ 出現「離群值」,不代表結果錯誤
為資料加工,讓分析角度變寬廣
專欄2 /比較資料時,「基準點」很重要
第3章 創造收益前,先判斷市場規模
第3幕 / 擬定策略前,先掌握市場大方向
市場規模有多大?該怎麼算?
平均數不一定是中位數,可別搞混了
中位數是什麼?2個特徵告訴你
先決定好目的,才能讓平均數發揮最大功效
專欄3/使用公開資料時,須留意可信度
第4章 數據可視化,才能有效管理風險
第4幕 /數據必須可視化,才易發現潛在風險
評估風險不能憑感覺,不妨利用「標準差」
利用Excel算出標準差
標準差在實務上的意義是……
風險如何推估?答案就在離散程度中
善用直方圖,將離散程度具體化
2步驟製作直方圖,數據意義一看就懂
以向上(下)擺動值,預估風險範圍
考量2因素,更準確掌控風險
6個好處,說明為何要採用標準差
專欄4 /2個公式,簡單分析母體資料
第 5 章 善用相關分析,讓錢花在刀口上
第5幕 / 思考策略時,要多方比較、分析相關資料
如何花最少錢,創造最大效益?
無關數值大小,相關係數是用來檢視關聯性
套用函數,0.5秒就跑出有用資訊
怎樣的相關係數,才叫有相關性?
這樣分析相關係數,才能擬定最適合的策略
避免分析做白工,你得注意……
電視廣告V.S.折扣券,哪個最能增加營業額?
專欄5 /這樣做,一次能分析多種組合
第 6 章 達成目標,需要投入多少預算?
第6幕 / 提出假設,邊思考邊修正目標計畫
單一迴歸分析,導出X、Y的關係
迴歸分析如何解讀?又有什麼意義?
簡報時,直線分析圖最容易被理解
相關係數和斜率有什麼關係?
迴歸分析法應用① 從斜率值看出成本效益
迴歸分析法應用② 模擬分析收支關係
迴歸分析法應用③ 分解資料後再進行分析
迴歸分析法應用④ 當作計算KPI的工具
專欄6 / 單一迴歸分析與多元迴歸分析,哪個較好用?
第 7 章 為什麼簡報要這樣做、那樣表達?
第7幕 簡報怎麼show,才能創造最大價值?
分析和傳達,本來就是兩件事
3種傳達方式,最易讓聽者理解
在圖表中加入訊息,聚焦重點
比較相同的軸別,更能凸顯彼此差異
邊執行邊確認,才不會偏離主軸目的
專欄7 /先鎖定範圍,再進行分析
結論 拿出數據,一擊就中
專文推薦2(鄭宗記│政治大學商學院專任教授)
專文推薦3(賴彥甫│創創集團執行長/共同創辦人)
前言 一張EXCEL,輕鬆看懂分析結果
第1章 培養數字力,就等於養成企劃力
第1幕 /先有目的,才開始蒐集資料
你的數據資料,是否具說服力?
成立假設,分析就不會偏離目的
組合多項假設,引導出最有力論述
4個重點,成立有效的假設
利用「金字塔結構圖」,讓邏輯更順暢
專欄1 / 廣泛網羅資料,找出關聯性
第2章 蒐集資料4重點,讓數據發揮價值
第2幕 / 資料不是蒐集到就好,重點在於如何使用
弄清楚真正需要什麼,就不會受到思考限制
資料蒐集重點① 連假設範圍周邊的資料也蒐集
資料蒐集重點② 鎖定不同「主軸」,會帶出不同觀點
資料蒐集重點③ 界定不同時間範圍,多方分析比較
資料蒐集重點④ 出現「離群值」,不代表結果錯誤
為資料加工,讓分析角度變寬廣
專欄2 /比較資料時,「基準點」很重要
第3章 創造收益前,先判斷市場規模
第3幕 / 擬定策略前,先掌握市場大方向
市場規模有多大?該怎麼算?
平均數不一定是中位數,可別搞混了
中位數是什麼?2個特徵告訴你
先決定好目的,才能讓平均數發揮最大功效
專欄3/使用公開資料時,須留意可信度
第4章 數據可視化,才能有效管理風險
第4幕 /數據必須可視化,才易發現潛在風險
評估風險不能憑感覺,不妨利用「標準差」
利用Excel算出標準差
標準差在實務上的意義是……
風險如何推估?答案就在離散程度中
善用直方圖,將離散程度具體化
2步驟製作直方圖,數據意義一看就懂
以向上(下)擺動值,預估風險範圍
考量2因素,更準確掌控風險
6個好處,說明為何要採用標準差
專欄4 /2個公式,簡單分析母體資料
第 5 章 善用相關分析,讓錢花在刀口上
第5幕 / 思考策略時,要多方比較、分析相關資料
如何花最少錢,創造最大效益?
無關數值大小,相關係數是用來檢視關聯性
套用函數,0.5秒就跑出有用資訊
怎樣的相關係數,才叫有相關性?
這樣分析相關係數,才能擬定最適合的策略
避免分析做白工,你得注意……
電視廣告V.S.折扣券,哪個最能增加營業額?
專欄5 /這樣做,一次能分析多種組合
第 6 章 達成目標,需要投入多少預算?
第6幕 / 提出假設,邊思考邊修正目標計畫
單一迴歸分析,導出X、Y的關係
迴歸分析如何解讀?又有什麼意義?
簡報時,直線分析圖最容易被理解
相關係數和斜率有什麼關係?
迴歸分析法應用① 從斜率值看出成本效益
迴歸分析法應用② 模擬分析收支關係
迴歸分析法應用③ 分解資料後再進行分析
迴歸分析法應用④ 當作計算KPI的工具
專欄6 / 單一迴歸分析與多元迴歸分析,哪個較好用?
第 7 章 為什麼簡報要這樣做、那樣表達?
第7幕 簡報怎麼show,才能創造最大價值?
分析和傳達,本來就是兩件事
3種傳達方式,最易讓聽者理解
在圖表中加入訊息,聚焦重點
比較相同的軸別,更能凸顯彼此差異
邊執行邊確認,才不會偏離主軸目的
專欄7 /先鎖定範圍,再進行分析
結論 拿出數據,一擊就中
書摘/試閱
成立假設,分析就不會偏離目的
本章節將介紹各種課題皆適用的成立「假設模式」。
在分析資料時,「假設」是非常有效的方法。透過成立假設,可以連結實現目的與分析資料的方法。只要學會步驟訣竅,就可以自由搭配各種資料或分析方法,實際操作遇到問題時,也不會再手足無措。
此外,假設也可以視為解決一般課題的步驟程序。它是分析必要資料的最適當方法,也是讓分析內容不會偏離目的的強力武器。
遇到問題,先思考「為什麼」
假設一直接到客訴:「送貨時間延遲」,這時候最先想到的問題應該是:「為什麼會延遲呢?」那麼,你會採取以下哪個行動?
● 詢問送貨負責人
● 確認過去的配送紀錄
● 調查送貨司機有無問題
● 調查是否是特定顧客(承辦人)來客訴
你心中是不是已經有好幾個選項了?
請先暫停,試著想想為什麼你會出現這些選項呢?應該是基於過去的經驗、感覺、常識,認為「問題可能出在這裡」,才有這些選項吧。
這種想法就稱為假設。如果換個說法,說是為了達成目的的關鍵或重點,是不是更容易理解了?
假設,就是進行分析的首要步驟
假設帶有「未加思索」的涵義,因此必須確認(驗證)其正當性。假設說法中有著不確定的因素,在這個案例中,就是指「商品寄送延遲」或「配送延宕」,如果能確認原因為何,這個假設理論就能成立。
如果想確認原因,必須使用數字(資料)進行分析。譬如,當你認為原因可能出在商品寄送承辦人身上,就會比較多位寄送承辦人的處理件數;如果認為是現在的體制有問題,就會比較過去的配送紀錄,找出問題。
也就是說,你會配合自己的假設採取行動,證明是否正確。透過分析,就可以客觀判斷是否合理,或者需要再進一步調查,讓你的判斷更具「說服力」。
為了確定分析標的,首先要「予以假設」,這是分析時的第一個重要步驟。如果確定因為「我想做XXX/想知道XXX」的目的而設立了假設,為了確認該假設是否正確,而實施的方法或使用的情報,都會變成具體的資料。
所謂的分析,就是假設方法中的確認流程,也就是「驗證假設」的作業。萬一在第一個分析階段就一直沒有結果,你必須再一次冷靜地確認,是否你的內心真是這麼想:「我想做XXX/想知道XXX」,如果只是大概想想,或一直改變心意,也可能是導致分析作業不順利的原因。
目的→假設→方法,順序很重要
再舉個例子具體說明。假設上個月的營業額是3,000件,如果沒有任何目的或假設,計算這個平均營業額將是毫無意義的事。
如果要算出平均數,為了知道上個月銷售成績佳的原因,通常會先設定「想大致瞭解上個月降價活動狀況」的目的。
為了達到目的,提出「比較去年度或前兩個月的營業額,發現是因為降價促銷的關係,讓營業額提高了」的假設。然後很自然地就會想到,「大致比較營業額,算出過去與本月平均數」的分析方法。於是,目的與方法就能合理產生連結了。
如果將「目的」→「假設」→「方法」的流程牢記在腦海,就不會不知道該選擇哪個方法,也不會在中途出現問題,還可以避免在作業過程中迷失目標。
資料蒐集重點④ 出現「離群值」,不代表結果錯誤
所有數據當中,如果有一個擁有異常數值,所在區域明顯與其他數據不同,就稱為「離群值」(outlier)(如圖2-9)。一個離群值也可能會對分析結果造成巨大影響,所以不能輕忽它的影響力。
譬如,現在要算出在某日某個時段,藥妝店來客數五十人的平均營業額,算出的結果是2,640日圓。假設在同一時段,只有一人的消費額是20,000日圓,結果因此讓平均營業額變成3,040日圓。比較兩者,一人平均消費額有了400日圓的差距。
這純粹是一名特定顧客造成的影響,如果拿這個結果去捕捉其他顧客的消費行為特徵,一定會得到錯誤訊息。
牢記這一點:「出現離群值,不見得就是錯誤的結果。」
分析作業時最重要的,就是知道「離群值是存在的」這件事,如果沒有任何正當理由,但卻出現離群值,在分析資料前,就必須把出現離群值的資料移除。
將資料圖表化,就不易錯過離群值
如果只是瀏覽原始資料,有時候會錯過離群值的存在。最好將資料製成分布圖之類的曲線圖,才能有效率地找出來。至於不自然的偏離部分,要確認之所以存在的理由。
舉之前的藥妝店為例,將資料圖表化後可注意到突出點。假設將焦點鎖定在消費20,000日圓的購買者,調查此人的購買物品。假設其購買的是好幾年才賣出一個,售價20,000日圓的健康器材,但我們的目的是「推算一般的平均購買額度」,便無從判斷這樣的資料是否妥當。
當重複分析好幾次,仍然得不到想要的結果時,就代表有被遺漏的離群值在擾亂結果,我們通常在這時候才會察覺到離群值的存在。不過只要有這層意識,就很容易找到離群值。
此外,關於離群值還有一件事務必要提高警覺:絕對不能為了得到「更完美」的分析結果,無條件地或有意圖地將離群值排外(實際上這樣的誘惑比想像中大)。
評估風險不能憑感覺,不妨利用「標準差」
不是只有商業界會發生計畫行不通的事,在世上難免會遇到不順利的時候。在擬定事業計畫時,事先設想計畫行不通時的因應對策,乃是相當重要的環節。因為就算是經過精密計算所擬定的事業計畫,實際執行時也不見得會照當初所預想的情況發展。
剛才所舉的例子中,A先生覺得算出平均數就萬無一失,上司卻對他的這個想法提出警告,之所以這麼做也是理所當然的。
第三章所舉的,使用平均法來推估大概市場規模的例子,著眼點不在於每份資料,而是如何有效率地使用歸納整理後所得的「平均數」。
不過,將大小範圍不一的數據歸納出一個平均數,雖然方便以此為依據概略掌握整體狀況,但是在歸納平均之前,每個數據所散布的範圍都不一樣。
這些大小範圍不一的數據是如何形成(分布)的,要透過「零散無序」的資料才能知道。請看圖3-5 ∼圖3-7,假設平均數都一樣,透過原始數據零散分布的情況,可以催生出各種不同的想法或觀點。
A先生在擬定事業計畫時並沒有考量到,將可能會以比當初設想平均售價還低的價格販售,最後讓這份事業計畫變成「背負著看不見風險的『畫大餅』計畫」。
為了回應上司所提出的質疑:「真的能如計畫所想進行嗎?」必須點出這個風險是潛藏在計畫的哪個部分(譬如營業額),還要清楚表明會是什麼樣的狀況,以及對於結果會造成什麼樣的影響。
因此,一定要讓數據零散程度可視化,才能表達出來。
偏差值要以平方計算,才能避免誤差
如果有好幾個數據,標準差是可表示各數據零散分布狀況的統計方法之一。
「數據零散範圍大」是指從小數值到大數值之間,各數據的間隔範圍大的意思。將之視覺化就如圖4-1所呈現。
從這個圖表可知,各數據與平均數的差距頗大。各數據與平均數的差值就稱為「偏差值」,寫成公式就是偏差值=各數據-平均數。
接下來介紹分散量數,這是表示所有數據零散分布狀況的指標之一。各數據偏差值的平方總合除以數據個數,得出的結果就是分散量數。
為何會提到平方?這是計算上的問題。有比平均數小的數據,也有比平均數大的數據,如果只是單純加上偏差值,再除以數據個數的話,可能會出現誤差,因為偏差值是合計每一個數與平均數的距離,所以有正數也有負數,因此要用平方來計算,而不是將其與平均數的差值加總計算。
譬如,如果平均數是4,6 與2 的偏差值總和就會變成0 ﹝=(6-4)+(2-4)﹞,這就是誤差了。
如果是平方的話,使用起來不是很順手,因此,可以將分散量數開根號(方均根/root),就能排除± 的影響,順利算出平均數的差值總和,也能清楚標示出「該份資料的整體分散程度」。以下是整理出來的公式。
偏差值=各個數據-平均數
分散量數=(偏差值)² 的總和/數據個數
標準差=√
左右對稱的常態分布就代表……
請看圖4-1和圖4-2,接近平均數的資料數量多、與平均數差值愈大的位置,資料數目呈遞減,這樣的資料分散情況就稱為常態分布(或也稱為常態分配,常用來說明標準差)。這樣的圖形幾乎左右對稱,呈現美麗的吊鐘形,乃是理想的資料分布圖,最適合用來計算標準差。
當資料分布狀況接近常態分布時,全部資料中約有三分之二,分布於平均數往左右一個標準差的範圍裡。換言之,如果標準差是15,全部資料的三分之二集中於從平均數開始算起,正負15 的範圍裡。
「分散間距小」是指多數資料集中於某個數值周邊的意思,就像圖4-2。相較於圖4-1,大約三分之二的資料集中範圍比較狹窄。也就是說,可以假設標準差是比圖4-1的分布範圍更小的數值。
舉個具體的例子。
某家小型商店準備使用監視器追蹤每日來客數,這項作業的執行期為三十天。計算從監視器追蹤的資料後得知,該月份的每日平均來客數是34.5人,標準差是14.6人(圖4-3)。
如前所述,如果這份資料的分布狀況是常態分布的話,所有資料約有三分之二集中於平均數左右±14.6人之間。換言之,可以直接使用標準差的值差,調查「容納大約三分之二資料的範圍」,也就是19.9(=34.5-14.6)至49.1(=34.5+ 14.6)之間,聚集了大約三分之二的資料。
這個狀況就說明了,在以常態分布為前提的條件下,三十天中約有二十天,來客人數的範圍介在19.9人至49.1人之間。
標準差比平均數更能檢視營運狀況
在實務上,標準差什麼時候能發揮功用?
標準差的最大特色在於,讓你可以概略掌握,平均數所無法顯示的資料分布狀況。
譬如,透過標準差可以幫助你做出如下的判斷:「這份資料的分布範圍極大,如果只仰賴平均數,將會非常危險。」或「這間店的營業額,在平均額方面並沒有太大變化,不過與去年相比,每週的分布範圍遞減,顯示銷售狀況趨於穩定。」(圖4-4)
再舉個例子,假設有間每月平均營業額為500萬日圓的店。只聽到平均營業額為500萬日圓,會覺得這是一間營運穩定的店。可是如果這間店的標準差是350萬日圓,會是什麼情況?標準差350萬日圓,表示多數資料集中在500萬日圓正負350萬日圓的範圍裡。
如果是我(對500萬日圓而言,350萬日圓的偏差範圍很大),會認為這間店的營運狀況存在極大的風險,甚至會想「這間店的營業額,真的能以500萬日圓作為基準計算嗎?」
相反地,如果標準差是30萬日圓,是不是就會覺得這間店的營業額為500萬日圓沒有什麼問題呢?而且相較於標準差350萬日圓的店,這間店的營運狀況顯然穩定多了(因為無法針對350萬或30萬進行縝密評價,只能憑感覺來評論)。
本章節將介紹各種課題皆適用的成立「假設模式」。
在分析資料時,「假設」是非常有效的方法。透過成立假設,可以連結實現目的與分析資料的方法。只要學會步驟訣竅,就可以自由搭配各種資料或分析方法,實際操作遇到問題時,也不會再手足無措。
此外,假設也可以視為解決一般課題的步驟程序。它是分析必要資料的最適當方法,也是讓分析內容不會偏離目的的強力武器。
遇到問題,先思考「為什麼」
假設一直接到客訴:「送貨時間延遲」,這時候最先想到的問題應該是:「為什麼會延遲呢?」那麼,你會採取以下哪個行動?
● 詢問送貨負責人
● 確認過去的配送紀錄
● 調查送貨司機有無問題
● 調查是否是特定顧客(承辦人)來客訴
你心中是不是已經有好幾個選項了?
請先暫停,試著想想為什麼你會出現這些選項呢?應該是基於過去的經驗、感覺、常識,認為「問題可能出在這裡」,才有這些選項吧。
這種想法就稱為假設。如果換個說法,說是為了達成目的的關鍵或重點,是不是更容易理解了?
假設,就是進行分析的首要步驟
假設帶有「未加思索」的涵義,因此必須確認(驗證)其正當性。假設說法中有著不確定的因素,在這個案例中,就是指「商品寄送延遲」或「配送延宕」,如果能確認原因為何,這個假設理論就能成立。
如果想確認原因,必須使用數字(資料)進行分析。譬如,當你認為原因可能出在商品寄送承辦人身上,就會比較多位寄送承辦人的處理件數;如果認為是現在的體制有問題,就會比較過去的配送紀錄,找出問題。
也就是說,你會配合自己的假設採取行動,證明是否正確。透過分析,就可以客觀判斷是否合理,或者需要再進一步調查,讓你的判斷更具「說服力」。
為了確定分析標的,首先要「予以假設」,這是分析時的第一個重要步驟。如果確定因為「我想做XXX/想知道XXX」的目的而設立了假設,為了確認該假設是否正確,而實施的方法或使用的情報,都會變成具體的資料。
所謂的分析,就是假設方法中的確認流程,也就是「驗證假設」的作業。萬一在第一個分析階段就一直沒有結果,你必須再一次冷靜地確認,是否你的內心真是這麼想:「我想做XXX/想知道XXX」,如果只是大概想想,或一直改變心意,也可能是導致分析作業不順利的原因。
目的→假設→方法,順序很重要
再舉個例子具體說明。假設上個月的營業額是3,000件,如果沒有任何目的或假設,計算這個平均營業額將是毫無意義的事。
如果要算出平均數,為了知道上個月銷售成績佳的原因,通常會先設定「想大致瞭解上個月降價活動狀況」的目的。
為了達到目的,提出「比較去年度或前兩個月的營業額,發現是因為降價促銷的關係,讓營業額提高了」的假設。然後很自然地就會想到,「大致比較營業額,算出過去與本月平均數」的分析方法。於是,目的與方法就能合理產生連結了。
如果將「目的」→「假設」→「方法」的流程牢記在腦海,就不會不知道該選擇哪個方法,也不會在中途出現問題,還可以避免在作業過程中迷失目標。
資料蒐集重點④ 出現「離群值」,不代表結果錯誤
所有數據當中,如果有一個擁有異常數值,所在區域明顯與其他數據不同,就稱為「離群值」(outlier)(如圖2-9)。一個離群值也可能會對分析結果造成巨大影響,所以不能輕忽它的影響力。
譬如,現在要算出在某日某個時段,藥妝店來客數五十人的平均營業額,算出的結果是2,640日圓。假設在同一時段,只有一人的消費額是20,000日圓,結果因此讓平均營業額變成3,040日圓。比較兩者,一人平均消費額有了400日圓的差距。
這純粹是一名特定顧客造成的影響,如果拿這個結果去捕捉其他顧客的消費行為特徵,一定會得到錯誤訊息。
牢記這一點:「出現離群值,不見得就是錯誤的結果。」
分析作業時最重要的,就是知道「離群值是存在的」這件事,如果沒有任何正當理由,但卻出現離群值,在分析資料前,就必須把出現離群值的資料移除。
將資料圖表化,就不易錯過離群值
如果只是瀏覽原始資料,有時候會錯過離群值的存在。最好將資料製成分布圖之類的曲線圖,才能有效率地找出來。至於不自然的偏離部分,要確認之所以存在的理由。
舉之前的藥妝店為例,將資料圖表化後可注意到突出點。假設將焦點鎖定在消費20,000日圓的購買者,調查此人的購買物品。假設其購買的是好幾年才賣出一個,售價20,000日圓的健康器材,但我們的目的是「推算一般的平均購買額度」,便無從判斷這樣的資料是否妥當。
當重複分析好幾次,仍然得不到想要的結果時,就代表有被遺漏的離群值在擾亂結果,我們通常在這時候才會察覺到離群值的存在。不過只要有這層意識,就很容易找到離群值。
此外,關於離群值還有一件事務必要提高警覺:絕對不能為了得到「更完美」的分析結果,無條件地或有意圖地將離群值排外(實際上這樣的誘惑比想像中大)。
評估風險不能憑感覺,不妨利用「標準差」
不是只有商業界會發生計畫行不通的事,在世上難免會遇到不順利的時候。在擬定事業計畫時,事先設想計畫行不通時的因應對策,乃是相當重要的環節。因為就算是經過精密計算所擬定的事業計畫,實際執行時也不見得會照當初所預想的情況發展。
剛才所舉的例子中,A先生覺得算出平均數就萬無一失,上司卻對他的這個想法提出警告,之所以這麼做也是理所當然的。
第三章所舉的,使用平均法來推估大概市場規模的例子,著眼點不在於每份資料,而是如何有效率地使用歸納整理後所得的「平均數」。
不過,將大小範圍不一的數據歸納出一個平均數,雖然方便以此為依據概略掌握整體狀況,但是在歸納平均之前,每個數據所散布的範圍都不一樣。
這些大小範圍不一的數據是如何形成(分布)的,要透過「零散無序」的資料才能知道。請看圖3-5 ∼圖3-7,假設平均數都一樣,透過原始數據零散分布的情況,可以催生出各種不同的想法或觀點。
A先生在擬定事業計畫時並沒有考量到,將可能會以比當初設想平均售價還低的價格販售,最後讓這份事業計畫變成「背負著看不見風險的『畫大餅』計畫」。
為了回應上司所提出的質疑:「真的能如計畫所想進行嗎?」必須點出這個風險是潛藏在計畫的哪個部分(譬如營業額),還要清楚表明會是什麼樣的狀況,以及對於結果會造成什麼樣的影響。
因此,一定要讓數據零散程度可視化,才能表達出來。
偏差值要以平方計算,才能避免誤差
如果有好幾個數據,標準差是可表示各數據零散分布狀況的統計方法之一。
「數據零散範圍大」是指從小數值到大數值之間,各數據的間隔範圍大的意思。將之視覺化就如圖4-1所呈現。
從這個圖表可知,各數據與平均數的差距頗大。各數據與平均數的差值就稱為「偏差值」,寫成公式就是偏差值=各數據-平均數。
接下來介紹分散量數,這是表示所有數據零散分布狀況的指標之一。各數據偏差值的平方總合除以數據個數,得出的結果就是分散量數。
為何會提到平方?這是計算上的問題。有比平均數小的數據,也有比平均數大的數據,如果只是單純加上偏差值,再除以數據個數的話,可能會出現誤差,因為偏差值是合計每一個數與平均數的距離,所以有正數也有負數,因此要用平方來計算,而不是將其與平均數的差值加總計算。
譬如,如果平均數是4,6 與2 的偏差值總和就會變成0 ﹝=(6-4)+(2-4)﹞,這就是誤差了。
如果是平方的話,使用起來不是很順手,因此,可以將分散量數開根號(方均根/root),就能排除± 的影響,順利算出平均數的差值總和,也能清楚標示出「該份資料的整體分散程度」。以下是整理出來的公式。
偏差值=各個數據-平均數
分散量數=(偏差值)² 的總和/數據個數
標準差=√
左右對稱的常態分布就代表……
請看圖4-1和圖4-2,接近平均數的資料數量多、與平均數差值愈大的位置,資料數目呈遞減,這樣的資料分散情況就稱為常態分布(或也稱為常態分配,常用來說明標準差)。這樣的圖形幾乎左右對稱,呈現美麗的吊鐘形,乃是理想的資料分布圖,最適合用來計算標準差。
當資料分布狀況接近常態分布時,全部資料中約有三分之二,分布於平均數往左右一個標準差的範圍裡。換言之,如果標準差是15,全部資料的三分之二集中於從平均數開始算起,正負15 的範圍裡。
「分散間距小」是指多數資料集中於某個數值周邊的意思,就像圖4-2。相較於圖4-1,大約三分之二的資料集中範圍比較狹窄。也就是說,可以假設標準差是比圖4-1的分布範圍更小的數值。
舉個具體的例子。
某家小型商店準備使用監視器追蹤每日來客數,這項作業的執行期為三十天。計算從監視器追蹤的資料後得知,該月份的每日平均來客數是34.5人,標準差是14.6人(圖4-3)。
如前所述,如果這份資料的分布狀況是常態分布的話,所有資料約有三分之二集中於平均數左右±14.6人之間。換言之,可以直接使用標準差的值差,調查「容納大約三分之二資料的範圍」,也就是19.9(=34.5-14.6)至49.1(=34.5+ 14.6)之間,聚集了大約三分之二的資料。
這個狀況就說明了,在以常態分布為前提的條件下,三十天中約有二十天,來客人數的範圍介在19.9人至49.1人之間。
標準差比平均數更能檢視營運狀況
在實務上,標準差什麼時候能發揮功用?
標準差的最大特色在於,讓你可以概略掌握,平均數所無法顯示的資料分布狀況。
譬如,透過標準差可以幫助你做出如下的判斷:「這份資料的分布範圍極大,如果只仰賴平均數,將會非常危險。」或「這間店的營業額,在平均額方面並沒有太大變化,不過與去年相比,每週的分布範圍遞減,顯示銷售狀況趨於穩定。」(圖4-4)
再舉個例子,假設有間每月平均營業額為500萬日圓的店。只聽到平均營業額為500萬日圓,會覺得這是一間營運穩定的店。可是如果這間店的標準差是350萬日圓,會是什麼情況?標準差350萬日圓,表示多數資料集中在500萬日圓正負350萬日圓的範圍裡。
如果是我(對500萬日圓而言,350萬日圓的偏差範圍很大),會認為這間店的營運狀況存在極大的風險,甚至會想「這間店的營業額,真的能以500萬日圓作為基準計算嗎?」
相反地,如果標準差是30萬日圓,是不是就會覺得這間店的營業額為500萬日圓沒有什麼問題呢?而且相較於標準差350萬日圓的店,這間店的營運狀況顯然穩定多了(因為無法針對350萬或30萬進行縝密評價,只能憑感覺來評論)。
主題書展
更多
主題書展
更多書展今日66折
您曾經瀏覽過的商品
購物須知
為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。
若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。