大数据演讲稿

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大數據演講稿

第二頁:人類從十三世紀以來,透過測量世界、進而征服世界,為了減少資料錯誤,確保資料品質,我們不斷改善工具,好讓測量更精準。然而現在有愈來愈多的資料,我們必須要知道資料量越多,就愈不可能精確,因此我們必須換個心態,來接受這個事實。

第三頁:在大數據的概念裏頭,我們必須以新觀念來面對新局面,我們必須跳脫「越多越好」的概念,讓愈多會比品質愈好更重要。因此我們要開始認識在這些越多的東西裏頭,無可避免會產生的雜亂問題,而也就是這個問題,我們必須了解有哪些雜亂!雜亂基本上分成三種,第一種是資料量多而產生的雜亂,越多的資料出錯率越高。第二種是資料型態不同而產生相容性問題,例如:消防員用語音辨識系統和人做受災資料蒐集,機器和人收集資料型態不同,比對時無可避面會產生雜亂,但往往更能掌握當下的實際情況。第三種是不同格式的資料型態產生的雜亂,此雜亂往往發生在提取或處理資料時,因為接收端與輸出端,資料格式不一,而產生的雜亂問題。

但我們不用擔心,舉個例子->用十隻很貴的溫度計量和一百隻便宜的溫度計量,雖然便宜不準,但蒐集越多的數據,也可以越看清全貌,因此更多的資料點,帶來的巨大價值,使得雜亂變得微不足道。總之,我們可以犧牲一點精確度,取用所有的資料點,我們更能看出整體的大趨勢。

第四頁:西洋棋規則完善,行之有年,其主要歸功於他的演算法和殘局處理能力,而殘局處理能力往往源自於它內建的殘局應對資料,而這個殘局應對分析主要是在只剩下六顆棋子的情況下,每一步都經過完整的分析,做成巨量的表供程式做運算處理,那我們發現,如果我們讓其殘局應對資料增加越多,甚至高達1TB,我們越能讓程式變得完成無暇,無人能敵。

在語料庫的例子,這個例子來自微軟在做word的文法檢查所得到的發現。他們一開始在增進文法檢查這個功能上,考慮到,是否要改良演算法、用更複雜的功能去實現,or使用更多的資料去餵給現有的演算系統,結果發現,改良演算法,準確率提升8%,但用後者方法,準確率提升足足20%以上,由此兩個例子可知資料數量子資料品質更重要。

第五頁:來到本章重點,我們逐漸打破層層的限制,我們接近樣本=母體的境界,過去我們注重資訊品質,重視的是資料的準確性與否,畢竟過去蒐集來的資料少,我們對樣本的要求也比較高。但現在,隨著科技快速的發展,我們有足夠的記憶體,足夠的運算速度,讓我們提升了資料量,讓我們從原本抽樣的方式,轉型到能夠使樣本=母體,我們追求的是整體的趨勢,即使越多的的資料會產生越多的混亂,我們依然能夠以資料量壓過現存的資料混亂,我們讓混亂在我們巨大的資料下顯得微不足道,因此得到一個結論,資料數量比資料品質更重要,寧可犧牲一點精確度,取用所有的資料點,我們反而更能看出整體的大趨勢。

相关文档
最新文档