Course Code: bdbiga
Duration: 35 hours
Prerequisites:
  • 在其領域內瞭解政府業務運營和數據系統的基本知識
  • 基本瞭解 SQL/Oracle 或關係資料庫
  • 基本瞭解 Statistics(電子表格級別) 
Overview:

技术的进步和信息量的增加正在改变包括政府在内的许多行业的业务开展方式。Go由于移动设备和应用程序、智能传感器和设备、云计算解决方案以及面向公民的门户的快速增长,数据生成和数字归档率正在上升。随着数字信息的扩展和日益复杂,信息管理、处理、存储、安全和处置也变得更加复杂。新的捕获、搜索、发现和分析工具正在帮助组织从其非结构化数据中获得见解。政府市场正处于一个转折点,他们意识到信息是一种战略资产,政府需要保护、利用和分析结构化和非结构化信息,以便更好地服务和满足任务要求。随着政府领导者努力发展数据驱动型组织以成功完成使命,他们正在为关联事件、人员、流程和信息之间的依赖关系奠定基础。

高价值的政府解决方案将由最具颠覆性的技术混合而成:

  • 移动设备和应用程序
  • 云服务
  • 社交商业技术和网络
  • Big Data 和分析

IDC 预测,到 2020 年,IT 行业将达到 5 万亿美元,比现在大约 1.7 万亿美元,而该行业 80% 的增长将由这些第三平台技术推动。从长远来看,这些技术将成为处理日益增长的数字信息复杂性的关键工具。Big Data 是智能行业解决方案之一,它允许政府根据分析大量数据(相关和不相关、结构化和非结构化)所揭示的模式采取行动,从而做出更好的决策。

“理解这些大量的Big Data需要尖端的工具和技术,这些工具和技术可以从大量不同的信息流中分析和提取有用的知识,”白宫科技政策办公室的Tom Kalil和Fen Zhao在OSTP博客上的一篇文章中写道。

白宫在2012年建立国家Big Data研究与开发计划(National Big Data Research and Development Initiative)时,在帮助各机构发现这些技术方面迈出了一步。该计划包括超过 2 亿美元,以充分利用 Big Data 的爆炸式增长以及分析它所需的工具。

Big Data 带来的挑战几乎与它的承诺一样令人生畏。高效存储数据是这些挑战之一。与往常一样,预算紧张,因此机构必须最大限度地降低每兆字节的存储价格,并使数据易于访问,以便用户可以在需要时以需要的方式获取数据。备份海量数据加剧了这一挑战。

有效分析数据是另一个重大挑战。许多机构采用商业工具,使他们能够筛选海量数据,发现可以帮助他们更有效地运营的趋势。(MeriTalk 最近的一项研究发现,联邦 IT 高管认为 Big Data 可以帮助机构节省超过 5000 亿美元,同时实现任务目标。

定制开发的 Big Data 工具还使机构能够满足分析其数据的需求。例如,橡树岭国家实验室的计算数据分析小组已将其食人鱼数据分析系统提供给其他机构。该系统帮助医学研究人员找到了一种联系,可以在主动脉瘤发作之前提醒医生注意主动脉瘤。它还用于更平凡的任务,例如筛选简历以将求职者与招聘经理联系起来。

Course Outline:

每節課為2小時

第 1 天:第 1 節:業務概述,為什麼在 Govt.

  • 美國國立衛生研究院、美國能源部的案例研究
  • 政府機構的大數據適應率,以及他們如何圍繞大數據調整未來的運營Predictive Analytics
  • 在國防部、國家安全局、美國國稅局、美國農業部等廣泛的應用領域。
  • 將大數據與遺留數據對接
  • 對預測分析中的使能技術有基本的瞭解
  • 數據集成和儀錶板可視化
  • 欺詐管理
  • 業務規則/欺詐檢測生成
  • 威脅檢測和分析
  • 大數據實施的成本效益分析

第一天:第二節:Big Data-1介紹

  • 大數據的主要特徵——數量、種類、速度和準確性。卷的 MPP 體系結構。
  • 數據倉庫 – 靜態模式,緩慢演變的數據集
  • MPP 資料庫,如 Greenplum、Exadata、Teradata、Netezza、Vertica 等。
  • 基於Hadoop的解決方案 – 對數據集的結構沒有條件。
  • 典型模式:HDFS、MapReduce(crunch)、從 HDFS 檢索
  • 批處理 - 適用於分析/非互動式
  • 卷 : CEP 流數據
  • 典型選擇 – CEP 產品(例如 Infostreams、Apama、MarkLogic 等)
  • 生產準備不足 – Storm/S4
  • NoSQL 資料庫 – (列式和鍵值):最適合作為數據倉庫/資料庫的分析輔助工具

第 1 天:第 -3 節:Big Data-2 簡介

否SQL個解決方案

  • KV Store - Keyspace、Flare、SchemaFree、RAMCloud、Oracle NoSQL 資料庫 (OnDB)
  • KV 商店 - Dynamo、Voldemort、Dynomite、SubRecord、Mo8onDb、DovetailDB
  • KV 儲存(分層)- GT.m、快取
  • KV Store(已訂購)- TokyoTyrant、Lightcloud、NMDB、Luxio、MemcacheDB、Actord
  • KV 快取 - Memcached、Repcached、Coherence、Infinispan、EXtremeScale、JBossCache、Velocity、Terracoqua
  • 元組存儲 - Gigaspaces、Coord、Apache River
  • 對象資料庫 - ZopeDB、DB40、Shoal
  • 文檔存儲 - CouchDB、Cloudant、Couchbase、MongoDB、Jackrabbit、XML-Databases、ThruDB、CloudKit、Prsevere、Riak-Basho、Scalaris
  • 廣泛的列式存儲 - BigTable、HBase、Apache Cassandra、Hypertable、KAI、OpenNeptune、Qbase、KDI

數據的種類:大數據中的Data Cleaning問題簡介

  • RDBMS – 靜態結構/模式,不提倡敏捷、探索性環境。
  • NoSQL – 半結構化的,足夠的結構來存儲數據,在存儲數據之前沒有精確的模式
  • 數據清理問題

第一天:第四節:大數據介紹-3:Hadoop

  • 何時選擇 Hadoop?
  • 結構化 - 企業數據倉庫/資料庫可以存儲大量數據(有成本),但會強加結構(不利於主動探索)
  • SEMI 結構化數據 – 傳統解決方案 (DW/DB) 難以實現
  • 倉儲數據 = 即使在實施后也付出了巨大的努力和靜態
  • 對於各種數據和數據量,在商用硬體上處理 – HADOOP
  • 創建 Hadoop 集群所需的商品硬體

Map Reduce /HDFS 簡介

  • MapReduce – 將計算分佈在多個伺服器上
  • HDFS – 使資料在本地可用於計算過程(具有冗餘)
  • 資料 – 可以是非結構化的/無模式的(與 RDBMS 不同)
  • 開發人員有責任理解數據
  • Programming MapReduce = 使用 Java(優點/缺點),手動將數據載入到 HDFS 中

第 2 天:第 1 節:Big Data 生態系統建設 Big Data ETL:Big Data 工具的世界——使用哪一個以及何時使用?

  • Hadoop 與其他 NoSQL 解決方案
  • 用於互動式、隨機存取資料
  • Hadoop之上的Hbase(面向列的資料庫)
  • 隨機存取資料,但施加了限制(最大 1 PB)
  • 不適合臨時分析,適合日誌記錄、計數、時間序列
  • Sqoop - 從資料庫導入到 Hive 或 HDFS(JDBC/ODBC 訪問)
  • Flume – 將數據(例如.log數據)流式傳輸到HDFS

第2天:第二節:大數據Management系統

  • 移動部件、計算節點啟動/失敗:ZooKeeper - 用於配置/協調/命名服務
  • 複雜的流水線/工作流:Oozie – 管理工作流、依賴項、菊花鏈
  • 部署、配置、群集管理、升級等(系統管理員):Ambari
  • 在雲中:呼嘯

第 2 天:第 3 節:Business Intelligence 中的預測分析 -1:基礎技術和基於機器學習的 BI:

  • 機器學習簡介
  • 學習分類技術
  • 貝葉斯預測準備訓練檔
  • 支援向量機
  • KNN p-Tree代數和垂直挖掘
  • 神經網路
  • Big Data 大變數問題 -隨機森林 (RF)
  • Big Data 自動化問題 – 多模型集成射頻
  • 通過Soft10-M實現自動化
  • 文本分析工具-Treeminer
  • 敏捷學習
  • 基於智慧體的學習
  • 分散式學習
  • 用於預測分析的開源工具簡介:R、Rapidminer、Mahut

第2天:第4節預測分析生態系統2:Govt 中常見的預測分析問題。

  • 洞察分析
  • 可視化分析
  • 結構化預測分析
  • 非結構化預測分析
  • 威脅/欺詐之星/供應商分析
  • 推薦引擎
  • 模式檢測
  • 規則/場景發現 - 失敗、欺詐、優化
  • 發現根本原因
  • 情緒分析
  • CRM分析
  • 網路分析
  • 文本分析
  • 技術輔助審查
  • 欺詐分析
  • 即時分析

第3天:Sesion-1:即時和Scala在Hadoop上變得分析

  • 為什麼常見的分析演算法在 Hadoop/HDFS 中失敗
  • Apache Hama- 用於批量同步分散式計算
  • Apache SPARK-用於即時分析的集群計算
  • CMU Graphics Lab2 - 基於圖的分散式計算異步方法
  • Treeminer 基於 KNN p-Algebra 的方法可降低硬體運營成本

第3天:第2節:電子發現和取證工具

  • 基於 Big Data 的電子數據展示與舊數據 – 成本和性能的比較
  • 預測編碼和技術輔助審查 (TAR)
  • Tar 產品 (vMiner) 的現場演示,瞭解 TAR 如何工作以加快發現速度
  • 通過 HDFS 更快地建立索引 – 資料速度
  • NLP 或自然語言處理 – 各種技術和開源產品
  • 外語電子取證 - 外語處理技術

第 3 天:第 3 節:大數據 BI for Cyber Security – 瞭解從快速數據收集到威脅識別的整個 360 度視圖

  • 瞭解安全分析的基礎知識 - 攻擊面、安全配置錯誤、主機防禦
  • 網路基礎設施/大型數據管道/用於即時分析的回應 ETL
  • 規範性與預測性 – 從元數據中修復基於規則與自動發現威脅規則

第3天:第4節:Big Data在美國農業部:在農業中的應用

  • 基於農業感測器的IoT(物聯網)簡介Big Data和控制
  • 衛星成像簡介及其在農業中的應用
  • 集成感測器和圖像數據,用於土壤肥力、栽培建議和預測
  • 農業保險和 Big Data
  • 作物損失預測

第 4 天:第 1 節:Govt-Fraud 分析中來自大數據的欺詐預防 BI:

  • 欺詐分析的基本分類 - 基於規則的分析與預測分析
  • 用於欺詐模式檢測的監督式與無監督式機器學習
  • 供應商欺詐/項目多收費用
  • Medicare 和 Medicaid 欺詐 - 用於索賠處理的欺詐檢測技術
  • 差旅報銷欺詐
  • 國稅局退稅欺詐
  • 只要有數據,就會提供案例研究和現場演示。

第 4 天:第 2 節:Social Media 分析 - 情報收集和分析

  • 用於提取社交媒體數據的大數據 ETL API
  • 文字、圖像、元數據和視頻
  • 來自社交媒體提要的情緒分析
  • 社交媒體提要的上下文和非上下文過濾
  • Social Media 用於整合各種社交媒體的儀錶板
  • 社交媒體資料的自動分析
  • 每個分析的現場演示將通過Treeminer工具提供。

第4天:第3節:Big Data 圖像處理和視頻饋送分析

  • Big Data 中的圖像存儲技術 - 超過 PB 的數據的儲存解決方案
  • LTFS 和 LTO
  • GPFS-LTFS(大圖像資料分層儲存解決方案)
  • 圖像分析的基礎
  • 物體識別
  • 圖像分割
  • 運動跟蹤
  • 3D圖像重建

第 4 天:第 4 節:Big Data NIH 中的應用:

  • Bio-資訊學的新興領域
  • 元基因組學和大數據挖掘問題
  • 藥物基因組學、代謝組學和蛋白質組學的大數據預測分析
  • 基因組學下游流程中的大數據
  • 大數據預測分析在公共衛生中的應用

Big Data 用於快速存取各種資料和顯示的儀錶板:

  • 現有應用平臺與大數據儀錶盤的整合
  • 大數據管理
  • 大數據儀錶板案例研究:Tableau 和 Pentaho
  • 使用大數據應用程式在政府中推送基於位置的服務。
  • 跟蹤系統和管理

第 5 天:第 1 節:如何證明 Big Data BI 在組織內實施的合理性:

  • 定義 Big Data 實施的 ROI
  • 節省分析師收集和準備數據時間的案例研究 - 提高生產力
  • 通過節省許可資料庫成本獲得收入的案例研究
  • 基於位置的服務的收入收益
  • 從欺詐預防中節省成本
  • 一種集成的電子錶格方法,用於計算 Big Data 實施的近似費用與收入收益/節省。

第 5 天:第 2 節:將遺留數據系統替換為 Big Data 系統的分步過程:

  • 了解實用 Big Data 遷移路線圖
  • 在構建 Big Data 實現之前需要哪些重要資訊
  • 計算數據量、速度、多樣性和準確性的不同方法有哪些
  • 如何估算數據增長
  • 案例研究

第 5 天:第 4 節:審查 Big Data 供應商並審查他們的產品。問答環節:

  • 埃森哲
  • APTEAN(前身為 CDC Software)
  • 思科系統
  • 克勞德拉
  • 山谷
  • 電磁相容
  • GoodData公司
  • 番石榴
  • 日立數據系統
  • 霍頓工廠
  • 惠普
  • IBM公司
  • 資訊網
  • 英特爾
  • Jaspersoft的
  • Microsoft
  • MongoDB(以前稱為 10Gen)
  • MU西格瑪
  • NetApp 的
  • Opera 解決方案
  • 神諭
  • 貝爾塔霍
  • 普拉特福拉
  • Qliktech的
  • 量子
  • 機架空間
  • 革命分析
  • Salesforce的
  • 樹液
  • SAS學院
  • 西森
  • 軟體 AG/Terracotta
  • Soft10 自動化
  • Splunk的
  • 平方
  • Supermicro 超微
  • Tableau 軟體
  • Teradata的
  • 大分析思維
  • 潮汐系統
  • 樹礦工
  • VMware (EMC 的一部分)
Sites Published:

United Arab Emirates - Big Data Business Intelligence for Govt. Agencies

Qatar - Big Data Business Intelligence for Govt. Agencies

Egypt - Big Data Business Intelligence for Govt. Agencies

Saudi Arabia - Big Data Business Intelligence for Govt. Agencies

South Africa - Big Data Business Intelligence for Govt. Agencies

Brasil - Inteligência de Negócios Big Data para Agências do Governo

Canada - Big Data Business Intelligence for Govt. Agencies

中国 - Big Data Business Intelligence for Govt. Agencies

香港 - Big Data Business Intelligence for Govt. Agencies

澳門 - Big Data Business Intelligence for Govt. Agencies

台灣 - Big Data Business Intelligence for Govt. Agencies

USA - Big Data Business Intelligence for Govt. Agencies

Österreich - Big Data Business Intelligence for Govt. Agencies

Schweiz - Big Data Business Intelligence for Govt. Agencies

Deutschland - Big Data Business Intelligence for Govt. Agencies

Czech Republic - Big Data Business Intelligence for Govt. Agencies

Denmark - Big Data Business Intelligence for Govt. Agencies

Estonia - Big Data Business Intelligence for Govt. Agencies

Finland - Big Data Business Intelligence for Govt. Agencies

Greece - Big Data Business Intelligence for Govt. Agencies

Magyarország - Big Data Business Intelligence for Govt. Agencies

Ireland - Big Data Business Intelligence for Govt. Agencies

Luxembourg - Big Data Business Intelligence for Govt. Agencies

Latvia - Big Data Business Intelligence for Govt. Agencies

España - Inteligencia de Negocios de Big Data para Agencias del Gobierno

Italia - Big Data Business Intelligence for Govt. Agencies

Lithuania - Big Data Business Intelligence for Govt. Agencies

Nederland - Big Data Business Intelligence for Govt. Agencies

Norway - Big Data Business Intelligence for Govt. Agencies

Portugal - Inteligência de Negócios Big Data para Agências do Governo

România - Big Data Business Intelligence for Govt. Agencies

Sverige - Big Data Business Intelligence for Govt. Agencies

Türkiye - Big Data Business Intelligence for Govt. Agencies

Malta - Big Data Business Intelligence for Govt. Agencies

Belgique - Big Data Business Intelligence for Govt. Agencies

France - Big Data Business Intelligence for Govt. Agencies

日本 - Big Data Business Intelligence for Govt. Agencies

Australia - Big Data Business Intelligence for Govt. Agencies

Malaysia - Big Data Business Intelligence for Govt. Agencies

New Zealand - Big Data Business Intelligence for Govt. Agencies

Philippines - Big Data Business Intelligence for Govt. Agencies

Singapore - Big Data Business Intelligence for Govt. Agencies

Thailand - Big Data Business Intelligence for Govt. Agencies

Vietnam - Big Data Business Intelligence for Govt. Agencies

India - Big Data Business Intelligence for Govt. Agencies

Argentina - Inteligencia de Negocios de Big Data para Agencias del Gobierno

Chile - Inteligencia de Negocios de Big Data para Agencias del Gobierno

Costa Rica - Inteligencia de Negocios de Big Data para Agencias del Gobierno

Ecuador - Inteligencia de Negocios de Big Data para Agencias del Gobierno

Guatemala - Inteligencia de Negocios de Big Data para Agencias del Gobierno

Colombia - Inteligencia de Negocios de Big Data para Agencias del Gobierno

México - Inteligencia de Negocios de Big Data para Agencias del Gobierno

Panama - Inteligencia de Negocios de Big Data para Agencias del Gobierno

Peru - Inteligencia de Negocios de Big Data para Agencias del Gobierno

Uruguay - Inteligencia de Negocios de Big Data para Agencias del Gobierno

Venezuela - Inteligencia de Negocios de Big Data para Agencias del Gobierno

Polska - Big Data Business Intelligence for Govt. Agencies

United Kingdom - Big Data Business Intelligence for Govt. Agencies

South Korea - Big Data Business Intelligence for Govt. Agencies

Pakistan - Big Data Business Intelligence for Govt. Agencies

Sri Lanka - Big Data Business Intelligence for Govt. Agencies

Bulgaria - Big Data Business Intelligence for Govt. Agencies

Bolivia - Inteligencia de Negocios de Big Data para Agencias del Gobierno

Indonesia - Big Data Business Intelligence for Govt. Agencies

Kazakhstan - Big Data Business Intelligence for Govt. Agencies

Moldova - Big Data Business Intelligence for Govt. Agencies

Morocco - Big Data Business Intelligence for Govt. Agencies

Tunisia - Big Data Business Intelligence for Govt. Agencies

Kuwait - Big Data Business Intelligence for Govt. Agencies

Oman - Big Data Business Intelligence for Govt. Agencies

Slovakia - Big Data Business Intelligence for Govt. Agencies

Kenya - Big Data Business Intelligence for Govt. Agencies

Nigeria - Big Data Business Intelligence for Govt. Agencies

Botswana - Big Data Business Intelligence for Govt. Agencies

Slovenia - Big Data Business Intelligence for Govt. Agencies

Croatia - Big Data Business Intelligence for Govt. Agencies

Serbia - Big Data Business Intelligence for Govt. Agencies

Bhutan - Big Data Business Intelligence for Govt. Agencies

Nepal - Big Data Business Intelligence for Govt. Agencies

Uzbekistan - Big Data Business Intelligence for Govt. Agencies