- 在其领域内了解政府业务运营和数据系统的基本知识
- 基本了解 SQL/Oracle 或关系数据库
- 基本了解 Statistics(电子表格级别)
技术的进步和信息量的增加正在改变包括政府在内的许多行业的业务开展方式。Go由于移动设备和应用程序、智能传感器和设备、云计算解决方案以及面向公民的门户的快速增长,数据生成和数字归档率正在上升。随着数字信息的扩展和日益复杂,信息管理、处理、存储、安全和处置也变得更加复杂。新的捕获、搜索、发现和分析工具正在帮助组织从其非结构化数据中获得见解。政府市场正处于一个转折点,他们意识到信息是一种战略资产,政府需要保护、利用和分析结构化和非结构化信息,以便更好地服务和满足任务要求。随着政府领导者努力发展数据驱动型组织以成功完成使命,他们正在为关联事件、人员、流程和信息之间的依赖关系奠定基础。
高价值的政府解决方案将由最具颠覆性的技术混合而成:
- 移动设备和应用程序
- 云服务
- 社交商业技术和网络
- Big Data 和分析
IDC 预测,到 2020 年,IT 行业将达到 5 万亿美元,比现在大约 1.7 万亿美元,而该行业 80% 的增长将由这些第三平台技术推动。从长远来看,这些技术将成为处理日益增长的数字信息复杂性的关键工具。Big Data 是智能行业解决方案之一,它允许政府根据分析大量数据(相关和不相关、结构化和非结构化)所揭示的模式采取行动,从而做出更好的决策。
“理解这些大量的Big Data需要尖端的工具和技术,这些工具和技术可以从大量不同的信息流中分析和提取有用的知识,”白宫科技政策办公室的Tom Kalil和Fen Zhao在OSTP博客上的一篇文章中写道。
白宫在2012年建立国家Big Data研究与开发计划(National Big Data Research and Development Initiative)时,在帮助各机构发现这些技术方面迈出了一步。该计划包括超过 2 亿美元,以充分利用 Big Data 的爆炸式增长以及分析它所需的工具。
Big Data 带来的挑战几乎与它的承诺一样令人生畏。高效存储数据是这些挑战之一。与往常一样,预算紧张,因此机构必须最大限度地降低每兆字节的存储价格,并使数据易于访问,以便用户可以在需要时以需要的方式获取数据。备份海量数据加剧了这一挑战。
有效分析数据是另一个重大挑战。许多机构采用商业工具,使他们能够筛选海量数据,发现可以帮助他们更有效地运营的趋势。(MeriTalk 最近的一项研究发现,联邦 IT 高管认为 Big Data 可以帮助机构节省超过 5000 亿美元,同时实现任务目标。
定制开发的 Big Data 工具还使机构能够满足分析其数据的需求。例如,橡树岭国家实验室的计算数据分析小组已将其食人鱼数据分析系统提供给其他机构。该系统帮助医学研究人员找到了一种联系,可以在主动脉瘤发作之前提醒医生注意主动脉瘤。它还用于更平凡的任务,例如筛选简历以将求职者与招聘经理联系起来。
每节课为2小时
第 1 天:第 1 节:业务概述,为什么在 Govt.
- 美国国立卫生研究院、美国能源部的案例研究
- 政府机构的大数据适应率,以及他们如何围绕大数据调整未来的运营Predictive Analytics
- 在国防部、国家安全局、美国国税局、美国农业部等广泛的应用领域。
- 将大数据与遗留数据对接
- 对预测分析中的使能技术有基本的了解
- 数据集成和仪表板可视化
- 欺诈管理
- 业务规则/欺诈检测生成
- 威胁检测和分析
- 大数据实施的成本效益分析
第一天:第二节:Big Data-1介绍
- 大数据的主要特征——数量、种类、速度和准确性。卷的 MPP 体系结构。
- 数据仓库 – 静态模式,缓慢演变的数据集
- MPP 数据库,如 Greenplum、Exadata、Teradata、Netezza、Vertica 等。
- 基于Hadoop的解决方案 – 对数据集的结构没有条件。
- 典型模式:HDFS、MapReduce(crunch)、从 HDFS 检索
- 批处理 - 适用于分析/非交互式
- 卷 : CEP 流数据
- 典型选择 – CEP 产品(例如 Infostreams、Apama、MarkLogic 等)
- 生产准备不足 – Storm/S4
- NoSQL 数据库 – (列式和键值):最适合作为数据仓库/数据库的分析辅助工具
第 1 天:第 -3 节:Big Data-2 简介
否SQL个解决方案
- KV Store - Keyspace、Flare、SchemaFree、RAMCloud、Oracle NoSQL 数据库 (OnDB)
- KV 商店 - Dynamo、Voldemort、Dynomite、SubRecord、Mo8onDb、DovetailDB
- KV 存储(分层)- GT.m、缓存
- KV Store(已订购)- TokyoTyrant、Lightcloud、NMDB、Luxio、MemcacheDB、Actord
- KV 缓存 - Memcached、Repcached、Coherence、Infinispan、EXtremeScale、JBossCache、Velocity、Terracoqua
- 元组存储 - Gigaspaces、Coord、Apache River
- 对象数据库 - ZopeDB、DB40、Shoal
- 文档存储 - CouchDB、Cloudant、Couchbase、MongoDB、Jackrabbit、XML-Databases、ThruDB、CloudKit、Prsevere、Riak-Basho、Scalaris
- 广泛的列式存储 - BigTable、HBase、Apache Cassandra、Hypertable、KAI、OpenNeptune、Qbase、KDI
数据的种类:大数据中的Data Cleaning问题简介
- RDBMS – 静态结构/模式,不提倡敏捷、探索性环境。
- NoSQL – 半结构化的,足够的结构来存储数据,在存储数据之前没有精确的模式
- 数据清理问题
第一天:第四节:大数据介绍-3:Hadoop
- 何时选择 Hadoop?
- 结构化 - 企业数据仓库/数据库可以存储大量数据(有成本),但会强加结构(不利于主动探索)
- SEMI 结构化数据 – 传统解决方案 (DW/DB) 难以实现
- 仓储数据 = 即使在实施后也付出了巨大的努力和静态
- 对于各种数据和数据量,在商用硬件上处理 – HADOOP
- 创建 Hadoop 集群所需的商品硬件
Map Reduce /HDFS 简介
- MapReduce – 将计算分布在多个服务器上
- HDFS – 使数据在本地可用于计算过程(具有冗余)
- 数据 – 可以是非结构化的/无模式的(与 RDBMS 不同)
- 开发人员有责任理解数据
- Programming MapReduce = 使用 Java(优点/缺点),手动将数据加载到 HDFS 中
第 2 天:第 1 节:Big Data 生态系统建设 Big Data ETL:Big Data 工具的世界——使用哪一个以及何时使用?
- Hadoop 与其他 NoSQL 解决方案
- 用于交互式、随机访问数据
- Hadoop之上的Hbase(面向列的数据库)
- 随机访问数据,但施加了限制(最大 1 PB)
- 不适合临时分析,适合日志记录、计数、时间序列
- Sqoop - 从数据库导入到 Hive 或 HDFS(JDBC/ODBC 访问)
- Flume – 将数据(例如.log数据)流式传输到HDFS
第2天:第二节:大数据Management系统
- 移动部件、计算节点启动/失败:ZooKeeper - 用于配置/协调/命名服务
- 复杂的流水线/工作流:Oozie – 管理工作流、依赖项、菊花链
- 部署、配置、群集管理、升级等(系统管理员):Ambari
- 在云中:呼啸
第 2 天:第 3 节:Business Intelligence 中的预测分析 -1:基础技术和基于机器学习的 BI:
- 机器学习简介
- 学习分类技术
- 贝叶斯预测准备训练文件
- 支持向量机
- KNN p-Tree代数和垂直挖掘
- 神经网络
- Big Data 大变量问题 -随机森林 (RF)
- Big Data 自动化问题 – 多模型集成射频
- 通过 Soft10-M 实现自动化
- 文本分析工具-Treeminer
- 敏捷学习
- 基于智能体的学习
- 分布式学习
- 用于预测分析的开源工具简介:R、Rapidminer、Mahut
第 2 天:第 4 节预测分析生态系统 2:Govt 中常见的预测分析问题。
- 洞察分析
- 可视化分析
- 结构化预测分析
- 非结构化预测分析
- 威胁/欺诈之星/供应商分析
- 推荐引擎
- 模式检测
- 规则/场景发现 - 失败、欺诈、优化
- 发现根本原因
- 情绪分析
- CRM分析
- 网络分析
- 文本分析
- 技术辅助审查
- 欺诈分析
- 实时分析
第3天:Sesion-1:实时和Scala在Hadoop上变得分析
- 为什么常见的分析算法在 Hadoop/HDFS 中失败
- Apache Hama- 用于批量同步分布式计算
- Apache SPARK-用于实时分析的集群计算
- CMU Graphics Lab2 - 基于图的分布式计算异步方法
- Treeminer 基于 KNN p-Algebra 的方法可降低硬件运营成本
第 3 天:第 2 节:电子发现和取证工具
- 基于 Big Data 的电子数据展示与旧数据 – 成本和性能的比较
- 预测编码和技术辅助审查 (TAR)
- Tar 产品 (vMiner) 的现场演示,了解 TAR 如何工作以加快发现速度
- 通过 HDFS 更快地建立索引 – 数据速度
- NLP 或自然语言处理 – 各种技术和开源产品
- 外语电子取证 - 外语处理技术
第 3 天:第 3 节:大数据 BI for Cyber Security – 了解从快速数据收集到威胁识别的整个 360 度视图
- 了解安全分析的基础知识 - 攻击面、安全配置错误、主机防御
- 网络基础设施/大型数据管道/用于实时分析的响应 ETL
- 规范性与预测性 – 从元数据中修复基于规则与自动发现威胁规则
第 3 天:第 4 节:Big Data 在美国农业部:在农业中的应用
- 基于农业传感器的IoT(物联网)简介Big Data和控制
- 卫星成像简介及其在农业中的应用
- 集成传感器和图像数据,用于土壤肥力、栽培建议和预测
- 农业保险和 Big Data
- 作物损失预测
第 4 天:第 1 节:Govt-Fraud 分析中来自大数据的欺诈预防 BI:
- 欺诈分析的基本分类 - 基于规则的分析与预测分析
- 用于欺诈模式检测的监督式与无监督式机器学习
- 供应商欺诈/项目多收费用
- Medicare 和 Medicaid 欺诈 - 用于索赔处理的欺诈检测技术
- 差旅报销欺诈
- 国税局退税欺诈
- 只要有数据,就会提供案例研究和现场演示。
第 4 天:第 2 节:Social Media 分析 - 情报收集和分析
- 用于提取社交媒体数据的大数据 ETL API
- 文本、图像、元数据和视频
- 来自社交媒体提要的情绪分析
- 社交媒体提要的上下文和非上下文过滤
- Social Media 用于整合各种社交媒体的仪表板
- 社交媒体资料的自动分析
- 每个分析的现场演示将通过Treeminer工具提供。
第 4 天:第 3 节:Big Data 图像处理和视频馈送分析
- Big Data 中的图像存储技术 - 超过 PB 的数据的存储解决方案
- LTFS 和 LTO
- GPFS-LTFS(大图像数据分层存储解决方案)
- 图像分析的基础
- 物体识别
- 图像分割
- 运动跟踪
- 3D图像重建
第 4 天:第 4 节:Big Data NIH 中的应用:
- Bio-信息学的新兴领域
- 元基因组学和大数据挖掘问题
- 药物基因组学、代谢组学和蛋白质组学的大数据预测分析
- 基因组学下游流程中的大数据
- 大数据预测分析在公共卫生中的应用
Big Data 用于快速访问各种数据和显示的仪表板:
- 现有应用平台与大数据仪表盘的整合
- 大数据管理
- 大数据仪表板案例研究:Tableau 和 Pentaho
- 使用大数据应用程序在政府中推送基于位置的服务。
- 跟踪系统和管理
第 5 天:第 1 节:如何证明 Big Data BI 在组织内实施的合理性:
- 定义 Big Data 实施的 ROI
- 节省分析师收集和准备数据时间的案例研究 - 提高生产力
- 通过节省许可数据库成本获得收入的案例研究
- 基于位置的服务的收入收益
- 从欺诈预防中节省成本
- 一种集成的电子表格方法,用于计算 Big Data 实施的近似费用与收入收益/节省。
第 5 天:第 2 节:将遗留数据系统替换为 Big Data 系统的分步过程:
- 了解实用 Big Data 迁移路线图
- 在构建 Big Data 实现之前需要哪些重要信息
- 计算数据量、速度、多样性和准确性的不同方法有哪些
- 如何估算数据增长
- 案例研究
第 5 天:第 4 节:审查 Big Data 供应商并审查他们的产品。问答环节:
- 埃森哲
- APTEAN(前身为 CDC Software)
- 思科系统
- 克劳德拉
- 山谷
- 电磁兼容
- GoodData公司
- 番石榴
- 日立数据系统
- 霍顿工厂
- 惠普
- IBM公司
- 信息网
- 英特尔
- Jaspersoft的
- Microsoft
- MongoDB(以前称为 10Gen)
- MU西格玛
- NetApp 的
- Opera 解决方案
- 神谕
- 贝尔塔霍
- 普拉特福拉
- Qliktech的
- 量子
- 机架空间
- 革命分析
- Salesforce的
- 树液
- SAS学院
- 西森
- 软件 AG/Terracotta
- Soft10 自动化
- Splunk的
- 平方
- Supermicro 超微
- Tableau 软件
- Teradata的
- 大分析思维
- 潮汐系统
- 树矿工
- VMware (EMC 的一部分)
United Arab Emirates - Big Data Business Intelligence for Govt. Agencies
Qatar - Big Data Business Intelligence for Govt. Agencies
Egypt - Big Data Business Intelligence for Govt. Agencies
Saudi Arabia - Big Data Business Intelligence for Govt. Agencies
South Africa - Big Data Business Intelligence for Govt. Agencies
Brasil - Inteligência de Negócios Big Data para Agências do Governo
Canada - Big Data Business Intelligence for Govt. Agencies
中国 - Big Data Business Intelligence for Govt. Agencies
香港 - Big Data Business Intelligence for Govt. Agencies
澳門 - Big Data Business Intelligence for Govt. Agencies
台灣 - Big Data Business Intelligence for Govt. Agencies
USA - Big Data Business Intelligence for Govt. Agencies
Österreich - Big Data Business Intelligence for Govt. Agencies
Schweiz - Big Data Business Intelligence for Govt. Agencies
Deutschland - Big Data Business Intelligence for Govt. Agencies
Czech Republic - Big Data Business Intelligence for Govt. Agencies
Denmark - Big Data Business Intelligence for Govt. Agencies
Estonia - Big Data Business Intelligence for Govt. Agencies
Finland - Big Data Business Intelligence for Govt. Agencies
Greece - Big Data Business Intelligence for Govt. Agencies
Magyarország - Big Data Business Intelligence for Govt. Agencies
Ireland - Big Data Business Intelligence for Govt. Agencies
Luxembourg - Big Data Business Intelligence for Govt. Agencies
Latvia - Big Data Business Intelligence for Govt. Agencies
España - Inteligencia de Negocios de Big Data para Agencias del Gobierno
Italia - Big Data Business Intelligence for Govt. Agencies
Lithuania - Big Data Business Intelligence for Govt. Agencies
Nederland - Big Data Business Intelligence for Govt. Agencies
Norway - Big Data Business Intelligence for Govt. Agencies
Portugal - Inteligência de Negócios Big Data para Agências do Governo
România - Big Data Business Intelligence for Govt. Agencies
Sverige - Big Data Business Intelligence for Govt. Agencies
Türkiye - Big Data Business Intelligence for Govt. Agencies
Malta - Big Data Business Intelligence for Govt. Agencies
Belgique - Big Data Business Intelligence for Govt. Agencies
France - Big Data Business Intelligence for Govt. Agencies
日本 - Big Data Business Intelligence for Govt. Agencies
Australia - Big Data Business Intelligence for Govt. Agencies
Malaysia - Big Data Business Intelligence for Govt. Agencies
New Zealand - Big Data Business Intelligence for Govt. Agencies
Philippines - Big Data Business Intelligence for Govt. Agencies
Singapore - Big Data Business Intelligence for Govt. Agencies
Thailand - Big Data Business Intelligence for Govt. Agencies
Vietnam - Big Data Business Intelligence for Govt. Agencies
India - Big Data Business Intelligence for Govt. Agencies
Argentina - Inteligencia de Negocios de Big Data para Agencias del Gobierno
Chile - Inteligencia de Negocios de Big Data para Agencias del Gobierno
Costa Rica - Inteligencia de Negocios de Big Data para Agencias del Gobierno
Ecuador - Inteligencia de Negocios de Big Data para Agencias del Gobierno
Guatemala - Inteligencia de Negocios de Big Data para Agencias del Gobierno
Colombia - Inteligencia de Negocios de Big Data para Agencias del Gobierno
México - Inteligencia de Negocios de Big Data para Agencias del Gobierno
Panama - Inteligencia de Negocios de Big Data para Agencias del Gobierno
Peru - Inteligencia de Negocios de Big Data para Agencias del Gobierno
Uruguay - Inteligencia de Negocios de Big Data para Agencias del Gobierno
Venezuela - Inteligencia de Negocios de Big Data para Agencias del Gobierno
Polska - Big Data Business Intelligence for Govt. Agencies
United Kingdom - Big Data Business Intelligence for Govt. Agencies
South Korea - Big Data Business Intelligence for Govt. Agencies
Pakistan - Big Data Business Intelligence for Govt. Agencies
Sri Lanka - Big Data Business Intelligence for Govt. Agencies
Bulgaria - Big Data Business Intelligence for Govt. Agencies
Bolivia - Inteligencia de Negocios de Big Data para Agencias del Gobierno
Indonesia - Big Data Business Intelligence for Govt. Agencies
Kazakhstan - Big Data Business Intelligence for Govt. Agencies
Moldova - Big Data Business Intelligence for Govt. Agencies
Morocco - Big Data Business Intelligence for Govt. Agencies
Tunisia - Big Data Business Intelligence for Govt. Agencies
Kuwait - Big Data Business Intelligence for Govt. Agencies
Oman - Big Data Business Intelligence for Govt. Agencies
Slovakia - Big Data Business Intelligence for Govt. Agencies
Kenya - Big Data Business Intelligence for Govt. Agencies
Nigeria - Big Data Business Intelligence for Govt. Agencies
Botswana - Big Data Business Intelligence for Govt. Agencies
Slovenia - Big Data Business Intelligence for Govt. Agencies
Croatia - Big Data Business Intelligence for Govt. Agencies
Serbia - Big Data Business Intelligence for Govt. Agencies
Bhutan - Big Data Business Intelligence for Govt. Agencies
Nepal - Big Data Business Intelligence for Govt. Agencies
Uzbekistan - Big Data Business Intelligence for Govt. Agencies