在本文中,我们将介绍数据准备步骤——数据分析、数据源探索、数据清理、数据转换。
创建和使用数据正在成为一种生活方式。根据IBM的报告,2017年全球每天产生约2.5千万亿字节的数据,其中大部分数据都存储在互联网上,这使得互联网成为地球上最大的数据库。谷歌、亚马逊、微软和 Facebook 共存储了 1,200PB(120 万兆字节)的数据。
但另一方面,使用数据也存在
风险。麻省理工学院斯隆管理评论报告称,由于数据不正确和质量差而造成的财务损失占公司收入的 15% 至 25%。根据 2018 年 IDC 商业分析解决方案调查,数据科学家 73% 的时间为分析和预测等活动准备数据。
为了避免浪费时间、市场份额和潜在客户,公司希望利用数据分析来增加利润,并且需要很好地理解数据清理和转换的概念。
通常,网络抓取过程会产生大量 泰国手机号码 脏、无组织的数据。 Web 数据集成 (WDI) 专注于数据质量和控制。 Web 数据集成具有内置的类似 Excel 的转换功能,允许您直接在 Web 应用程序中规范化数据。它使您能够在同一环境中提取、准备和集成数据。这样,您就可以高度信任并有信心地使用数据。
清理和转换数据之前要做什么?
分析师常常想在没有完成一些重要任务的情况下继续进行数据清理。下面列出的步骤有助于准备原始数据以进行转换,这反过来可以帮助分析师识别所有数据元素(但仅限于他随后将使用的那些元素):
1. 定义业务目标
了解您的业务目标是正确转换数据的第一步。完善的业务目标与公司战略相一致,描述要解决的客户问题,包括新的或更新的业务流程、预期成本和预计的投资回报。所有这些参数有助于确定分析所需和不必要的数据。
2. 研究数据源
一个完善的数据模型描述了可能的数 瑞典商业名录 据源,例如网站和网页,以填充模型。具体来说,仔细检查数据源包括:
- 定义业务任务所需的数据
- 了解这些数据是否将直接集成到应用程序或业务流程中,或将用于进行分析研究
- 明确你的同事在收集网络数据时希望看到什么
- 对可能的数据源和数据管理器进行分类
- 了解源头的数据更新传递机制和频率
此外,网络数据的价值会随着时间的推 你选错了工作——现在该怎么办? 移而增加,随后可以分析数据中的时间序列和趋势。这可以改善您的决策过程,并让您更深入地了解名人代言、推荐或销售等重要事件如何影响您的业务。