问题 63
MJTelco 案例研究
公司概况
MJTelco 是一家初创公司,计划在全球快速增长、服务不足的市场建立网络。该公司拥有创新光通信硬件的专利。基于这些专利,他们可以用廉价的硬件创建许多可靠的高速主干链路。
公司背景
MJTelco 由经验丰富的电信高管创立,采用的技术最初是为克服太空通信挑战而开发的。作为运营的基础,他们需要创建一个分布式数据基础设施,以推动实时分析并结合机器学习来不断优化拓扑结构。由于硬件成本低廉,他们计划超量部署网络,以便考虑到动态区域政治对位置可用性和成本的影响。
他们的管理和运营团队遍布全球各地,在数据消费者和系统提供者之间形成了多对多的关系。经过慎重考虑,他们认为公共云是支持其需求的完美环境。
解决方案理念
MJTelco 正在其实验室成功实施一个概念验证 (PoC) 项目。他们有两个主要需求:
* 扩展和加固其 PoC,以支持在数据流量增加到超过 100 万亿次时产生的更多数据流。
50,000 次安装。
* 完善机器学习循环,验证并改进用于控制拓扑定义的动态模型。
MJTelco 还将使用开发/测试、暂存和生产三个独立的运行环境,以满足运行实验、部署新功能和服务生产客户的需要。
业务要求
* 在不可预测的分布式电信用户社区中,以最小的成本扩展生产环境,在需要的时间和地点配置资源。
* 确保其专有数据的安全,以保护其领先的机器学习和分析。
* 为分布在各地的研究人员提供可靠、及时的数据分析途径
* 维护隔离环境,支持机器学习模型的快速迭代,同时不影响客户。
技术要求
* 确保安全有效地传输和存储遥测数据
* 快速扩展实例,支持 10,000 到 100,000 个数据提供商,每个提供商可提供多个数据流。
* 允许根据数据表进行分析和演示,最多可跟踪约 2 年的数据存储
100 米记录/天
* 支持监测基础设施的快速迭代,重点关注遥测流和生产学习周期中的数据管道问题。
首席执行官声明
我们的商业模式依赖于我们的专利、分析和动态机器学习。我们的硬件价格低廉,可靠性高,因此具有成本优势。我们需要快速稳定我们的大型分布式数据管道,以实现我们的可靠性和容量承诺。
首席技术官声明
我们的公共云服务必须按照广告宣传的那样运行。我们需要能够扩展并确保数据安全的资源。
我们还需要数据科学家能够仔细研究并快速调整模型的环境。
由于我们依靠自动化来处理数据,因此我们还需要我们的开发和测试环境能够在迭代过程中正常工作。
首席财务官声明
该项目规模太大,我们无力维护数据和分析所需的硬件和软件。此外,我们也无力为监控如此多的数据源配备运营团队,因此我们将依赖自动化和基础设施。谷歌云的机器学习将使我们的定量研究人员能够解决我们的高价值问题,而不是数据管道问题。
MJTelco 需要您在 Google Bigtable 中创建一个模式,以便对过去两年的记录进行历史分析。每条记录每 15 分钟发送一次,其中包含设备的唯一标识符和数据记录。最常见的查询是查询给定设备在给定一天内的所有数据。您应该使用哪种模式?