大数据技术研究 – 守护石信息科技

Druid Kafka摄取规格说明

Posted on 2022年8月15日2022年8月15日 by fangshun

研究Apache Druid的Kafka Stream摄取规格说明，因此针对每一项配置规格的作用都进行了详细推…

Apache Druid 实时分析数据库入门介绍

Posted on 2022年7月20日2022年7月20日 by fangshun

Druid所关注的领域在时序数据库(Timeseries DBs)、数据仓库(Data warehouses)、搜索系统(Search systems)三者间的结合处，Druid官方也不甘心Druid只是时序数据库，更希望人们把它叫做高性能的实时分析数据库。

通俗理解大数据及其应用价值

Posted on 2022年7月20日2022年7月20日 by fangshun

作为早期的互联网、电子政务、商业管理、工业制造等行业领域，首先每天产生的数据量并不大，而且以高价值的结构化数据为主，例如：早期互联网Web1.0时代，一台SQLServer数据库就能支撑绝大多数的门户网站，一台小机搭配Oracle就能轻松应对在线金融业务系统；其次数据访问需求比较简单，主要是业务数据模型之间的关联设计，业务数据的插入、更新和删除，对于更复杂的数据需求主要还是对字段的分组查询形成多维统计和明细下钻。

探索Cassandra的去中心化分布式架构

Posted on 2022年7月19日2022年7月20日 by fangshun

那篇改变互联网发展进程的论文《Dynamo: Amazon’s Highly Available Key-value Store》，这篇论文源自于Amazon，对于自家数据库的架构设计的经验总结。鼎鼎大名的分布式开源数据库Cassandra在分布式设计方面也完全继承了这篇论文的设计思想，只不过在数据模型方面又借鉴了Google BigTable的数据模型。

深入浅出：了解时序数据库 InfluxDB

Posted on 2022年7月19日2022年7月20日 by fangshun

时序数据库经常应用于机房运维监控、物联网IoT设备采集存储、互联网广告点击分析等基于时间线且多源数据连续涌入数据平台的应用场景，InfluxDB专为时序数据存储而生，尤其是在工业领域的智能制造，未来应用潜力巨大。

HBase和Cassandra的分布式架构深度对比

Posted on 2021年12月15日2022年7月20日 by fangshun

HBase和Cassandra几乎都是一个时候出现的，都是在2010年成为Apache的顶级项目，不过如果我们细品其内部机制，我们会发现其实两者是完全不同的架构风格。HBASE起源于Google BigTable，几乎遵从了BigTable论文的大多数架构设计。Cassandra则是采纳了BigTable的数据模型，同时吸收了Amazon Dynamo的分布式设计。