- 相关博文
- 最新资讯
-
本文系统介绍了Kafka的核心原理与实践应用。重点解析了分区(Partition)的并发处理与消息有序性、消费者组(ConsumerGroup)的负载均衡机制、偏移量(Offset)的断点续传功能。详细阐述了Kafka的存储架构、日志留存策略,以及自动/手动提交位点的优劣对比。文章强调分区是物理存储单元,消费者组实现消息复用,偏移量确保消费连续性,并提供了生产环境配置建议。掌握这些基础概念是Kafka高效应用的前提,为后续深入学习奠定基础。
-
本文基于企业级计数模块源码,深度解析Redis位图在高频计数场景中的应用。核心内容包括:1)Redis位图基础命令与位运算特性;2)位图分片架构设计及数据丢失风险;3)计数Schema二进制存储方案;4)Kafka计数事件与生产者幂等性保障;5)计数服务重建机制与退避限流策略。通过位图分片解决大Key问题,结合Kafka幂等事件和三层防护机制,构建高可用分布式计数系统,适用于社交平台点赞、日活等海量计数场景。
-
使用IDE(如IntelliJ IDEA)创建Maven项目。正常输出应包含RabbitMQ容器,状态为"Up"
-
本文介绍了一种轻量级ELK日志解决方案,适用于中小型微服务系统。该方案基于Filebeat+Elasticsearch+Kibana 8.x构建,相比传统ELK架构更加轻量化。文章详细讲解了技术选型、核心架构、环境搭建等关键环节,重点包括: 采用Filebeat替代Logstash作为采集器,大幅降低资源占用 提供完整的Docker部署方案,包含Elasticsearch和Filebeat配置 针对ES 8.x版本的特殊配置(如关闭SSL认证) 日志采集与索引策略设计 方案特点是对业务代码几乎零侵入。
-
Elasticsearch是一个基于Lucene的分布式搜索引擎,提供全文检索、结构化搜索和分析功能;介绍Elasticsearch的核心概念和技术栈(ELK),包括安装配置、倒排索引原理、IK分词器使用以及基本操作(索引创建、文档CRUD等);Elasticsearch与关系型数据库的区别,其面向文档的设计、强大的分词能力和高效的查询性能;通过Docker快速部署Elasticsearch和Kibana,开发者可以利用RESTful API和DSL查询语言实现数据存储、检索和分析
-
本文记录了本地Spark集群与云端HDFS混合部署的实践过程,重点解决公网环境下Connection refused和UnresolvedAddressException问题。通过三节点本地集群(Spark+Hive+ZK)与云端单节点HDFS的组合,实现计算存储分离。关键方案包括:CLB转发NameNode RPC端口、ECS公网直连DataNode、最小Hadoop客户端安装保障Hive/Sqoop兼容性。文中详细提供了集群搭建步骤、网络拓扑设计及故障排查方法,为混合云大数据架构提供了可复用的实践办法。
-
本文围绕“软件安全为什么不能只看加密锁”展开,解释深思洛克、深思数盾已统一升级为深盾科技·Virbox,并从开发、分发、运营三个阶段梳理软件资产生命周期安全的核心逻辑。文章重点说明代码保护、许可管理、智能加密锁、盗版风控和国产化适配在软件安全选型中的作用,帮助开发者和软件企业从单点加密思维,转向覆盖软件资产全生命周期的安全体系。
-
阶段二:搭建服务注册中心阶段一:环境准备与初始化。
-
我给你整理了,从环境搭建 → 基础收发 → 7 大工作模式 → Spring Boot 整合 → 微服务实战,,不绕弯、不讲废话,最快 1 小时学会核心用法。
-
本文介绍了使用HBase和Phoenix创建表并进行数据操作的过程。首先通过HBase Shell创建了名为h_table的表,包含r_column列族,设置SNAPPY压缩和10个预分区Region。随后插入测试数据并验证。接着使用Phoenix创建视图映射HBase表,执行SQL查询验证数据。整个过程展示了HBase与Phoenix的集成使用,包括表创建、数据操作和查询验证等关键步骤,为大数据存储和查询提供了实践示例。
-
本文介绍了Spark服务的安装配置及数据处理流程。首先关闭HBase和Phoenix服务以释放内存,配置Hive使用Spark on YARN引擎并重启相关服务。随后演示了通过Spark-shell处理Hive数据,包括查询结构化表、数组表和映射表。第二部分使用PySpark分析MovieLens数据集,包含数据读取、Schema定义及多种聚合分析:计算用户/电影平均分、高分电影统计、活跃用户分析等。最后提到可将代码打包为.py文件通过spark-submit提交执行。
-
数据管道搭了两周还在调 DAG 依赖?dbt 模型互相引用跑不出环?Spark OOM 一天崩三次?本文给出 Claude Code 主导的完整数据工程实战——一个真实电商数据分析平台,从 Schema 分析、Star Schema 设计、26 个 dbt 模型生成,到 Airflow 3.2 DAG(TaskFlow API + TaskGroup + SLA + Slack 告警)、PySpark 4.1 批处理(Join 优化 + 数据倾斜修复)、Great Expectations 数据质量自动化,
-
本文详细介绍了HBase和Phoenix的安装配置过程:1)通过CM服务安装HBase并完成重启配置;2)创建employee表并插入测试数据;3)准备Phoenix安装环境,完成Parcel分配和激活;4)配置HBase支持Phoenix,创建视图并执行SQL查询;5)设置Hue支持HBase,完成服务重启和最终验证。整个过程包含详细的命令行操作和CM界面配置步骤,最终实现了HBase与Phoenix的集成部署,并通过Hue界面验证了数据访问功能。
-
摘要: 本文记录了一名收银系统硬件销售商的服务转型之路。在硬件同质化严重、价格战激烈的市场环境下,我通过为客户提供低成本的数据备份与容灾增值服务,成功建立了差异化竞争优势,将客户平均留存周期拉长至七年。文章将详细复盘该增值服务的实施逻辑、技术部署细节,以及它如何在关键时刻挽救客户核心数据,从而探讨硬件销售从“卖产品”向“卖服务”转型的可行性。
-
RabbitMQ 最简单的工作模式,一对一消息发送生产者(Producer):发送消息到队列队列(Queue):存储消息消费者(Consumer):监听队列获取消息无交换机,默认使用默认交换机直连队列生产者发送大量任务,多个消费者共同消费实现任务负载均衡,采用手动确认 + 公平分发机制。直连交换机模式(Direct),根据路由键 RoutingKey 精准匹配,消费者只接收自己绑定路由键的消息,常用于日志分级推送。fanout(广播)一个生产者发送消息,所有绑定的消费者都能收到。
-
农业普查大数据与AI融合的数字农业与粮食安全智慧决策
-
华为 OD 二面挂了之后,我把这次从外企德科来电、上机考试、人事面到技术一面、技术二面的全过程重新复盘了一遍。文章里不仅有真实时间线、机考通过率、面试问题和 coding 题目,还有我对这次失败最核心的反思:一面更像项目筛选,二面更看你能不能讲清技术方案、项目难点和线上排障思路。如果你最近也在准备华为 OD、Java 后端或类似技术岗面试,这篇面经应该会比较有参考价值。
加载中...
-
Spark3.0发布了,代码拉过来,打个包,跑起来!| 附源码编译
Spark3.0已经发布有一阵子了,官方发布了预览版,带来了一大波更新,对于我们程序员来说,首先当然是代码拉过来,打个包,跑起来!!
-
从提取层、处理层、基础结构入手,带你了解Spark和Kafka!
电子商务市场中典型的一天是这样的:每分钟发生1万个事件流,并且要选择合适的工具对其进行处理。
-
-
Q:什么是Spark?A:简单理解,Spark是在Hadoop基础上的改进,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。



