- 相关博文
- 最新资讯
-
本文介绍了RabbitMQ在消息传输过程中可能出现的三种典型问题及解决方案:1)生产者消息丢失通过Confirm和Return确认机制解决;2)Broker消息丢失通过消息持久化解决;3)消费者处理失败通过手动确认机制解决。文章提供了完整的代码示例,包括队列声明、RabbitTemplate配置和消息发送实现,帮助开发者构建可靠的RabbitMQ消息传输系统。
-
本文介绍基于Java+Flink构建实时风控规则引擎的实践方案。针对传统风控系统规则更新需重启服务、执行效率低等问题,提出采用Flink 1.17.0实现毫秒级风控判断,结合Aviator轻量脚本解析规则,通过Nacos实现规则动态配置与热更新。文章详细阐述了技术选型依据、生产环境配置方案,以及"快、准、灵、稳"四大核心需求的实现方法,提供可直接复用的代码配置和性能优化建议,帮助构建支持10万TPS、规则秒级生效的实时风控系统。
-
当用户在一台搭载 OpenHarmony 的国产设备上,流畅地通过蓝色“工作”标签聚焦当日职责,通过绿色“生活”标签规划家庭事务——他们使用的不仅是一个待办应用,更是中国基础软件生态日益成熟的缩影。
-
本次项目以Spark为核心完成新能源车数据的分布式分析,利用Flask搭建Web服务,结合协同过滤算法实现了个性化推荐,覆盖了数据处理、算法实现、Web开发全流程;项目代码可直接复用,通过调整数据集和参数,可适配不同行业(如电商、影视)的推荐场景;核心价值在于将大数据分析与实际业务场景结合,既体现了Spark的分布式计算能力,又通过Flask实现了算法的工程化落地。
-
大数据处理系统是一种用于处理大规模数据集的软件工具,它们能够利用分布式计算处理,从各种来源收集和存储大量数据,并且能够以高效的方式处理这些数据,使得用户可以从中获取有价值的信息,帮助企业或组织快速进行决策。
-
从零开始:多终端工程创建、运行与代码版本管理全流程
-
我们知道,基于网络流传播的数据,大多传的都不是原始数据,而是经过序列化后的数据,在到达目的地后,在反序列化成原始数据。kafka也不例外生产者需要用序列化器把对象转换为字节数组进行传播,消费者则用反序列化器把字节数组还原成对象。生产者使用的序列化器和消费者使用的反序列化器是需要一一对应的,如果生产者使用了某种序列化器,而消费者使用了另一种序列化器,那么是无法解析出正确的数据的。
-
本文介绍了Spark中三个常用Action行动算子的使用方法:1. saveAsTextFile用于将RDD数据保存为文本文件,每个分区保存为单独文件;2. top(num)对RDD元素进行降序排序并返回前num个元素;3. takeOrdered(num)对RDD元素进行升序排序并返回前num个元素。文章分别提供了Java和Scala两种语言的代码示例,演示了这些算子的具体实现方式。这些行动算子都能触发Spark作业执行,将结果返回到Driver端,适用于不同的数据处理场景。
-
简单来说,ZooKeeper 是一个开源的、高性能的分布式应用协调服务。它就像是为分布式系统提供的一个“基础设施服务”,专门用来解决分布式应用中常见的协调和管理问题。您可以把它想象成分布式系统的 “管理员” 或 “总控中心”。
-
本文介绍了ClickHouse分布式集群的安装部署流程,主要包括节点规划、JDK和Zookeeper安装、ClickHouse安装配置等内容。节点规划采用3节点集群(node02-04),其中node02作为代理节点。安装前需进行系统参数调优,包括文件数限制调整和SELinux禁用。ClickHouse支持tar和rpm两种安装方式,安装后需创建数据/日志目录并修改配置文件config.xml,配置日志路径、时区、集群信息等,最终搭建一个一分片三副本的分布式集群。所有节点配置需保持一致,特别注意密码设置和权
-
本文详细介绍了使用DataGrip连接Hive的完整流程:1)下载安装最新版DataGrip并配置非商业许可证;2)启动HDFS和HiveServer2服务;3)创建项目并配置Hive数据源连接;4)新建数据库操作。同时提供了常见问题解决方案:注释乱码处理、索引报错忽略、内存溢出调整(修改hive-env.sh配置HADOOP_HEAPSIZE)、JSON表字段显示异常(修改hive-site.xml添加SerDe配置)。最后强调重启服务后需测试连接验证。所有操作默认在atguigu用户下执行。
-
本文详细介绍了Elasticsearch 7.10.0集群的安装配置过程。主要内容包括:1) 准备3个节点(node02-04)的基础环境,包括修改系统参数、创建elastic用户;2) 配置elasticsearch.yml文件,设置集群名称、节点角色、网络参数等;3) 生成TLS证书并分发到各节点;4) 启动集群后设置各系统账号密码;5) 验证集群状态和远程连接。文中提供了完整的配置文件示例和关键操作步骤,特别强调了JVM内存配置原则和集群安全认证配置,最终实现了带密码认证的Elasticsearch集
-
本章介绍了迭代器与生成器在处理大数据时的关键作用。核心思想是将"批量一次性处理"转变为"流式逐条处理",通过惰性计算显著降低内存占用。重点内容包括:1) 区分可迭代对象、迭代器和生成器的概念;2) 使用yield构建可组合的数据处理管道;3) 展示从文件读取到特征转换的完整流式处理链路;4) 介绍批处理实现和itertools工具库的使用技巧。通过生成器分层设计,可实现内存高效、可维护的数据处理流程,适用于日志清洗、模型推理等大数据场景。
-
长周期去重是实时数仓的必考题, 你在做长周期去重时,遇到过哪些问题?是误差太大?还是资源不够?欢迎在评论区留言
-
本文介绍了如何在星图GPU平台上自动化部署Qwen-Image-Edit-2511镜像,实现高精度图像编辑功能。该镜像专为电商人像背景替换、中英文文字添加及多图风格统一等真实场景优化,支持一键加载、LoRA加速与几何感知重采样,显著提升商业图片编辑效率与专业度。
-
Flink + Iceberg 的组合实质上是将数据湖的存储能力与流计算的实时能力深度融合实时化:让数据湖“活”起来,支持秒级数据新鲜度服务化:数据湖不再只是存储,而是可直接服务业务的数据平台一体化:统一存储、统一计算、统一服务层这种架构正在成为企业构建实时湖仓一体(Real-Time Lakehouse)的事实标准,特别适合需要对海量数据进行实时处理且要求数据一致性的场景。
-
大数据技术正重塑社会发展模式,其核心特征为"5V"(海量、高速、多样、真实、低价值密度)。完整技术架构涵盖采集、存储、处理到可视化全链路,通过分布式存储和实时计算实现数据价值挖掘。在金融风控、医疗诊断、智慧交通和零售营销等领域深度应用,显著提升行业效率。未来呈现AI融合、边缘计算、隐私保护等六大趋势,但需平衡技术创新与伦理约束。大数据已从工具演变为基础设施,其发展将深刻影响人类文明进程,需要在效率与规范间寻求平衡。
-
本文介绍了使用Prometheus+Grafana监控Hadoop集群的方法。首先通过jmx-exporter将Hadoop各组件(NameNode、DataNode等)的JMX格式数据转换为Prometheus可识别的格式,配置相应端口暴露指标数据。然后修改Prometheus配置文件,采用基于文件发现的机制自动发现监控目标。最后在Grafana中自定义仪表盘,通过编写PromQL语句实现Hadoop关键指标的可视化监控,包括故障节点数、资源使用率等重要指标。实现从数据采集、格式转换到可视化展示的完整监控
-
生产环境首选基于 binlog 的 CDC 方案(Debezium/Canal/Flink CDC),核心优势是无侵入、低延迟、高可靠,满足企业级实时数据同步需求,前提是开启 MySQL binlog 并设置为 ROW 格式;工具选择建议分布式架构 / 大数据场景:Debezium + Kafka + Flink(生态完善,支持高并发);中小规模 / 快速落地:Canal(阿里开源,运维简单);实时计算一体化:Flink CDC(直接在流处理中捕获和处理变更);
-
通过 Docker 启动 PostgreSQL 和 RabbitMQ。• 数据库 URL(PostgreSQL)• 服务器端口(默认:8080)• 消息队列(RabbitMQ)- 启动带热重载的 API。该 API 需要一个。API 通常可以通过。• JWT 加密密钥。
-
随着业务的发展,MySQL数据库中的表会越来越多,表中的数据量也会越来越大,相应地,数据操作的开销也会越来越大;另外,无论怎样升级硬件资源,单台服务器的资源(CPU、磁盘、内存、网络IO、事务数、连接数)总是有限的,最终数据库所能承载的数据量、数据处理能力都将遭遇瓶颈。
-
最近读到这样一篇好文章,从底层硬件角度出发剖析了一下CPU对代码的识别和读取,内容非常精彩,读完感觉大学里学到的很多东西瞬间联系起来了,这里分享给大家,希望能认真读完并有所收获。
-
随着云计算,大数据和人工智能技术应用,单靠CPU已经无法满足各行各业的算力需求。海量数据分析、机器学习和边缘计算等场景需要计算架构多样化,需要不同的处理器架构和GPU,NPU和FPGA等异构计算技术协同,满足特定领域的算法和专用计算需求。今天,笔者带大家详细了解下FPGA技术。 FPGA是英文Field Programmable Gate Array简称,即现场可编程门阵列。它是在PLA、PAL、GAL、CPLD等可编程器件的基础上进一步发展的产物。它是作为专用集成电路(ASIC)领域中的一种半定制电路,既解决了定制电路的不足,又克服了原有可编程器件门电路数有限的缺点。
-
程序的运行过程,实际上是程序涉及到的、未涉及到的一大堆的指令的执行过程。 当程序要执行的部分被装载到内存后,CPU要从内存中取出指令,然后指令解码(以便知道类型和操作数,简单的理解为CPU要知道这是什么指令),然后执行该指令。再然后取下一个指令、解码、执行,以此类推直到程序退出。
-
随着云计算,大数据和人工智能技术发展,边缘计算发挥着越来越重要的作用,补充数据中心算力需求。计算架构要求多样化,需要不同的CPU架构来满足不断增长的算力需求,同时需要GPU,NPU和FPGA等技术加速特定领域的算法和专用计算。以此,不同CPU架构,不同加速技术应用而生。
-
和传统服务器相比,星星海统一的整机方案可以支持不同的CPU主机,前瞻性的高兼容架构,统一规划的硬件底座,可以支持未来3-5年的服务器产品演进。





