- 相关博文
- 最新资讯
-
【 大数据分析Hadoop + Spark 】10分钟搭建Hadoop(伪分布式 )+ Spark(Local模式)环境
-
目前大数据是一个非常有发展前景的岗位,在IT界薪资待遇也很高,很多人想从事这方面的工作,那下面我们谈谈大数据可以应用到哪些领域,需要哪些技术、都有哪些岗位。
-
小白都能学会的flume采集数据到hive的教程
-
常见的hbase启动失败问题的解决办法
-
使用docker compose搭建hive测试环境
-
使用sqoop将hive中的数据导入mysql中记录简单案例首先开启集群:start-all.sh在hive中建库建表,并插入一条数据来为自己做实验:验证一下,是否插入成功:在mysql中建表,并且要与hive中传过来的数据字段相对应:建表后为空:用sqoop将hive中的数据传到mysql中:export 导出数据,–connect 连接数据库的参数,–username root 是指用户名为root,test mysql中使用的数据库的库名,–password ‘’
-
文章目录简介1、 scala中声明变量2、惰性变量3、基本数据类型4、scala类型层次结构5、scala中的条件表达式6、scala方法的重载7、scala中的块表达式8、循环1、for循环2、while循环9、方法和函数1、方法2、函数3、方法和函数的区别4、方法转换为函数提示:代码实例重点在于讲解知识点上,代码相对简单,所以都是使用scala shell来直接操作的简介Scala是一门多范式的编程语言,一种类似java的编程语言,是可扩展语言,并集成面向对象编程和函数式编程的各种特性的混合功能编
-
本文将从ZooKeeper集群如何保证一致性,讲到zookeeper保证数据一致性的协议,然后展开讲Zookeeper集群Leader选举,包括集群三种节点的类型,ZAB协议中节点的四种状态,以及两种情况下Leader选举的过程。然后会详细展开讲解ZAB协议,包括ZAB协议中ZXID的结构,ZAB协议的两个重点,崩溃恢复模式和消息广播模式。然后会通过一个例子来说明ZAB协议中Leader的单点问题,进而引出Paxos算法。文章会分为上下两个篇章,本文为第一部分。
-
MetaX 是 58 无线 Android 团队开发一套彻底的组件化框架,它意在降低底层库的升级成本、业务个性化成本和提升业务线编译速度
-
hadoop-3.3.3完全分布式集群搭建前言环境准备软件版本集群规划一、配置jdk环境变量1. 解压jdk2. 修改/etc/profile文件二、hadoop集群搭建1. 关闭防火墙2. 修改主机名3. 添加ip映射4. 配置免密登录5. 修改hadoop配置文件1. 解压2. 配置hadoop环境变量3. hadoop-env.sh4. core-site.xml5. hdfs-site.xml6. yarn-site.xml7. mapred-site.xml8. workers6. 分发文件7.
-
Elasticsearch最大的优势在于其检索能力。那为了适配日常不同业务的多种查询需求,Elasticsearch为我们提供了六大搜索方式: 轻量搜索、表达式搜索、复杂搜索、全文搜索、短语搜索和高亮搜索。
-
使用GeoMesa实现时空索引并进行KNN查询
-
Spring Boot整合Kafka
-
0. 引言在使用spring-data-elasticsearch读取es中时间类型的数据时出现了日期转换报错,不少初学者会在这里困惑很久,所以今天我们专门来解读该问题的几种解决方案。1. 问题分析该问题的报错形式一般是:Failed to convert from type [java.lang.String] to type [java.util.Date] for value '2022-03-15T14:31:55+08:00'; nested exception is java.lang
-
前言上一篇我们认识了一下Kafka以及完成了一个快速入门程序。这篇文章我们将学习Kafka的整体架构,工作流程,以及一些核心概念,正所谓知其然知其所以然。Kafka的架构我们知道,消息队列的工作流程需要三部分组成:Producer生产者 ,Kafka服务器 ,Consumer消费者,生产者发送消息到Kafka,消费者从Kafka拉取消息。而Kafka本身是分布式架构的,如下图:看过我《RocketMQ入门经典》的朋友应该能看出来这个图和RocketMQ的架构图是很相似的,或者说RocketMQ很多
-
本文主要讲的是,我们如何在没有hadoop或者spark这些大数据统计工具的情况,如何对大规模的文章快速的获取分词并且统计词频的方法,尤其是百万级其以上的数据量效果明显。【特别说明】我是经过实测的,可能和自己的机器有关,所以耗时上可能有些差异。但是效果肯定是明显的。好的方法就是要分享给大家。1. 本文涉及到的工具、数据、命令工具:jieba_fast [1] 使用cpython重写了jieba分词库中计算DAG和HMM中的vitrebi函数,速度得到大幅提升。快速利用清华镜像安装jieba_
-
一 需求1 监听所有客户端的上线和下线。2 将某一个客户端的上线和离线情况,转告给其他客户端“客户端XX上/下线”3 客户端先将消息发送给服务端,服务端再将此消息转发给所有客户端(包括发送者自己),如果其他客户端接收到了此消息,则显示“【某ip】发送的消息:XXX”;如果是自己接收到了此消息,则消息“【我】发送的消息:XXX”二 服务端1 主程序类package netty.socket;import io.netty.bootstrap.ServerBootstrap;im
-
Hadoop作为大数据的分布式计算框架,发展到今天已经建立起了很完善的生态,本文将一一介绍基于Hadoop生态的一系列框架和组件。Flume简介:Flume 是一个分布式、高可用的服务,用于高效收集、聚合和移动大量日志数据。作用:Flume 主要承载的作用是收集各个数据源的事件或日志数据,然后将其Sink到数据库架构Flume的实现架构原理也非常简单,通过Agent代理来实现数据的收集,一个Agent包含了Source,channel,Sink三个组件。Source:采集的数据来源
-
文丨智能相对论作者丨陈选滨说起近两年的热门领域,网络安全绝对是排得上号的一个。要知道10年前(也就是2011年),我国的新增网络安全企业数量还不足1万家,直到近两年来,我国的网络安全企业数量才出现爆发性增长。根据企查查数据,2020年我国新增网络安全企业数量为19.79万家,同比增长107.31%,2021年新增网络安全企业数量更达到36.99万家,同比增长86.89%。与此同时,资本市场的加码也在不断的刺激着网络安全产业的蓬勃发展。根据国家工信部网络安全产业发展中心发布的《2021..
-
SQL中有一类函数叫聚合函数,比如count、sum、avg、min、max等,这些函数的可以将多行数据按照规整聚集为一行,一般聚集前的数据行要大于聚集后的数据行。而有时候我们不仅想要聚集前的数据,又想要聚集后的数据,这时候便引入了窗口函数。
-
DevOps:从「蒸汽时代」到「高铁时代」,SUNMI DevOps转型之路
商米科技成立于 2013 年,总部位于上海市杨浦区创智天地,是一家具有产品创新基因和互联网基因的公司。商米在短时间内迅速成长为一家近1000人的企业,产品研发人数占比一度超过70%。
-
Apache Kafka 是一个快速、可扩展的、高吞吐的、可容错的分布式“发布-订阅”消息系统, 使用 Scala 与 Java 语言编写,能够将消息从一个端点传递到另一个端点,较之传统的消息中 间件(例如 ActiveMQ、RabbitMQ),Kafka 具有高吞吐量、内置分区、支持消息副本和高容 错的特性,非常适合大规模消息处理应用程序。
-
2020年边缘计算最新前沿报告:如何与核心云、5G、AI协同?如何打造新业态和部署运营?...
在数字经济的时代浪潮中,作为关键生产要素的数字技术的快速变革已成为新常态。正当人工智能开始崭露头角时,云计算的边缘化延伸趋势又成为了另一个新焦点。
-
日前,ASPLOS 2020公布了计算机界最新科技成果,其中包括阿里云提交的名为《High-density Multi-tenant Bare-metal Cloud》的论文,该论文阐述了阿里云自研的神龙服务器架构如何解决困扰云计算行业多年的虚拟化性能损耗问题,打破物理机的性能神话,让云服务器突破性能极限。
-
Docker 概念很难理解?一文搞定 Docker 端口绑定
作为初级开发人员的你,是不是参加过这样的面试,在面试中面试官希望你准确地回答Docker的工作原理?现今的面试官们希望应聘者能够深入了解8项、10项、甚至更多的技术。其实这有点疯狂。在大学或其他学校里,他们很可能根本不会教你任何关于Docker的知识。然而,如果你真的能够深入了解Docker,那么你就可以从一大群应聘者中脱颖而出。
-
DevOps 转型时如何安全融入?对企业产出有何影响?2019年 DevOps 最新现状研究报告解读 | 原力计划...
2019年DORA发布了DevOps的研究报告,迄今为止这已经是DORA的第八次报告的发布。相较于往年的报告,2019年的报告全篇只聚焦于一个要素:安全。
-
让服务器突破性能极限 阿里云神龙论文入选计算机顶会ASPLOS
日前,ASPLOS 2020公布了计算机界最新科技成果,其中包括阿里云提交的名为《High-density Multi-tenant Bare-metal Cloud》的论文,该论文阐述了阿里云自研的神龙服务器架构如何解决困扰云计算行业多年的虚拟化性能损耗问题,打破物理机的性能神话,让云服务器突破性能极限。此次入选意味着全球计算机顶会对阿里云自研技术的认可,也意味着中国创新技术在全球计算机界争得了一席之地。
-
果断拿下4000万美元D轮融资,Rancher发力中国本土化与国产化!
2020年3月17日,业界应用广泛的Kubernetes管理平台创建者Rancher Labs(以下简称Rancher)宣布完成新一轮4000万美元D轮融资。
-
分布式锁是控制分布式系统之间同步访问共享资源的一种方式。在分布式系统中,常常需要协调他们的动作。如果不同的系统或是同一个系统的不同主机之间共享了一个或一组资源,那么访问这些资源的时候,往往需要互斥来防止彼此干扰来保证一致性,在这种情况下,便需要使用到分布式锁。
-
-
每当提到区块链一词时,许多人都会将其与比特币等加密货币联系起来。这项技术通过加快交易速度、提供隐私和透明以及其他更多功能,确实改变了虚拟货币的世界。
-
本文主要列举一些 Kafka 的常用工具,以及举了一些例子来帮助理解。有需要的小伙伴,可以 Mark 起来再看。
-
现代编程语言大 PK,2020 年开发者关心的七大编程语言!
如果我们把人类文明想象成汽车的话,那么软件开发行业就相当于汽车的引擎,而编程语言就像引擎的燃料。作为一名开发者,今年你应该学习哪种编程语言呢?
-
一文了解 Spring Boot 服务监控,健康检查,线程信息,JVM堆信息,指标收集,运行情况监控!...
去年我们项目做了微服务1.0的架构转型,但是服务监控这块却没有跟上。这不,最近我就被分配了要将我们核心的微服务应用全部监控起来的任务。我们的微服务应用都是SpringBoot 应用,因此就自然而然的想到了借助Spring Boot 的Actuator 模块。
-
从零单排HBase 02:全面认识HBase架构(建议收藏)
在网上看过很多HBaes架构相关的文章,内容深浅不一,直到发现了一篇MapR官网的文章,写得实在太生动了。
-
MySQL 狠甩 Oracle 稳居 Top1,私有云最受重用,大数据人才匮乏! | 中国大数据应用年度报告...
科技长河,顺之者昌,错失者亡。在这个技术百态之中,中国专业的 IT 社区CSDN 创始人&董事长蒋涛曾多次在公开活动中表示,开发者是对技术变革最敏感的人群。这不仅源于开发者、工程师创建了助力这个时代蜕变的工具,他们还极具前瞻性地缔造了真实世界之外的虚拟、数字化世界。