自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 程序人生 | 第一份ETL工作含泪总结,建议准备进入互联网的小白看

最近在网上看到很多人都在总结自己的工作,于是我也跟风了一下,作为本公众号的起始,第一份工作的收尾,总结一下这第一份工作的得与失。(当然,和那刷爆全网的中科大差生的8年程序员总结是没法比的。想看的话下期会把这篇文章找出来)这篇文章讲述了自己的一些工作经验,以及初入互联网码农的一些小建议。【实习】  2020年正逢新冠,恰巧遇上了应届生最难就业的毕业季,但是我又比较幸运的,进入了我第一家公司开始实习,这也是我工作的起点。  刚进入公司后,公司分配给了我一个导师,导师也很懵,毕竟他没大我多少,也是第一

2021-03-19 10:21:49 2585 7

原创 mysql优化——子查询

项目中有需要,需要对sql进行一些优化。刚刚工作的我对优化可是特别感兴趣,终于能学习到个不错的知识了,于是我跟着大佬的步伐,积累了一些简单的经验。话不多说,马上进入正题,此次的优化查询主要是两张表,小表数据量可忽略不计,但是字段比较多,大表的话数据量达到了百万级别,用左关联,小表去关联大表的时候会出现查询效率低下,返回结果慢,于是根据仅有不多的知识去做了一些简单的优化,稍微会提升一下。这是一开始查询的sql与时间SELECT DISTINCT * FROM BG_order t1 LEFT JO

2020-07-29 14:19:46 424

原创 2020apple教育优惠购买策略

兄弟萌冲呀,本人为了买台mac做了份2020apple教育优惠的购买方案,上面详细记录了具体的步骤,当时是为了方便给我上岸的同学帮我代买下~ 。可以自己下单,一定一定要注意收货人姓名和 学生证或者录取通知书上面的姓名一致!!!!其他都是些小的注意事项,不懂的可以具体来问我(ps:一定一定要买美式键盘,中文键盘看的有点难受。)自取提取码:w5w0...

2020-07-25 12:47:12 434

原创 一篇文章了解MySQL(二)

在这边写MySQL的后续内容,主要讲解DQL查询以及事务索引简单的层面,想要查看之前的内容可以点这个连接:一篇文章了解MySQL(一)五、DQL语言Select语法SELECT [ALL | DISTINCT]{* | table.* | [table.field1[as alias1][,table.field2[as alias2]][,…]]}FROM table_name [as table_alias][left | right | inner join table_name2]

2020-07-08 15:27:18 166

原创 一篇文章了解MySQL(一)

一篇文章大致了解MySQL,从基础的语法查询到后面的事务机制,简单了解一下MySQL涉及的东西,最重要的还是多练多用多敲一、初识MySQL数据库总览关系型数据库(SQL)MySQL,Oracle,SQL Server…非关系型数据库(NOSQL)Redis,MongoDB,HBase…二、数据库操作数据库操作create database [if not exists] test1; --创建数据库drop database [if exists] test1; --删除数据库sh

2020-06-15 14:18:37 178

原创 大数据复习笔记——Spark宽窄依赖、Stage和资源任务调度

这篇文章主要讲解一下Spark的款窄依赖和资源调度,有能力的话会去讲解一下资源调度的源码。一、RDD的宽窄依赖rdd之间有一系列的依赖关系,分为宽依赖和窄依赖。1、RDD的窄依赖父RDD partition 与子RDD partition之间的关系是一对一的关系。父RDD partition 与子RDD partition之间的关系是多对一的关系。2、RDD的宽依赖父RDD partition 与子RDD partition之间的关系是一对多的关系。由图表加以补充方便来理解二、Spar

2020-05-11 11:09:44 440

原创 大数据复习笔记——Spark初始以及算子

由于之前因为毕业设计、答辩以及其他一些原因,耽搁了复习笔记很久了,导致迟迟没有更新;当然,这段时间学习还是不能落下的,依旧需要每天敲敲代码、学习一点新知识来巩固提高自己的知识水平,最近几篇我就会重点去介绍Spark。一、Spark初始Spark与MapReduce的区别都是分布式计算框架,Spark基于内存,MR基于HDFS。Spark处理数据的能力一般是MR的十倍以上,Spark中除了基于内存计算外,还有DAG有向无环图来切分任务的执行先后顺序。Spark运行模式Local:多用于本地测试,如

2020-05-11 09:35:55 285

原创 学习笔记——Scala集合、模式匹配和类(2)

本文是接上一篇scala的学习继续往后写的。五、数组创建数组 /** * 创建数组两种方式: * 1.new Array[String](3) * 2.直接Array */ //创建类型为Int 长度为3的数组 val arr1 = new Array[Int](3) //创建String 类型的数组,直接赋值...

2020-04-15 20:16:21 214

原创 学习笔记——Scala对象、函数和方法(1)

作为开发Spark重要的代码之一Scala,是学习Spark之前必须要了解到的一门语言,相比之前接触过的java,scala更像是一个面向对象+面向函数的编程语言,其中的函数非常丰富,代码机制非常简单,配合起Spark的开发可谓是得心应手,相同的功能模块下,scala仅仅只需要用几行就能代替java所写的相同内容;或许你会问到为什么不用python,spark的API兼容性与python非常差,许...

2020-04-14 21:34:55 264

原创 学习笔记——Storm

这次学习主要是流式处理框架——Strom之前所学习的都是离线处理,把数据存放好了一起计算,strom与他们不同就是能边数据存储边进行计算一、Strom的介绍Apache Storm是一个免费的开源分布式实时计算系统。Apache Storm使得可靠处理无限数据流变得容易,实时处理就像Hadoop批处理一样。Apache Storm很简单,可以与任何编程语言一起使用,并且使用起来很有趣!Ap...

2020-03-31 20:29:47 413

原创 学习笔记——CDH

这几天学习了ApacheHadoop的大数据平台Cloudera Manager,不同于我之前使用的华为的大数据平台FusionInsight Manger,华为的大数据平台更加倾向于国企、政府公安还有一些大型公司,它的特点如下:1、可使用性高,华为研发人员已经把大数据平台封装好再去投入生产。2、后期售后质量高,当集群出现故障的时候,会有专门的运维人员进行维护。3、大数据平台性能高、稳定性好,一...

2020-03-24 19:10:39 642 1

原创 大数据复习笔记——hbase

一、Hbase1、Hbase的介绍HBase是Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库 LSMTree。利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为其分布式协同服务。...

2020-03-18 20:54:22 345

原创 大数据复习笔记——hive

这次主要讲解一下平常使用较多的数据仓库hive和面向列的开源数据库hbase一、Hive1、Hive的介绍hive提供了HiveQL方言来查询存储在hadoop集群中的数据。hive可以将大多数的查询转换为MapReduce作业。hive最适合于数据仓库,使用数据仓库进行相关的静态数据分析,而不需要快速响应给出结果,而且数据本身不会频繁变化。数据仓库数据仓库是信息(对其进行分析可做出更...

2020-03-17 19:42:39 261

原创 大数据复习笔记——hadoop

今天主要回顾一下hadoop学习时候的重要知识点,以及mr提交作业时候的流程、数据块副本放置策略等等1、hadoop1.x相关组件1、NamenodeNameNode管理文件系统的命名空间2、SecondaryNameNode为NameNode内存中的文件系统元数据生成检查点(checkpoint),定期合并fsimage和edits log。3、datanode-存储结构、存储模型...

2020-03-06 19:24:46 500

原创 zookeeper学习笔记

学习zookeeper,主要需要明白其中原理架构,一些开发框架稍作理解即可,代码还是越敲越熟练,这篇笔记着重介绍一下zookeeper的原理架构,开发框架推荐看一些客户端、服务端的框架,稍作了解即可。想要简单深入的了解zookeeper,这里推荐去阅读一下paxos小岛 的故事,方便更加直观深入的理解zookeeper。一、系统架构1、zookeeper简介Zookeeper是Google...

2020-03-01 14:50:27 234

原创 HDFS调优

今天,我来介绍下何为调优以及从两大块简单的介绍下调优的方法一、调优的目的充分利用机器的性能,更快的完成mr程序的计算任务。甚至是再有限的机器下,能够支持运行更多的mr程序。通常再poc比拼测试中,代码调试中运用到的比较多。二、调优的总体概述从mr程序的内部运行机制,我们可以了解到一个mr程序由mapper和reducer两个阶段组成,其中mapper阶段包括数据的读取、map处理以及写出操...

2020-02-27 21:18:56 699

原创 Sqoop工具的使用和介绍

sqoop工具的介绍Sqoop:将关系数据库(oracle、mysql、postgresql等)数据与hadoop数据进行转换的工具版本:(两个版本完全不兼容,sqoop1使用最多)sqoop1:1.4.xsqoop2:1.99.x同类产品DataX:阿里顶级数据交换工具作为一个简单的转换工具,了解以下其作用所在,如果想获取更详细的知识,还是推荐去官网学习,毕竟对以后的学习是大有脾益...

2020-02-26 10:35:25 492

原创 从0.01到1的大数据小白之旅

学习之旅——初探CSDN许久之前就发现了博客的强大之处,各种问题各种bug上了博客都能轻松解决。如今再也不是那个只会看看看的小白了,现在也准备加入csdn的大军之列,记录一些自己学习大数据的笔记,遇到比较好的问题也会转载一些大牛的博客,目前即将本科毕业,一起在软件开发的日子中不断奋斗!...

2020-02-24 15:53:53 156

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除