小杨同学YF_-CSDN博客

原创程序人生 | 第一份ETL工作含泪总结，建议准备进入互联网的小白看

最近在网上看到很多人都在总结自己的工作，于是我也跟风了一下，作为本公众号的起始，第一份工作的收尾，总结一下这第一份工作的得与失。（当然，和那刷爆全网的中科大差生的8年程序员总结是没法比的。想看的话下期会把这篇文章找出来）这篇文章讲述了自己的一些工作经验，以及初入互联网码农的一些小建议。【实习】 2020年正逢新冠，恰巧遇上了应届生最难就业的毕业季，但是我又比较幸运的，进入了我第一家公司开始实习，这也是我工作的起点。刚进入公司后，公司分配给了我一个导师，导师也很懵，毕竟他没大我多少，也是第一

2021-03-19 10:21:49 2585 7

原创 mysql优化——子查询

项目中有需要，需要对sql进行一些优化。刚刚工作的我对优化可是特别感兴趣，终于能学习到个不错的知识了，于是我跟着大佬的步伐，积累了一些简单的经验。话不多说，马上进入正题，此次的优化查询主要是两张表，小表数据量可忽略不计，但是字段比较多，大表的话数据量达到了百万级别，用左关联，小表去关联大表的时候会出现查询效率低下，返回结果慢，于是根据仅有不多的知识去做了一些简单的优化，稍微会提升一下。这是一开始查询的sql与时间SELECT DISTINCT * FROM BG_order t1 LEFT JO

2020-07-29 14:19:46 424

原创 2020apple教育优惠购买策略

兄弟萌冲呀，本人为了买台mac做了份2020apple教育优惠的购买方案，上面详细记录了具体的步骤，当时是为了方便给我上岸的同学帮我代买下~ 。可以自己下单，一定一定要注意收货人姓名和学生证或者录取通知书上面的姓名一致！！！！其他都是些小的注意事项，不懂的可以具体来问我（ps：一定一定要买美式键盘，中文键盘看的有点难受。）自取提取码：w5w0...

2020-07-25 12:47:12 434

原创一篇文章了解MySQL（二）

在这边写MySQL的后续内容，主要讲解DQL查询以及事务索引简单的层面，想要查看之前的内容可以点这个连接：一篇文章了解MySQL（一）五、DQL语言Select语法SELECT [ALL | DISTINCT]{* | table.* | [table.field1[as alias1][,table.field2[as alias2]][,…]]}FROM table_name [as table_alias][left | right | inner join table_name2]

2020-07-08 15:27:18 166

原创一篇文章了解MySQL（一）

一篇文章大致了解MySQL，从基础的语法查询到后面的事务机制，简单了解一下MySQL涉及的东西，最重要的还是多练多用多敲一、初识MySQL数据库总览关系型数据库（SQL）MySQL，Oracle，SQL Server…非关系型数据库（NOSQL）Redis，MongoDB，HBase…二、数据库操作数据库操作create database [if not exists] test1; --创建数据库drop database [if exists] test1; --删除数据库sh

2020-06-15 14:18:37 178

原创大数据复习笔记——Spark宽窄依赖、Stage和资源任务调度

这篇文章主要讲解一下Spark的款窄依赖和资源调度，有能力的话会去讲解一下资源调度的源码。一、RDD的宽窄依赖rdd之间有一系列的依赖关系，分为宽依赖和窄依赖。1、RDD的窄依赖父RDD partition 与子RDD partition之间的关系是一对一的关系。父RDD partition 与子RDD partition之间的关系是多对一的关系。2、RDD的宽依赖父RDD partition 与子RDD partition之间的关系是一对多的关系。由图表加以补充方便来理解二、Spar

2020-05-11 11:09:44 440

原创大数据复习笔记——Spark初始以及算子

由于之前因为毕业设计、答辩以及其他一些原因，耽搁了复习笔记很久了，导致迟迟没有更新；当然，这段时间学习还是不能落下的，依旧需要每天敲敲代码、学习一点新知识来巩固提高自己的知识水平，最近几篇我就会重点去介绍Spark。一、Spark初始Spark与MapReduce的区别都是分布式计算框架，Spark基于内存，MR基于HDFS。Spark处理数据的能力一般是MR的十倍以上，Spark中除了基于内存计算外，还有DAG有向无环图来切分任务的执行先后顺序。Spark运行模式Local：多用于本地测试，如

2020-05-11 09:35:55 285

原创学习笔记——Scala集合、模式匹配和类（2）

本文是接上一篇scala的学习继续往后写的。五、数组创建数组 /** * 创建数组两种方式： * 1.new Array[String](3) * 2.直接Array */ //创建类型为Int 长度为3的数组 val arr1 = new Array[Int](3) //创建String 类型的数组，直接赋值...

2020-04-15 20:16:21 214

原创学习笔记——Scala对象、函数和方法（1）

作为开发Spark重要的代码之一Scala，是学习Spark之前必须要了解到的一门语言，相比之前接触过的java，scala更像是一个面向对象+面向函数的编程语言，其中的函数非常丰富，代码机制非常简单，配合起Spark的开发可谓是得心应手，相同的功能模块下，scala仅仅只需要用几行就能代替java所写的相同内容；或许你会问到为什么不用python，spark的API兼容性与python非常差，许...

2020-04-14 21:34:55 264

原创学习笔记——Storm

这次学习主要是流式处理框架——Strom之前所学习的都是离线处理，把数据存放好了一起计算，strom与他们不同就是能边数据存储边进行计算一、Strom的介绍Apache Storm是一个免费的开源分布式实时计算系统。Apache Storm使得可靠处理无限数据流变得容易，实时处理就像Hadoop批处理一样。Apache Storm很简单，可以与任何编程语言一起使用，并且使用起来很有趣！Ap...

2020-03-31 20:29:47 413

原创学习笔记——CDH

这几天学习了ApacheHadoop的大数据平台Cloudera Manager，不同于我之前使用的华为的大数据平台FusionInsight Manger，华为的大数据平台更加倾向于国企、政府公安还有一些大型公司，它的特点如下：1、可使用性高，华为研发人员已经把大数据平台封装好再去投入生产。2、后期售后质量高，当集群出现故障的时候，会有专门的运维人员进行维护。3、大数据平台性能高、稳定性好，一...

2020-03-24 19:10:39 642 1

原创大数据复习笔记——hbase

一、Hbase1、Hbase的介绍HBase是Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库 LSMTree。利用Hadoop HDFS作为其文件存储系统，利用Hadoop MapReduce来处理HBase中的海量数据，利用Zookeeper作为其分布式协同服务。...

2020-03-18 20:54:22 345

原创大数据复习笔记——hive

这次主要讲解一下平常使用较多的数据仓库hive和面向列的开源数据库hbase一、Hive1、Hive的介绍hive提供了HiveQL方言来查询存储在hadoop集群中的数据。hive可以将大多数的查询转换为MapReduce作业。hive最适合于数据仓库，使用数据仓库进行相关的静态数据分析，而不需要快速响应给出结果，而且数据本身不会频繁变化。数据仓库数据仓库是信息（对其进行分析可做出更...

2020-03-17 19:42:39 261

原创大数据复习笔记——hadoop

今天主要回顾一下hadoop学习时候的重要知识点，以及mr提交作业时候的流程、数据块副本放置策略等等1、hadoop1.x相关组件1、NamenodeNameNode管理文件系统的命名空间2、SecondaryNameNode为NameNode内存中的文件系统元数据生成检查点（checkpoint），定期合并fsimage和edits log。3、datanode-存储结构、存储模型...

2020-03-06 19:24:46 500

原创 zookeeper学习笔记

学习zookeeper，主要需要明白其中原理架构，一些开发框架稍作理解即可，代码还是越敲越熟练，这篇笔记着重介绍一下zookeeper的原理架构，开发框架推荐看一些客户端、服务端的框架，稍作了解即可。想要简单深入的了解zookeeper，这里推荐去阅读一下paxos小岛的故事，方便更加直观深入的理解zookeeper。一、系统架构1、zookeeper简介Zookeeper是Google...

2020-03-01 14:50:27 234

原创 HDFS调优

今天，我来介绍下何为调优以及从两大块简单的介绍下调优的方法一、调优的目的充分利用机器的性能，更快的完成mr程序的计算任务。甚至是再有限的机器下，能够支持运行更多的mr程序。通常再poc比拼测试中，代码调试中运用到的比较多。二、调优的总体概述从mr程序的内部运行机制，我们可以了解到一个mr程序由mapper和reducer两个阶段组成，其中mapper阶段包括数据的读取、map处理以及写出操...

2020-02-27 21:18:56 699

原创 Sqoop工具的使用和介绍

sqoop工具的介绍Sqoop:将关系数据库（oracle、mysql、postgresql等）数据与hadoop数据进行转换的工具版本：（两个版本完全不兼容，sqoop1使用最多）sqoop1：1.4.xsqoop2：1.99.x同类产品DataX：阿里顶级数据交换工具作为一个简单的转换工具，了解以下其作用所在，如果想获取更详细的知识，还是推荐去官网学习，毕竟对以后的学习是大有脾益...

2020-02-26 10:35:25 492

原创从0.01到1的大数据小白之旅

学习之旅——初探CSDN许久之前就发现了博客的强大之处，各种问题各种bug上了博客都能轻松解决。如今再也不是那个只会看看看的小白了，现在也准备加入csdn的大军之列，记录一些自己学习大数据的笔记，遇到比较好的问题也会转载一些大牛的博客，目前即将本科毕业，一起在软件开发的日子中不断奋斗！...

2020-02-24 15:53:53 156

Y_BigFFFFFF的博客