做数据开发,时业务和技术的混合体,也可以说成数据分析和数据平台开发的结合体。两边的东西都需要懂一点,感觉对数据分析更为注重。今天稍微看了一本书,下面将这些奇门绝技放在博文中方便日后翻阅。 参考书籍《对比Excel,轻松学习SQL数据分析》 groupby底层分析 介绍了groupby在底层运行的顺序和原理。即明面上无法看到的内容。往往结果返回了,但是具体怎么执行的却不知道。 group_concat函数 也是个奇门绝技,将多行中的某个字段转成一行。 SQL group_concat([DISTINCT]要连接的字段[OrderBYASC/DESC排序字段][Separator'分隔符'...

  超级管理员   2021年12月09日   52   0   0 数据仓库

开窗函数Row_number() [相关博文](https://www.cnblogs.com/fnlingnzb-learner/p/13080852.html)

  超级管理员   2021年12月06日   55   0   0 hive
1

业务表 ![image.png](http://forum.luweiteng.xyz/4b800a90a1d44d3999465cc5c159ea8e) 建维后的表格 ![image.png](http://forum.luweiteng.xyz/c7d3c5254db841f1a3d1d360205215b1)

  超级管理员   2021年11月30日   58   0   0 命令

对于连续性的问题首先需要想到的是,如果一个数连续,那么他相邻的差值是恒等的,那么,几个数连续这样的问题就转换成了数差值相等有几个。 使用开窗函数 开窗函数解决的问题主要是给数据加一列,rank或者是row_number,然后与ID相减,统计出差值相等的数量有几个。 ![image.png](http://forum.luweiteng.xyz/171fd5fe3f25422695e9b65628d776d5) ![image.png](http://forum.luweiteng.xyz/1...

  超级管理员   2021年11月19日   54   0   0 LeetCode数据库

![image.png](http://forum.luweiteng.xyz/e13101104ef6468183602bbb6292a2bc) ![image.png](http://forum.luweiteng.xyz/ebefa6e7db43470aac47e2584fdd66a1) 连续出现的数字 数学原理 ![image.png](http://forum.luweiteng.xyz/5c687bee36654b1f9fd7280d5d42c234) SQL MySQL SE...

  超级管理员   2021年11月17日   54   0   0 LeetCode数据库

![image.png](http://forum.luweiteng.xyz/d912921e02454b6e8928293dc59adefe) ![image.png](http://forum.luweiteng.xyz/64fe74d070eb4d86bd6caaf7e886d4a1) 先排序, 数据分析需要详细了解

  超级管理员   2021年11月17日   50   0   0 mysql

-排名第N的薪水意味着该表中存在N-1个比其更高的薪水 -注意这里的N-1个更高的薪水是指去重后的N-1个,实际对应人数可能不止N-1个 -最后返回的薪水也应该去重,因为可能不止一个薪水排名第N -由于对于每个薪水的where条件都要执行一遍子查询,注定其效率低下 -使用子查询 - SELECTDISTINCT e.salary FROM employeee WHERE (SELECTcount(DISTINCTsalary)FROMemployeeWHEREsalarye.salary)=N-1 相关子查询的执行依赖于外部查询。多数情况下是子查询的WHERE...

  超级管理员   2021年11月16日   70   0   0 mysql

毕业设计其实不难,就两三个重要流程,关键在于没有一个得心应手的工具和脚手架,用了以前的做搜大夫的架构(这套架构还是比较好的),算是将之前的知识点复习了一下。 项目管理方面 整体项目进度还算可以,由前端和后端共同开发完成,利用工作之余完成,相对来说还是练手了一下。 除开项目本身业务代码编写外,收获更大的反而不是代码本身,而是是练习了如何搭建Jenkins自动部署和nginx反向代理和静态网站部署。 合作分工 合作分工方面还是很融洽,毕竟都是知此知彼的朋友和同学,有话还是能直接说出来,不影响友谊,对接口的时候也会错误,但都能及时解决和沟通,没有构成什么风险。另外,对接口和写代码都是工作之余完成...

  超级管理员   2021年11月16日   50   0   0 其他

分片 对于集群来说,就是将一份数据分成几部分,分别存到不同的集群节点中去。 副本 完整的一份数据,一般准备关系。 分区 经常涉及到分区,可以想到hive建仓过程中,将数据进行时间分区,也就是每天的数据作为一个分区。 分块 HDFS中涉及到的分块,是指真正的物理上的定义。一个Block默认大小128MB,如果存入一个500MB的数据,将被分成4块Block.

  超级管理员   2021年11月12日   61   0   0 大数据

![image.png](http://forum.luweiteng.xyz/8e94a0036e4a4d66a68097726b6f1335) 从图4-1中可以看出,HBase表包含两个列簇(ColumnFamily):contents和anchor。在该示例中,列簇anchor有两个列(anchor:cnnsi.com和anchor:my.look.ca),列簇contents仅有一个列contents:html。其中,列名是由列簇前缀和修饰符(Qualifier)连接而成,分隔符是英文冒...

  超级管理员   2021年10月19日   48   0   0 nosql

https://zhuanlan.zhihu.com/p/396717070 https://zhuanlan.zhihu.com/p/31041221

  超级管理员   2021年10月15日   57   0   0 大数据

什么是大数据平台 大数据平台是一个集数据接入、数据处理、数据存储、查询检索、分析挖掘等、应用接口等功能为一体的平台。 通俗的理解包括Hadoop生态的相关产品,比如Spark、Flink、Flume、Kafka、Hive、HBase等等等经典开源产品。 提到Hadoop生态技术,不得不提的是Apache和Cloudera。国内绝大部分公司的大数据平台都是基于这两个分支的产品进行商业化包装和改进。例如:阿里云EMR、腾讯TBDS、华为FusionInsight、新华三DataEngine、浪潮InsightHD、中兴DAP等产品。 其实,对于大数据平台,业内并无一个固定的能力范围。当前比较...

  超级管理员   2021年10月15日   72   0   0 大数据

什么是数据库 数据库存储分为3种,行存储、列存储、行列混合存储。 其中行存储的数据库代表产品有Oracle、MySQL、PostgresSQL等;列存储的数据代表产品有Greenplum、HBASE、Teradata,Clickhouse等;行列混合存储的数据库代表产品有TiDB,ADBforMysql等。 CAP理论 2000年,Berkerly大学有位EricBrewer教授提出了一个CAP理论,在2002年,麻省理工学院的SethGilbert(赛斯·吉尔伯特)和NancyLynch(南希·林奇)发表了布鲁尔猜想的证明,证明了CAP理论的正确性。所谓CAP理论,是指对于一个分布式计算...

  超级管理员   2021年10月15日   57   0   0 数据仓库

 什么是数据仓库 数据仓库(DataWarehouse)是一个面向主题的(SubjectOriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策(DecisionMakingSupport)。 面向主题的:根据使用者的需求,将来自不同数据源的数据围绕着各种主题进行分类整合。 集成的:来自各种数据源的数据按照统一的标准集成于数据仓库中。 相对稳定的:数据仓库中的数据是一系列的历史快照,不允许修改...

  超级管理员   2021年10月15日   60   0   0 数据仓库

Hadoop原理 Spark,Flink代码编写,以及实践 Spark,Flink相关优化 Hive建仓理论(金蝶项目) MPP架构了解 组件搭建 大数据存储 HBase ClickHouse Kudo

  超级管理员   2021年10月14日   45   0   0 大数据

大数据上层应用 Zeppelin ApacheZeppelin是一个可以进行大数据可视化分析的交互式开发系统,可以承担数据接入、数据发现、数据分析、数据可视化、数据协作等任务,其前端提供丰富的可视化图形库,不限于SparkSQL,后端支持HBase、Flink等大数据系统以插件扩展的方式,并支持Spark、Python、JDBC、Markdown、Shell等各种常用Interpreter,这使得开发者可以方便地使用SQL在Zeppelin中做数据开发。 交互式应用。 Azkaban 工作流调度系统 Oozie 训象人(调度mapreduce)。一个基于工作流引擎的开源框架. ...

  超级管理员   2021年10月14日   84   0   0 大数据

下载原理 怎么实现下载? 下载本质是将文件从服务器,传给浏览器。 其中涉及的知识点,两头一流, 两头:header头,contentType。 一流:文件输入流 其中header头 java HttpHeadersheaders=newHttpHeaders(); headers.add("Content-Disposition","attachment;filename="+filename+".jpg"); 其中contentType内容类型。 其中contentType类型包括Mime类型,详情可以参考这个文章 [通用的MIME类型:application/octe...

  超级管理员   2021年10月13日   87   0   0 其他

开始问诊为例 redissonClient.getLock获得锁 lock.tryLock()false获取锁失败,说明锁被占用了。获取锁成功,进行业务员操作。 进行try{}catch{}操作 进行业务逻辑操作 加入问诊单失效时间,使用延迟队列。 如果业务执行失败,直接抛出异常。 最终都会释放锁。也就是lock.unlock(); @Deprecated注解作用-过时不建议使用。 相关博客 [分布式锁-Redission_彩色天的博客-CSDN博客_redissio...

  超级管理员   2021年10月13日   89   0   0 其他

![流程图.svg](http://forum.luweiteng.xyz/aed05ee3f395433fb0aeb1b4c4388d86) 配置部分 作用是从yml文件中获得配置文件。 java @ConfigurationProperties(prefix="com.tryine.mq") @Data publicclassMQProperties{ / AccessKey,用于标识、校验用户身份 / privateStringaccessKey; / SecretKey,用于标识...

  超级管理员   2021年10月13日   87   0   0 其他

1.Sorted 对集合排序问题。获取源数据后,需要根据源数据中的某个属性进行排序。那么,就可以使用sorted()方法 Student.java java @Data publicclassStudent{ privateStringname; privateIntegerage; privateIntegerno; } 使用sorted()方法操作源数据,对某个属性进行比较,某个数据大的放在后面,如果该属性的值相同,那么就比较另外一个属性。 降序方法:reve...

  超级管理员   2021年10月13日   90   0   0 其他