傻瓜の博客

置顶|发表于2021-09-01|更新于2022-07-10|Hexo-Butteryfly|小白•教程•Butteryfly•Hexo

本文章通过学习大佬Jerry的Butterfly,搭建个性化个人博客。此处作为随手记录，以免未来搭建又得重新寻找教程。如果你还没有初步搭建博客，可以转到5分钟搭建Hexo个人博客学习搭建。【注意：可能由于本地没有安装python或则缺失vs2017等环境造成搭建失败，请自行到百度查询教程下载，此处就不单独讲解。】安装在自己的Hexo根目录下，通过git命令克隆主题这里有可能因为网络问题或则代理问题导致失败 git clone -b master https://github.com/jerryc127/hexo-theme-butterfly.git themes/butterfly 应用主题修改 Hexo 根目录下的 _config.yml，把主题改为butterfly theme: butterfly 安装插件没有pug以及stylus的渲染器将无法访问，请安装： npm install hexo-renderer-pug hexo-renderer-stylus --save 升级建议为了减少升级主题后带来的不便，请使用以下方式(建议，可以不做)。此方法只支 ...

linux查看端口占用情况

发表于2022-08-08|更新于2022-08-08|linux|linux

常常我们在linux都会通过ps -ef | grep 关键字查询服务进程,但如果查询linux的某个端口号占用情况呢？以下就是介绍相关知识内容 netstatnetstat -tunlp 用于显示 tcp，udp的端口和进程等相关情况。 netstat 查看端口占用语法格式： netstat -tunlp | grep 端口号 -t (tcp) 仅显示tcp相关选项-u (udp)仅显示udp相关选项-n 拒绝显示别名，能显示数字的全部转化为数字-l 仅列出在Listen(监听)的服务状态-p 显示建立相关链接的程序名例如查看 8000 端口的情况，使用以下命令： # netstat -tunlp | grep 8000tcp 0 0 0.0.0.0:8000 0.0.0.0:* LISTEN 26993/nodejs 更多的常用的查询类型 netstat -ntlp //查看当前所有tcp端口netstat -ntulp | grep 80 //查看所有80端口使用情况netst ...

Hadoop3.x-MapReduce

发表于2022-07-20|更新于2022-08-08|Hadoop|Hadoop

MapReduce概设定义MapReduce 是一个分布式运算程序的编程框架，是用户开发“基于 Hadoop 的数据分析应用”的核心框架。MapReduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个 Hadoop 集群上。优势劣势优点易于编程。用户只需要关心业务逻辑代码。实现框架的接口。良好的扩展性：可以动态增加服务器数量，解决计算资源不够的问题。高容错性：任何一台机器挂掉，可以将人物转移到其他节点。适合海量数据计算（TB/PB）几千台服务器共同计算缺点不擅长实时计算。【MySQL-毫秒级】不擅长流式计算。流式计算的输入数据是动态的，而 MapReduce 的输入数据集是静态的，不能动态变化。这是因为 MapReduce 自身的设计特点决定了数据源必须是静态的。【Sparkstreaming、flink】不擅长DAG有向无环图计算。由于每个 MapReduce 作业的输出结果都会写入到磁盘，会造成大量的磁盘 IO，导致性能非常的低下。【Spark】 WordCount案例序列化核心框架远离输入的数据InputFor ...

macOS系统禁止开机启动

发表于2022-07-17|更新于2022-07-17|macOS|macOS

使用macOS开机时候，常常会发现很多软件开机会自动启动。正常情况可以在系统偏好设置->用户与群组->登陆项中找到相应的设置，没找到的第三方软件，可以通过对应的软件设置中开/关自动启动，但又存在部分流氓软件无法在这两种方式设置。以下是记录如何设置关闭流氓软件自启动项。 macOS 系统的启动项首先我们需要了解到macOS 系统的启动项会以 .plist 的文件存放： /Library/LaunchDaemons：系统启动时运行，用户不登录也会运行 /Library/LaunchAgents：用户登录后运行 ~/Library/LaunchAgents：用户自定义的用户启动项 /System/Library/LaunchDaemons：系统自带的启动项 /System/Library/LaunchAgents：系统自带的启动项 plist的属性设置plist文件中，有3个属性是控制开机自动启动 KeepAlive：决定程序是否需要一直运行，如果是 false 则需要时才启动。默认 false RunAtLoad：开机时是否运行。默认 false Successful ...

M1版macos使用brew安装hadoop3

发表于2022-07-15|更新于2022-07-16|Homebrew|Homebrew

此篇文章记录博主使用M1版macos设备利用brew安装hadoop3，在本地安装伪分布式hadoop进行快速学习【前提】 Homebrew安装Homebrew是OSX中非常优秀的包管理工具，如果没安装，可以前往博主博客搜索Homebrew教程配置 ssh localhost（免密登陆）因为安装hadoop需要远程登入的功能，所以需要安装ssh工具，但Mac下自带ssh，所以不需要另外安装ssh。 Macos X 只需要在系统偏好设置-->共享-->远程登录勾选就可以使用ssh了。PS:如果没有执行远程登录勾选操作，在运行ssh localhost会出现：mac ssh: connect to host localhost port 22: Connection refused。 ssh免密设置：终端输入 ssh-keygen -t rsa -P ""cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys 确认能否不输入口令就用ssh登录localhost: $ ssh localhost ...

M1版Macos的brew安装python2

发表于2022-07-15|更新于2022-07-16|Homebrew|Homebrew

Homebrew在MacOS中充当绝佳的包管理工具。通过brew安装python3非常简单，只需要通过指令brew install python@3,将会自动添加python3和pip3命令。关于python2的安装由于博主使用的M1版Macos,所以这里只提供了brew如何安装python2 brew安装pyenv执行以下命令 brew install pyenvpyenv install 2.7.18export PATH="$(pyenv root)/shims:${PATH}"pyenv global 2.7.18python --version 一切顺利会显示python2的版本输出。添加环境变量需要将上述路径添加到环境变量里面，例如： echo 'PATH=$(pyenv root)/shims:$PATH' >> ~/.zshrc PS：此方法可以与brew install python3方式安装的python3共存。

M1版Macos安装Homebrew教程

发表于2022-07-14|更新于2022-07-16|Homebrew|Homebrew

由于自己新买的设备是M1版Macos，了解到Homebrew装系统的开发环境比较方便，且易于管理，此文章作为学习记录笔记安装ARM版Homebrew执行命令后，会在/opt/homebrew路径下创建homebrew目录 /bin/bash -c "$(curl -fsSL https://gitee.com/ineo6/homebrew-install/raw/master/install.sh)" 然后还需要设置环境变量，需要先执行命令echo $SHELL显示的结果，接下来需在相应的环境文件配置以下会出现这2种情况，以自己的系统显示为主： /bin/bash => bash => .bash_profile /bin/zsh => zsh => .zprofile 从macOS Catalina(10.15.x) 版开始，Mac使用zsh作为默认Shell，使用.zprofile，所以对应命令： echo 'eval "$(/opt/homebrew/bin/brew shellenv)"&#x ...

Hello World

发表于2022-07-10|更新于2022-07-10

Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub. Quick StartCreate a new post$ hexo new "My New Post" More info: Writing Run server$ hexo server More info: Server Generate static files$ hexo generate More info: Generating Deploy to remote sites$ hexo deploy More info: Deployment

Hadoop3.X【HDFS】

发表于2022-06-27|更新于2022-07-20|Hadoop|Hadoop

概述HDFS的产生背景和定义HDFS 产生背景随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS 只是分布式文件管理系统中的一种。 HDFS 定义HDFS（Hadoop Distributed File System），它是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。HDFS 的使用场景：适合一次写入，多次读出的场景。一个文件经过创建、写入和关闭之后就不需要改变。 HDFS优缺点优点高容错性适合处理大数据可构建在廉价机器上，通过多副本机制，提高可靠性。缺点不适合低延时数据访问，比如毫秒级的存储数据，是做不到的。无法高效的对大量小文件进行存储。(1)存储大量小文件的话，它会占用NameNode大量的内存来存储文件目录和块信息。这样是不可取的，因为NameNode的内存总是有限的；(2)小文件存储的寻址时间会超过读取时间，它违反了HDFS的设计目标 ...

大数据-Hive3.x

发表于2022-06-07|更新于2022-07-10|Hive|Hive

第 1 章 Hive 基本概念什么是 Hive hive 简介Hive：由 Facebook 开源用于解决海量结构化日志的数据统计工具。Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张表，提供类 SQL 查询功能. Hive 本质将 HQL 转化成 MapReduce 程序 Hive 处理的数据存储在 HDFS Hive 分析数据底层的实现是 MapReduce 执行程序运行在 Yarn 上 Hive 的优缺点优点操作接口采用类 SQL 语法，提供快速开发的能力（简单、容易上手）。避免了去写 MapReduce，减少开发人员的学习成本。 Hive 的执行延迟比较高，因此 Hive 常用于数据分析，对实时性要求不高的场合。 Hive 优势在于处理大数据，对于处理小数据没有优势，因为 Hive 的执行延迟比较高。 Hive 支持用户自定义函数，用户可以根据自己的需求来实现自己的函数。缺点 Hive 的 HQL 表达能力有限（1）迭代式算法无法表达（2）数据挖掘方面不擅长，由于 MapReduce 数据处理流程的限制，效率更高的 ...