小米菲爱学习-CSDN博客

原创【SQL】leetcode 584.寻找用户推荐人（知识点：SQL的三值逻辑）

对于原表中有NULL的情况下，怎么使用WHERE过滤数据？

2022-04-19 18:42:39 1270

原创小米菲的Tableau学习日记02：Tableau的工作区介绍--什么是工作表、仪表板和故事？

Tableau的工作表、仪表板和故事分别是什么？

2022-04-06 11:23:27 2185

原创小米菲的Tableau学习日记01：Tableau学习资料、安装及学生版申请

Tableau安装及学生许可证申请

2022-04-05 23:22:52 3867 3

转载 177. 第N高的薪水

CREATE FUNCTION getNthHighestSalary(N INT) RETURNS INTBEGIN DECLARE m INT; set m = N-1; RETURN ( # Write your MySQL query statement below. SELECT IFNULL(( SELECT DISTINCT Salary FROM Employee ORDER BY

2021-06-11 18:07:32 171

转载 leetcode练习 176. 第二高的薪水

题目编写一个 SQL 查询，获取 Employee 表中第二高的薪水（Salary）。题解# Write your MySQL query statement belowSELECT IFNULL( (SELECT DISTINCT Salary FROM Employee ORDER BY Salary DESC LIMIT 1,1 ),null) AS SecondHighestSalary;-- 首先要将数据去重-- 然后按薪水降序排序-- 1

2021-06-11 17:54:18 118

原创 PAT乙级题：python1091 N-自守数（15分）

1091 N-自守数 (15分)输入样例：392 5 233输出样例：3 253921 25NoM = int(input())K = list(map(int,input().split(" "))) #这个列表用来存放M个待检测的数字# 题目保证N < 10for i in range(M): for j in range(10): n = len(str(K[i])) #用来统计K到底是几位数字，而且这个过程并不会影响list元素的属性

2020-11-10 17:16:44 303

原创 PAT乙级题：python1023 组个最小数（20分）

给定数字 0-9 各若干个。你可以以任意顺序排列这些数字，但必须全部使用。目标是使得最后得到的数尽可能小（注意 0 不能做首位）。例如：给定两个 0，两个 1，三个 5，一个 8，我们得到的最小的数就是 10015558。现给定数字，请编写程序输出能够组成的最小的数。输入格式：输入在一行中给出 10 个非负整数，顺序表示我们拥有数字 0、数字 1、……数字 9 的个数。整数间用一个空格分隔。10个数字的总个数不超过 50，且至少拥有 1 个非 0 的数字。输出格式：在一行中输出能够组成的最

2020-11-07 20:16:15 349

原创 PAT乙级题：python1022D进制的A+B （20分）

看到陈越姥姥说20分的题目控制在30分钟之内做完，这道题我刚好用了20分钟。一开始我想除了二进制和八进制，其他我都不太了解怎么办，好在十进制到二进制的转换给了我灵感，可以写一个D进制的函数一次转化完成。其实十进制转化为二进制就是不断取余的过程，参考博客[1]中的做法：我写出了这个函数：A,B,D= map(int,input().split(" "))C = A+B#提示：十进制转化二进制，除二取余lst = [] #用来存放D进制数的各位数字def Djinzhi(c,d): w

2020-11-07 19:36:28 281

原创 PAT乙级题：1021个位数统计（15分）

N = input()n = list(map(int,N)) #这样N的每一位就被分开了#D = [0,1,2,3,4,5,6,7,8,9]M = [0,0,0,0,0,0,0,0,0,0] #M的长度应该与D相同，如果遇到的话，该位就加1，最后输出的是M大于0的数字for i in range(len(n)): for j in range(10): if n[i] == j: M[j] = M[j]+1for i in range(9):.

2020-11-07 19:03:09 215

转载数据挖掘的几种任务划分

6. 使用交互式的和可视化的技术，对数据进行探索属于数据挖掘的哪一类任务？（ A）A. 探索性数据分析B. 建模描述C. 预测建模D. 寻找模式和规则7. 为数据的总体分布建模；把***空间/多维空间划分成组等问题属于数据挖掘的哪一类任务？ (B)A. 探索性数据分析B. 建模描述C. 预测建模D. 寻找模式和规则8. 建立一个模型，通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务？©A. 根据内容检索B. 建模描述C. 预测建模D. 寻找模式和规则9

2020-11-07 12:01:31 1777

原创关于增量模型

增量模型是把待开发的软件系统模块化，将每个模块作为一个增量组件，从而分批次地分析、设计、编码和测试这些增量组件。运用增量模型的软件开发过程是递增式的过程。相对于瀑布模型而言，采用增量模型进行开发，开发人员不需要一次性地把整个软件产品提交给用户，而是可以分批次进行提交。增量模型(IncrementalModel)又称演化模型。与建造大厦相同，软件也是一步一步建造起来的。在增量模型中，软件被作为一系列的增量构件来设计、实现、集成和测试、每一个构件是由多种相互作用的模块所形成的提供特定功能的代码片段构成

2020-11-07 11:54:09 2383

原创讲讲accuracy、precision、recall、f1-score这几个经典评估指标

读论文的时候又遇到了这几个，precision和recall没什么好说的，精确率和召回率，如果不了解的话可以看看小米菲的另一篇博客~通俗解释查准率和查全率的区别。准确率其实和精确率、召回率这两者也有很大关系：看到了吗，回到上篇博文的西瓜问题，其实precision关注的都是我挑出的的真正好瓜（正例）占我挑出的瓜的比例；而recall关注的是我挑出的真正好瓜（正例）占瓜农那里好瓜总数的比例。PNTTPTNFFPFNP（Positive）表示我目前预测这个西瓜

2020-11-06 13:50:33 2121

原创 PAT乙级题：python1013 数素数(20分）——待修改

输入格式：输入在一行中给出 M 和 N，其间以空格分隔。输出格式：输入样例：5 27输出样例：11 13 17 19 23 29 31 37 41 4347 53 59 61 67 71 73 79 83 8997 101 103代码：# 首先写一个可以判断素数的函数M, N = map(int,input().split(" "))def prime(n): if n % 2 == 0: return n == 2 if n % 3 =.

2020-11-05 20:29:34 311

原创如何用python输出每10个一行的元素

在素数题里用到了，主要思想就是在循环输出的循环体内同时让计次变量count也进行循环+1，然后当count %10 == 0的时候，就print(end = "\n")　　　#每十行end 变为”\n",第十一个数开始换行表示从第十个数开始换行。　references：[1] https://www.cnblogs.com/hoxie/p/10260933.html...

2020-11-05 20:18:38 19985

原创 PAT乙级题：1002写出这个数（20分）

读入一个正整数 n，计算其各位数字之和，用汉语拼音写出和的每一位数字。输入格式：输出格式：在一行内输出 n 的各位数字之和的每一位，拼音数字间有 1 空格，但一行中最后一个拼音数字后没有空格。输入样例：1234567890987654321123456789输出样例：yi san wu代码：n = int(input())len_n = len(str(n).strip())list1 =[] #空列表用来存储每一位，从最高位开始，如果有多一位就依次排在后面就行了while l

2020-11-05 19:40:42 152

原创 PAT乙级题：python1016 部分A+B(15分）

输入样例 1：3862767 6 13530293 3输出样例 1：399输入样例 2：3862767 1 13530293 8输出样例 2：0

2020-11-04 13:20:02 246

原创 PAT乙级题：python1012 数字分类(20分）

输入格式：每个输入包含 1 个测试用例。每个测试用例先给出一个不超过 1000 的正整数 N，随后给出 N 个不超过 1000 的待分类的正整数。数字间以空格分隔。输出格式：若其中某一类数字不存在，则在相应位置输出 N。输入样例 1：13 1 2 3 4 5 6 7 8 9 10 20 16 18输出样例 1：30 11 2 9.7 9输入样例 2：8 1 2 4 5 6 7 9 16输出样例 2：N 11 2 N 9其实做的有点麻烦，判断和加和完全可以放在一起进行，而..

2020-11-03 15:18:01 567 1

原创 PAT乙级题：1011 A+B和C(15分）

输入格式：输入第 1 行给出正整数 T (≤10)，是测试用例的个数。随后给出 T 组测试用例，每组占一行，顺序给出 A、B 和C。整数间以空格分隔。输出格式：对每组测试用例，在一行中输出 Case #X: true 如果 A+B>C，否则输出 Case #X: false，其中 X是测试用例的编号（从 1 开始）。输入样例：41 2 32 3 42147483647 0 21474836460 -2147483648 -2147483647输出样例：Case #.

2020-11-03 10:50:56 264

原创 PAT乙级题：python 1010 一元多项式求导(25分）

输入格式:以指数递降方式输入多项式非零项系数和指数（绝对值均为不超过 1000 的整数）。数字间以空格分隔。输出格式:以与输入相同的格式输出导数多项式非零项的系数和指数。数字间以空格分隔，但结尾不能有多余空格。注意“零多项式”的指数和系数都是 0，但是表示为 0 0。输入样例:3 4 -5 2 6 1 -2 0输出样例:12 3 -10 1 6 0【解析】首先读懂题，输入样例其实是输入一个系数，再输入一个指数，再输入一个系数，再输入一个指数… …：然后就是具体的实现.

2020-11-02 19:57:43 613 1

原创 PAT乙级题：python 1009 说反话(20分）

一道简单题。给定一句英语，要求你编写程序，将句中所有单词的顺序颠倒输出。输入格式：测试输入包含一个测试用例，在一行内给出总长度不超过 80的字符串。字符串由若干单词和若干空格组成，其中单词是由英文字母（大小写有区分）组成的字符串，单词之间用 1个空格分开，输入保证句子末尾没有多余的空格。输出格式：每个测试用例的输出占一行，输出倒序后的句子。输入样例：Hello World Here I Come输出样例：Come I Here World Helloa = input

2020-11-02 19:11:07 853

原创 PAT乙级题：python 1008 数组元素循环右移问题(20分)

输入格式:每个输入包含一个测试用例，第1行输入N（1≤N≤100）和M（≥0）；第2行输入N个整数，之间用空格分隔。输出格式:在一行中输出循环右移M位以后的整数序列，之间用空格分隔，序列结尾不能有多余空格。输入样例:6 21 2 3 4 5 6输出样例:5 6 1 2 3 4N,M = map(int,input().split(' ')) #之间用空格分隔#print(N,M)lst = list(map(int,input().split( " ")))m1 =.

2020-11-02 18:58:01 380 3

原创 PAT乙级题：python 1007 素数对猜想 (20分)——解决运行超时问题

输入格式:输入在一行给出正整数N。输出格式:在一行中输出不超过N的满足猜想的素数对的个数。输入样例:20输出样例:4首先明确素数的定义：一个大于1的自然数，且除了1和它本身外，不能被其他自然数整除的数就是素数，因此拿到一个素数n，只要n不能被[2,n-1]区间中的任何自然数整除，那n就是素数。N = int(input())#在输出不大于N的所有素数之前，首先对于循环中的每一个数，应该判断其是不是素数：def prime(n): if n <= 1:.

2020-11-02 14:02:59 710

转载推荐系统05： Wide&Deep

1. 点击率预估简介点击率预估是用来解决什么问题？点击率预估是对每次广告点击情况作出预测，可以输出点击或者不点击，也可以输出该次点击的概率，后者有时候也称为pClick.点击率预估模型需要做什么？通过上述点击率预估的基本概念，我们会发现其实点击率预估问题就是一个二分类的问题，在机器学习中可以使用逻辑回归作为模型的输出，其输出的就是一个概率值，我们可以将机器学习输出的这个概率值认为是某个用户点击某个广告的概率。点击率预估与推荐算法有什么不同？广告点击率预估是需要得到某个用户对某个广告的点击率，然后

2020-10-27 11:30:29 250

原创通俗解释查准率和查全率的区别

还记得自己在牛客刷一道题，发现一直傻傻分不清楚查准率（Precision）和查全率(Recall)。在不同书上的翻译不同，也有人把Precision和Recall称为精确率和召回率。那么这两者到底有什么区别呢？通俗一点来说，现在我要从瓜农那里买瓜，假设瓜农卖300个瓜，其中150个是好瓜，150个是坏瓜。我现在并不差钱，因此我决定从瓜农那里买下所有的好西瓜。作为顾客，我当然想吃又甜又新鲜的西瓜。由于不能一个一个剖开来尝——防止瓜农打我，我只能评以往的经验来挑出所有的好西瓜。通过听声音，观.

2020-10-27 11:11:08 5722 1

转载推荐系统03：矩阵分解

隐语义模型与矩阵分解协同过滤算法的特点就是完全没有利用到物品本身或者是用户自身的属性，仅仅利用了用户与物品的交互信息就可以实现推荐，是一个可解释性很强，非常直观的模型，但是也存在一些问题，第一个就是处理稀疏矩阵的能力比较弱，所以为了使得协同过滤更好处理稀疏矩阵问题，增强泛化能力，从协同过滤中衍生出矩阵分解模型(Matrix Factorization,MF)或者叫隐语义模型, 两者差不多说的一个意思，就是在协同过滤共现矩阵的基础上，使用更稠密的隐向量表示用户和物品，挖掘用户和物品的..

2020-10-25 23:11:23 161

原创推荐系统01：协同过滤（collabrative filtering））

1. 协同过滤算法基本思想：根据用户以往的喜好及其他兴趣相近的用户的选择给用户推荐物品。仅依赖于用户行为数据，而不依赖于其他附加信息（比如物品自身特征）或者用户的附加信息（年龄，性别等）。目前应用较广泛的协同过滤算法是基于领域的方法，共分为两种：基于用户的协同过滤算法(UserCF): 给用户推荐和他兴趣相似的其他用户喜欢的产品基于物品的协同过滤算法(ItemCF): 给用户推荐和他之前喜欢的物品相似的物品无论上述哪种算法，计算用户之间的相似度或物品之间的相似度都非常重要，所以首先看看

2020-10-22 21:41:47 592

原创 PAT乙级题：python 1086 就不告诉你 (15分)

做作业的时候，邻座的小盆友问你：“五乘以七等于多少？”你应该不失礼貌地围笑着告诉他：“五十三。”本题就要求你，对任何一对给定的正整数，倒着输出它们的乘积。输入格式：输入在第一行给出两个不超过 1000 的正整数 A 和 B，其间以空格分隔。输出格式：在一行中倒着输出 A 和 B 的乘积。输入样例：5 7输出样例：53a,b = input().split(' ')a = int(a)b = int(b)c = a*bc_st = [] #到时候用来存放每一位数字.

2020-10-20 15:25:24 978 3

原创 PAT乙级题：python 1076 Wifi密码 (15分)

下面是微博上流传的一张照片：“各位亲爱的同学们，鉴于大家有时需要使用 wifi，又怕耽误亲们的学习，现将 wifi 密码设置为下列数学题答案：A-1；B-2；C-3；D-4；请同学们自己作答，每两日一换。谢谢合作！！~”—— 老师们为了促进学生学习也是拼了…… 本题就要求你写程序把一系列题目的答案按照卷子上给出的对应关系翻译成 wifi 的密码。这里简单假设每道选择题都有 4 个选项，有且只有 1 个正确答案。输入格式：输入第一行给出一个正整数 N（≤ 100），随后 N 行，每行按照编号-答.

2020-10-20 15:10:06 1044

原创 PAT乙级题：python 1087 有多少不同的值 (20分)

当自然数 n 依次取 1、2、3、……、N 时，算式 ⌊n/2⌋+⌊n/3⌋+⌊n/5⌋ 有多少个不同的值？（注：⌊x⌋ 为取整函数，表示不超过 x 的最大自然数，即 x 的整数部分。）输入格式：输入给出一个正整数 N（2≤N≤10^4）。输出格式：在一行中输出题面中算式取到的不同值的个数。输入样例：2017输出样例：1480N = int(input()) #输入给出一个正整数2<=N<=10^4Id = []for i in range(1,N+1): I

2020-10-20 14:33:57 459

原创推荐系统 00：概述

核心内容：协同过滤矩阵分解FMGBDT + LRWide&Deep一、什么是推荐系统1.What用户：推荐系统是一种帮助用户快速发现有用信息的工具公司：推荐系统是一种增加公司产品与用户接触,购买等行为概率的工具2.Why用户：在用户需求并不十分明确的情况下进行信息的过滤,与搜索系统相比,推荐系统更多的利用用户的各类历史信息猜测其可能喜欢的内容公司：解决产品能够最大限度地吸引用户,留存用户,增长用户黏性,提高用户转化率,从而达到公司商目标连续增长的目的.3.Who

2020-10-19 22:08:03 436

原创 PAT乙级刷题记录 python

读入 n（>0）名学生的姓名、学号、成绩，分别输出成绩最高和成绩最低学生的姓名和学号。输入格式：每个测试输入包含 1 个测试用例，格式为第 1 行：正整数 n第 2 行：第 1 个学生的姓名学号成绩第 3 行：第 2 个学生的姓名学号成绩… … …第 n+1 行：第 n 个学生的姓名学号成绩其中姓名和学号均为不超过 10 个字符的字符串，成绩为 0 到 100 之间的一个整数，这里保证在一组测试用例中没有两个学生的成绩是相同的。输出格式：对每个测试用例输出 2 行，第

2020-10-16 12:26:38 455

原创大数据分析工具作业task01:np.random总结及几种常见概率分布图形的绘制

numpy.random在生成大型样本时比纯python方式快乐一个数量级写这篇文章的原因是小米菲一直对于numpy中的伪随机数们傻傻分不清楚，再加上我的大数据分析工具老师让我们画出六种分布的图形（包括正态、指数、均匀；0-1、二项、泊松。）所以趁着这个机会恶补一下，顺便学学常用的统计图形怎么画。一个目录1.函数总结2.均匀分布2.1均匀分布np.random.rand()2.2 均匀分布的图像绘制2.3 补充——直方图hist()参数bins变量类型3. 正态分布（高斯分布）3.1 np.rand.

2020-09-27 13:49:45 1918

原创一分钟来看看random.randint()与np.random.randint()的区别

在生成随机数的时候我发现了这样一个问题：那就是random.randint(0,1)不仅可以输出0，也可以输出1；这和我以前经常习惯性认为的左闭右开区间是相悖的，事实证明的确如此：import numpy as npimport pandas as pdnsteps = 1000draws = np.random.randint(0,2,size = nsteps)draws这里输出的是一个数组，但是其中只包含0，1两个元素（因为我生成了1000个元素，所以现在只挑一部分写出）：array

2020-09-11 10:30:41 1092

原创极大似然估计与逻辑斯谛回归

极大似然估计一般来说，在有一组样本X1，X2，X3，…,Xn；取值x1,x2,…,xn。我们不知道这些样本所属总体服从的具体分布，但是我们知道他们和未知参数结合的形式——比如上述样本的概率分别为p（x1，θ1，θ2，…,θn),p（x2，θ1，θ2，…,θn),…,p（xn，θ1，θ2，…,θn).那么现在如何对未知的参数θ1，θ2，…,θn进行估计以确定样本的函数？那就是将这些样本对应的分布乘起来构建似然函数，再通过对似然函数求极大值，获得各个参数的取值。这个思想不是凭空出现的，比如扔色子，我们

2020-09-07 17:25:56 932

空空如也

空空如也