莓事哒-CSDN博客

原创在IDEA里面建立maven项目（便于java web使用）

为以后新的项目做准备

2025-04-15 21:30:41 700

原创实验名称：使用JavaAPI操作HDFS

使用HDFS提供的Java API构造一个访问的对象，然后通过访问的对象对HDFS上的文件和目录进行相关操作（1）熟悉HDFS的Java API中常用的类。① FileSystem类② FileStatus类③ FSDataInputStream类④ FSDataOutputStream类⑤ Path类（2）熟悉HDFS的Java API中FileSystem类的常用方法。

2025-04-15 21:04:45 372

原创实验一 HDFS的Shell操作

在secureCRT里面运行的先要配置环境还要有vmware虚拟机

2025-04-15 20:51:37 243

原创分布式爬虫实践（用各种方式在pycharm）传统方式、生产者消费者模式、进程池、concurrent.futures库、gevent、aiohttp+aiofiles实现图片下载，提高爬取效率。

传统方式、生产者消费者模式、进程池、concurrent.futures库、gevent、aiohttp+aiofiles实现图片下载

2025-04-14 21:12:24 862

原创 selenium和pytessarct提取古诗文网的验证码（python爬虫）

但是这个代码识别出来的验证码有时候不准确最好用超级鹰识别方式再识别一遍~

2025-04-02 17:51:25 1228

原创使用pytesseract和Cookie登录古诗文网~（python爬虫）

一般是识别不出来的偶尔会成功最好是用超级鹰来识别

2025-04-02 17:35:13 1154

原创使用Python的pytesseract进行网站模拟登录的脚本，主要针对古诗文网（gushiwen.cn）的登录功能。

先进入登陆界面的网址：前提是你已经注册了账号。

2025-03-29 20:38:30 909

原创使用Selenium和lxml库搜房网爬取某地区房屋信息（python、pycharm爬虫）

但是这个爬虫我不知道为啥总是翻不了页数，请帮忙修改一下~

2025-03-28 20:49:18 1171

使用HDFS提供的Java API构造一个访问的对象，然后通过访问的对象对HDFS上的文件和目录进行相关操作。（8）在Windows配置Hadoop运行环境。（10）查看HDFS下载到本地文件系统的文件。④ FSDataOutputStream类。③ FSDataInputStream类。（1）配置案例环境（IDEA）① FileSystem类。② FileStatus类。（7）查看目录中的文件信息。（11）查看HDFS的目录。（4）上传文件到HDFS。（5）从HDFS下载文件。（3）获取客户端对象。

2025-03-27 20:29:43 300

原创如何使用tesseract识别验证码（python、pycharm）

步骤：下载 Tesseract前往 Tesseract GitHub 下载 Windows 安装包（）在以下链接下载可执行文件，然后一顿点击下一步安装即可（放在不需要权限的纯英文路径下）：http:// https://github.com/tesseract-ocr/运行安装程序，勾选（自动添加环境变量）。验证安装在 CMD 输入：如果显示版本号（如），说明安装成功。如果报错，需手动添加环境变量：右键此电脑 → 属性 → 高级系统设置 → 环境变量。在 Path 中添加

2025-03-27 19:59:31 1499

原创 python使用cookie、session、selenium实现网站登录（爬取信息）

要用自己的chrome地址以及自己选择的url和内容来运行

2025-03-27 17:21:53 1567

原创还有一种是汉字和计算结果类型的验证码（只更改verifycode）

详情代码以及布局请见专栏里的第一篇关于验证码写法的文章

2025-03-27 16:36:52 520

原创 Java Web应用程序实现用户登录、学生信息管理和(多种样式的)验证码验证以及页面跳转等基本功能（IDEA）含（Ajax、JSTL）

注意！！！这里面其中的代码要从以上链接里去找到以及如何更改多样式的验证码。

2025-03-26 21:52:51 564

原创用Selenium+lxml库完成淄博链家网数据的爬取

这个代码是一个使用 Selenium 和 lxml 库编写的网络爬虫，用于从链家网（Lianjia）的二手房列表页面中提取房屋信息。

2025-03-23 18:34:58 1265

原创用selenium+ChromeDriver爬取知乎评论区（但要求登录以及反爬机制爬不到数据）

有大佬来帮忙改改吗？球球啦~~~~ 其他的XPATH路径应该是对的

2025-03-23 12:28:08 2092

原创用selenium+ChromeDriver豆瓣电影肖申克的救赎短评爬取（pycharm 爬虫）

Selenium 是一个用于自动化浏览器操作的库，常用于网页测试和爬虫。

2025-03-23 11:56:41 1643

原创 Java Web应用程序实现用户登录、学生信息管理和验证码验证以及页面跳转等基本功能（IDEA）含（Ajax、JSTL）

以一个已经有的ui来作为模板修改为我们所用（初级篇）

2025-03-19 20:54:01 1433

原创使用Ajax技术进行动态网页的爬虫（pycharm）

如果这种情况就是反爬机制的阻挠或者是timeout爬取的时间不够可以适当增大！

2025-03-17 19:34:28 2322 2

原创 python网络爬虫知识点（入门篇）超级有帮助！

爬虫能够自动访问互联网并提取数据，广泛应用于数据采集、搜索引擎、数据分析等领域。

2025-03-16 16:41:28 1342

原创数据库系统原理（第六章关系数据理论知识点）

关系数据库设计时，如何避免数据冗余、插入异常、删除异常和更新异常？

2025-03-16 15:58:43 800

原创如何用正则表达式爬取古诗文网中的数据（python爬虫）

在爬虫中，正则表达式主要用于从网页源码中提取所需信息。

2025-03-15 19:28:48 1872

原创杨辉三角（Pascal‘s Triangle）的生成和输出。

杨辉三角是一个经典的数学图形，它的每一行是二项式系数的展开形式。

2025-03-13 18:25:59 425

原创 C/C++基数排序（Radix Sort）的排序算法。

基数排序是一种非比较型整数排序算法，它通过将整数按位数切割成不同的数字，然后按每个位数分别进行比较和排序。

2025-03-13 18:13:40 633

原创通过JSP（Java Server Pages）对JAVA代码进行操作（入门篇）

一个简单的JSP（Java Server Pages）页面，用于生成一个包含姓名和学号的HTML表格

2025-03-12 20:37:36 710

原创数据采集技术之python网络爬虫（中国天气网的爬取）

通过这段代码，可以学习如何从网页中提取结构化数据，并将其用于进一步的分析或存储。

2025-03-12 19:53:16 3825 1

原创 Web网页制作之爱家居的设计（静态网页）

Web网页制作之爱家居的设计（静态网页）

2025-03-12 17:20:01 560

原创关于使用Cookie的代码写法以及对Javaweb的网页理解

Cookie的使用具体内容专栏里面的文章（小白篇）有具体介绍

2025-03-10 21:03:29 1455

原创 Web网页制作（静态网页）：千年之恋

web静态网页制作（主要是登记注册一类的网页的写法）

2025-03-09 18:18:04 3411 2

原创数据结构与算法（基础知识点总结）

知识点的积累以及错题百刷在期末的笔试题中会大放异彩的！

2025-03-09 13:15:41 318

原创静态网页的爬虫（以电影天堂为例）

静态网页爬虫（具体操作步骤以及代码基础知识点的详情解释请看上一篇），或者打开爬虫专栏。

2025-03-08 20:22:37 10041

原创实现静态网络爬虫（入门篇）

如何实现静态网络爬虫？（入门篇）

2025-03-08 19:30:13 1131

原创 Web网页制作（静态网页）（设计自动滚播，以及填写信息地址和图片随意转换的形式）

web静态网页制作

2025-03-07 17:59:48 1102

原创用python代码实现人脸识别以及人脸检测（运行跳转到数据大屏形式呈现）

人脸数据分析算法的发展历史可以追溯到上世纪六十年代，早期的算法主要基于简单的几何特征或模板匹配，随后，基于统计学习，近年来，随着深度学习技术的兴起，卷积神经网络（CNN）等算法在人脸检测与识别领域取得了突破性进展。传统算法优点是算法简单，易于实现，计算速度快。缺点是光照、姿态、表情等变化敏感，识别准确率较低。深度学习算法的优点是能够自动学习人脸特征表示，对复杂背景和多变姿态具有较强的适应性，识别准确率高。缺点是需要大规模数据集进行训练，计算资源消耗较大。

2025-03-06 17:12:42 869