- 博客(49)
- 收藏
- 关注
原创 实验名称:使用JavaAPI操作HDFS
使用HDFS提供的Java API构造一个访问的对象,然后通过访问的对象对HDFS上的文件和目录进行相关操作(1)熟悉HDFS的Java API中常用的类。① FileSystem类② FileStatus类③ FSDataInputStream类④ FSDataOutputStream类⑤ Path类(2)熟悉HDFS的Java API中FileSystem类的常用方法。
2025-04-15 21:04:45
372
原创 分布式爬虫实践(用各种方式在pycharm)传统方式、生产者消费者模式、进程池、concurrent.futures库、gevent、aiohttp+aiofiles实现图片下载,提高爬取效率。
传统方式、生产者消费者模式、进程池、concurrent.futures库、gevent、aiohttp+aiofiles实现图片下载
2025-04-14 21:12:24
862
原创 selenium和pytessarct提取古诗文网的验证码(python爬虫)
但是这个代码识别出来的验证码有时候不准确 最好用超级鹰识别方式再识别一遍~
2025-04-02 17:51:25
1228
原创 使用Python的pytesseract进行网站模拟登录的脚本,主要针对古诗文网(gushiwen.cn)的登录功能。
先进入登陆界面的网址:前提是你已经注册了账号。
2025-03-29 20:38:30
909
原创 使用Selenium和lxml库搜房网爬取某地区房屋信息(python、pycharm爬虫)
但是这个爬虫我不知道为啥总是翻不了页数,请帮忙修改一下~
2025-03-28 20:49:18
1171
原创 使用JavaAPI操作HDFS
使用HDFS提供的Java API构造一个访问的对象,然后通过访问的对象对HDFS上的文件和目录进行相关操作。(8)在Windows配置Hadoop运行环境。(10)查看HDFS下载到本地文件系统的文件。④ FSDataOutputStream类。③ FSDataInputStream类。(1)配置案例环境(IDEA)① FileSystem类。② FileStatus类。(7)查看目录中的文件信息。(11)查看HDFS的目录。(4)上传文件到HDFS。(5)从HDFS下载文件。(3)获取客户端对象。
2025-03-27 20:29:43
300
原创 如何使用tesseract识别验证码(python、pycharm)
步骤:下载 Tesseract前往 Tesseract GitHub 下载 Windows 安装包()在以下链接下载可执行文件,然后一顿点击下一步安装即可(放在不需要权限的纯英文路径下):http:// https://github.com/tesseract-ocr/运行安装程序,勾选 (自动添加环境变量)。验证安装 在 CMD 输入: 如果显示版本号(如 ),说明安装成功。如果报错 ,需手动添加环境变量:右键 此电脑 → 属性 → 高级系统设置 → 环境变量。在 Path 中添加
2025-03-27 19:59:31
1499
原创 python使用cookie、session、selenium实现网站登录(爬取信息)
要用自己的chrome地址以及自己选择的url和内容来运行
2025-03-27 17:21:53
1567
原创 Java Web应用程序实现用户登录、学生信息管理和(多种样式的)验证码验证以及页面跳转等基本功能(IDEA)含(Ajax、JSTL)
注意!!!这里面其中的代码要从以上链接里去找到 以及如何更改多样式的验证码。
2025-03-26 21:52:51
564
原创 用Selenium+lxml库完成淄博链家网数据的爬取
这个代码是一个使用 Selenium 和 lxml 库编写的网络爬虫,用于从链家网(Lianjia)的二手房列表页面中提取房屋信息。
2025-03-23 18:34:58
1265
原创 用selenium+ChromeDriver爬取知乎评论区(但要求登录以及反爬机制爬不到数据)
有大佬来帮忙改改吗?球球啦~~~~ 其他的XPATH路径应该是对的
2025-03-23 12:28:08
2092
原创 用selenium+ChromeDriver豆瓣电影 肖申克的救赎 短评爬取(pycharm 爬虫)
Selenium 是一个用于自动化浏览器操作的库,常用于网页测试和爬虫。
2025-03-23 11:56:41
1643
原创 Java Web应用程序实现用户登录、学生信息管理和验证码验证以及页面跳转等基本功能(IDEA)含(Ajax、JSTL)
以一个已经有的ui来作为模板修改为我们所用(初级篇)
2025-03-19 20:54:01
1433
原创 C/C++基数排序(Radix Sort) 的排序算法。
基数排序是一种非比较型整数排序算法,它通过将整数按位数切割成不同的数字,然后按每个位数分别进行比较和排序。
2025-03-13 18:13:40
633
原创 通过JSP(Java Server Pages)对JAVA代码进行操作(入门篇)
一个简单的JSP(Java Server Pages)页面,用于生成一个包含姓名和学号的HTML表格
2025-03-12 20:37:36
710
原创 用python代码实现人脸识别以及人脸检测(运行跳转到数据大屏形式呈现)
人脸数据分析算法的发展历史可以追溯到上世纪六十年代,早期的算法主要基于简单的几何特征或模板匹配,随后,基于统计学习,近年来,随着深度学习技术的兴起,卷积神经网络(CNN)等算法在人脸检测与识别领域取得了突破性进展。传统算法优点是算法简单,易于实现,计算速度快。缺点是光照、姿态、表情等变化敏感,识别准确率较低。深度学习算法的优点是能够自动学习人脸特征表示,对复杂背景和多变姿态具有较强的适应性,识别准确率高。缺点是需要大规模数据集进行训练,计算资源消耗较大。
2025-03-06 17:12:42
869
原创 Web网页制作:宠物店(制作三个网页进行联动跳转)
还添加了超链接的联动,具体的随便网上的一个地址+地图。这里输入信息格式错误会报错。自己可以多加几类商品。
2025-03-05 20:19:27
333
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人