
数据分析
文章平均质量分 93
探模之翼
技术探索,分享实践与思考!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
详解 doclayout_yolo:Python 文档布局检测
doclayout_yolo 是一个基于 YOLOv10 架构的文档布局检测工具包,旨在快速、高效地识别文档中的不同元素(如文本、图像、表格、标题等)。它结合了 DocSynth-300K 数据集的预训练模型和全局到局部的感知机制,适用于论文、教科书、试卷、幻灯片等多种文档类型的布局分析。原创 2025-08-18 19:31:50 · 559 阅读 · 0 评论 -
PyMuPDF 详解:Python 高效处理 PDF 文档
PyMuPDF(又称 `fitz`)是一个功能强大的 Python 库,用于处理 PDF、XPS、EPUB、MOBI 等文档格式。它基于 MuPDF(轻量级 PDF 渲染引擎),提供高效的文本提取、渲染、编辑和文档分析功能。原创 2025-08-14 17:55:59 · 501 阅读 · 0 评论 -
一文吃透 pdf2image:Python 处理 PDF 转图片的完整指南
pdf2image 是一个用于将 PDF 文件转换为图像的 Python 库,它基于强大的 poppler-utils 工具集,提供简单高效的 PDF 到图像的转换功能。原创 2025-08-12 17:55:02 · 595 阅读 · 0 评论 -
数据存储与解析:深度剖析 Parquet 文件处理全流程
Parquet文件数据处理与解析原创 2025-08-11 17:51:19 · 980 阅读 · 0 评论 -
Python3词频统计和排序
1.方法一:# -*- coding: utf-8 -*-from collections import defaultdictimport operator#词集列表dataset = [ ['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], ['maybe', 'not', 'take',...原创 2018-10-11 21:03:15 · 6353 阅读 · 0 评论 -
不平衡数据集处理方法
目录1、不平衡(均衡)数据集(1)不平衡数据集定义(2)不平衡数据集举例(3)不平衡数据集实例(4)不平衡数据集导致的问题(5)不平衡数据集的主要处理方法2、不平衡(均衡)数据集常用的处理方法(1)扩充数据集(2)对数据集进行重采样(3)人造数据(4)改变分类算法3、将数据集划分为训练数据集和测试数据集4、使用K折交叉验证评估模型性能(1)K...原创 2018-11-04 12:59:50 · 52440 阅读 · 16 评论 -
Python3解析XML文件并存入Excel表中
目录1. XML文件部分数据2. Python3解析XML并将数据写入Excel表中1. XML文件部分数据<?xml version='1.0' encoding='UTF-8'?><nvd xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="http://nvd.nist.gov/fee...原创 2018-10-13 11:30:13 · 7955 阅读 · 3 评论 -
Pandas删除某列包含特殊字符的行
目录1、测试文件(test_data.xlsx)数据2、删除type列中包含"未知"的所有行1、测试文件(test_data.xlsx)数据2、删除type列中包含"未知"的所有行# -*- coding: utf-8 -*-import pandas as pdread_data=pd.read_excel('test_data.xlsx') #读取exc...原创 2018-08-30 21:06:06 · 38326 阅读 · 9 评论 -
sklearn实现one-hot编码处理符号型数据
目录1、data.csv数据2.使用one-hot编码进行转化1、data.csv数据2.使用one-hot编码进行转化from sklearn.feature_extraction import DictVectorizerfrom sklearn import preprocessingimport csv"""函数说明:将符号特征转换为one-hot向...原创 2018-07-25 20:30:38 · 5293 阅读 · 2 评论 -
Matplotlib设置中文标签
目录1、使用字体管理器 font_manager2、代码中动态设置中文字体1、使用字体管理器 font_manager#-*- coding:utf-8 -*-import matplotlib.pyplot as pltfrom matplotlib.font_manager import FontProperties #字体管理器#设置汉字格式font = Font...原创 2018-07-13 10:49:44 · 35569 阅读 · 2 评论 -
NumPy—random随机数生成函数总结
目录import numpy as np1、np.linspace(start,end,num)2、np.random.normal(loc, scale, size)3、np.random.uniform(low, high, size)4、np.random5、numpy.random.RandomState()import numpy as np1、np.li...原创 2018-04-24 11:45:05 · 17579 阅读 · 0 评论 -
Python3数据分析——NumPy快速入门教程(官网教程翻译)
目录一、基础篇1、创建数组2、打印数组3、基本运算4、通用函数(ufunc)5、索引,切片和迭代二、形状操作1、更改数组的形状2、组合(stack)不同的数组3、将一个数组分割(split)成几个小数组三、复制和视图1、完全不拷贝2、视图(view)和浅复制3、深复制四、函数和方法(method)总览五、进阶1、广播法则(rule...原创 2018-04-12 20:12:53 · 2010 阅读 · 2 评论 -
Python3数据分析——Pandas快速入门基础
目录一、Pandas基础二、Series数据结构(一维数据)三、DataFrame数据结构(二维数据)四、Panel数据结构(三维数据)一、Pandas基础Pandas的名称来自于面板数据(panel data)和Python数据分析(data analysis)。Pandas是一个强大的分析结构化数据的工具集,基于NumPy构建,提供了高级数据结构和数据操作工具,它是...原创 2018-04-14 22:14:09 · 4472 阅读 · 0 评论