【文字识别】腾讯云API:提取表格数据并生成Excel文件

一、使用工具及python包介绍

腾讯云API
国内大型互联网公司都提供云服务,如阿里、百度、腾讯等。本文选择腾讯云服务,是因为提供的API说明比较详细,看一遍就能用。更良心的是,提供了在线测试的功能,基本不用写代码也能够测试效果。

用到的Python包
pandas 数据分析必备包,用来对二维表数据进行分析整合。
os 更改系统配置信息,如列出工作目录的文件,更改工作目录等。
json 用来处理json数据,或者把字符串等其他格式的数据转化为json数据。
base64 用来对图片进行base64编码,这是根据API的要求做的。
xlwings 用来与Excel进行交互,几乎可以取代VBA,容易学习。
tencentcloud 腾讯云服务,提供了很多功能,值得探索。
re 正则表达式包,用来处理字符串中的空格等。

二、准备工作

1、注册腾讯云,获取 SecretID 和 SecretKey.
在控制台新建一个API秘钥,获取SecretID和SecretKey.
在这里插入图片描述
2、开通资源包(腾讯云 - 文字识别

后期需要付费。官方付费说明:腾讯云文字识别(免费公测版)服务限时免费。免费期结束后,文字识别(免费公测版)服务会升级为正式版付费服务,于2020年4月1日00:00起开始正式按月计费。

所以趁还没收费,用一下试试…
在这里插入图片描述
3、pip 安装依赖

需要安装的依赖:

pandas==0.24.2
tencentcloud_sdk_python==3.0.142
numpy==1.16.5

如果国内 pip 网络不佳,可以-i使用清华镜像。例如:
pip install XlsxWriter -i https://pypi.tuna.tsinghua.edu.cn/simple

(附:生成当前项目相关依赖的requirements.txt方法)
在这里插入图片描述
4、准备几张较为清晰的截图

这里直接用截的图做测试吧
在这里插入图片描述

三、代码

# -*- coding: utf-8 -*-
# from PIL import Image
# import pytesseract
##导入通用包
import numpy as np
import pandas as pd
import os
import json
import re
import base64
# import xlwings as xw
# 导入腾讯AI api
from tencentcloud.common import credential
from tencentcloud.common.profile.client_profile import ClientProfile
from tencentclou
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值