苹果与橘子图像数据集
苹果与橘子图像数据集. 一共包括1261张各种苹果的图像和1267张各种橘子的图像。可以用于橘子和苹果纹理转换等的深度学习训练。
人脸图像集
人脸图像集. 一共9573张各种人脸图像
垃圾邮件数据集
垃圾邮件数据集。包括16556个正常邮件内和27360个垃圾邮件内容。
糖尿病数据集
糖尿病数据集。数据包括768个样本。可用于机器学习研究。
1、该数据集最初来自美国糖尿病/消化/肾脏疾病研究所。数据集的目标是基于数据集中包含的某些诊断测量来诊断性的预测 患者是否患有糖尿病。
2、从较大的数据库中选择这些实例有几个约束条件。尤其是,这里的所有患者都是Pima印第安至少21岁的女性。
3、数据集由多个医学预测变量和一个目标变量组成Outcome。预测变量包括患者的怀孕次数、BMI、胰岛素水平、年龄等。
4、数据集的内容是皮马人的医疗记录,以及过去5年内是否有糖尿病。所有的数据都是数字,问题是(是否有糖尿病是1或0),是二分类问题。数据有8个属性,1个类别
搜狗用户画像数据集
搜狗用户画像数据集。20w(20万)。
简介:在现代广告投放系统中,多层级成体系的用户画像构建算法是实现精准广告投放的基础技术之一。其中,基于人口属性的广告定向技术是普遍适用于品牌展示广告和精准竞价广告的关键性技术。人口属性包括自然人的性别、年龄、学历等基本属性。在搜索竞价广告系统中,用户通过在搜索引擎输入具体的查询词来获取相关信息。因此,用户的历史查询词与用户的基本属性及潜在需求有密切的关系。
举例如下:
1、 年龄在19岁至23岁区间的自然人会有较多的搜索行为与大学生活、社交等主题有关
2、 男性相比女性会在军事、汽车等主题有更多的搜索行为
3、 高学历人群会更加倾向于获取社会、经济等主题的信息
用户画像是对用户的描述,一般用来精准营销。搜狗用户画像,通过搜狗搜索数据来描述用户,进行数据挖掘,使用在大数据精准营销中。
提供用户历史一个月的查询词与用户的人口属性标签(包括性别、年龄、学历)做为训练数据,通过机器学习、数据挖掘技术构建分类算法来对新增用户的人口属性进行判定。
属性字段说明:提供用户历史一个月的查询词与用户的人口属性标签(包括性别、年龄、学历等信息)
危险驾驶行为图像数据集-开车电话-喝水等
危险驾驶行为图像数据集-开车电话-喝水等。
车内监控危险驾驶行为图像数据,包括电话、喝水等危险行为,还有txt和json格式的目标位置坐标数据,包括常见的一共2000张图像,包括1000张RGB彩色图像,1000张红外图像。可应用于驾驶员监控。
电影评分数据集-用于电影推荐系统
电影评分数据集-用于电影推荐系统。有两个数据集。
数据集1:包括movies.csv和ratings.csv两个文件。movies.csv文件总共有27,279行,除第1行是表头外,每行用3列表示一部电影,分别为电影id(movieId)、电影名称(title)和电影类型(genres)。ratings.csv文件总共有20,000,264行,除第1行是表头外,每行用4列表示一位用户对一部电影的评分,分别为用户id(userId)、电影id(movieId)、评分(rating)和评分时间(timestamp)。这里的评分时间是用unix时间戳表示的。在这个数据集中并没有提供用户的个人信息,可能是出于保护用户隐私的考虑。
数据集2:ratings.dat是另一个电影评分数据集。包含了6000多位用户对近3900个电影的共100万(1,000,209)条评分数据,评分均为1~5的整数,其中每个电影的评分数据至少有20条。
葡萄酒数据集
葡萄酒数据集。
Wine葡萄酒数据集是来自UCI上面的公开数据集,这些数据是对意大利同一地区种植的葡萄酒进行化学分析的结果,这些葡萄酒来自三个不同的品种。该分析确定了三种葡萄酒中每种葡萄酒中含有的13种成分的数量。从UCI数据库中得到的这个wine数据记录的是在意大利某一地区同一区域上三种不同品种的葡萄酒的化学成分分析。数据里含有178个样本分别属于三个类别,这些类别已经给出。每个样本含有13个特征分量(化学成分),分析确定了13种成分的数量,然后对其余葡萄酒进行分析发现该葡萄酒的分类。
每行代表一种酒的样本,共有178个样本;一共有14列,其中,第一个属性是类标识符,分别是1/2/3来表示,代表葡萄酒的三个分类。后面的13列为每个样本的对应属性的样本值。剩余的13个属性是,酒精、苹果酸、灰、灰分的碱度、镁、总酚、黄酮类化合物、非黄烷类酚类、原花色素、颜色强度、色调、稀释葡萄酒的OD280/OD315、脯氨酸。其中第1类有59个样本,第2类有71个样本,第3类有48个样本
全美婴⼉姓名数据集
全美婴⼉姓名数据集。从1880年-2010年的全美婴儿姓名数据的数据集,包含出生年份,性别,名字等。利用这份数据可以对婴儿名字进行分析。
住房信息数据集
住房信息数据集。
housing.data 包含506个样本,样本包含14个不同的特征:
1.人均犯罪率。
2.占地面积超过 25000 平方英尺的住宅用地所占的比例。
3.非零售商业用地所占的比例(英亩/城镇)。
4.查尔斯河虚拟变量(如果大片土地都临近查尔斯河,则为 1;否则为 0)。
5.一氧化氮浓度(以千万分之一为单位)。
6.每栋住宅的平均房间数。
7.1940 年以前建造的自住房所占比例。
8.到 5 个波士顿就业中心的加权距离。
9.辐射式高速公路的可达性系数。
10.每 10000 美元的全额房产税率。
11.生师比(按城镇统计)。
12.1000 * (Bk - 0.63) ** 2,其中 Bk 是黑人所占的比例(按城镇统计)。
13.较低经济阶层人口所占百分比
14.房价
泰坦尼克号数据集
泰坦尼克号数据集。
Titanic数据集在数据分析领域是十分经典的数据集。泰坦尼克号轮船的沉没是历史上最为人熟知的海难事件之一。1912年4月15日,在她的处女航中,泰坦尼克号在与冰山相撞后沉没,在船上的 2224 名乘客和机组人员中,共造成 1502 人死亡。这场耸人听闻的悲剧震惊了国际社会,从而促进了船舶安全规定的完善。造成海难失事的原因之一是乘客和机组人员没有足够的救生艇。尽管在沉船事件中幸存者有一些运气因素,但有些人比其他人更容易存活下来,究竟有哪些因素影响着最终乘客的生存与否呢?
数据集包含11个特征,分别是:
Pclass:乘客所持票类,有三种值(lower,middle,upper)
Survived:0代表死亡,1代表存活
Name:乘客姓名
Sex:乘客性别
Age:乘客年龄(有缺失)
SibSp:乘客兄弟姐妹/配偶的个数(整数值)
Parch:乘客父母/孩子的个数(整数值)
Ticket:票号(字符串)
Fare:乘客所持票的价格(浮点数,0-500不等)
Cabin:乘客所在船舱(有缺失)
Embark:乘客登船港口:S、C、Q(有缺失)
食品营养信息数据集
食品营养信息数据集。美国农业部(USDA)制作了一份有关食物营养信息的数据,包括食品的描述,标签,厂家,分组,成分和营养等信息。样本有6636条
美国政府网站访问情况数据集
美国政府网站访问情况数据集。美国政府网站http://USA.gov部分用户匿名数据。数据是JSON格式,包括用户所在时区,用户终端信息等。
商铺logo图像集
商铺logo图像集. 样本数量:3725
简介:包括星巴克、屈臣氏、宝岛眼镜等常见的100个不同商家店铺的logo招牌图像数据集,每个商家的logo图像有400个左右。可以用于深度学习图像分类训练的学习。
美国联邦选举委员会-政治竞选赞助方面的数据集
美国联邦选举委员会-政治竞选赞助方面的数据集。
美国联邦选举委员会发布了有关政治竞选赞助方面的数据。其中包括赞助者的姓名、职业、雇主、地址以及出资额等信息。样本数据量100w条左右。可用于机器学习和数据分析
海地地震危机数据集
海地地震危机数据集。海地地震危机与求助数据,可以根据数据标记地图求助信息。
乳腺癌数据集.zip
乳腺癌数据集。数据集来自UCI机器学习存储库的wdbc.data(威斯康星乳腺癌数据集),其中包含了569个正常和异常的细胞样本,特征共30个。在整个569个患者中,一共有357个是良性,212个是恶性。
开车打手机图像数据集.zip
开车打手机图像数据集。样本数量:1051
简介:包含车内开车打手机的图像和对应手机位置的标记文件,标记文件为xml格式。可以用于打手机目标检测的训练数据集。
电商网站销售数据
电商网站销售数据。样本数量:541909
简介:数据集来自一个在英国注册的在线电子零售公司,在2010年12月1日到2011年12月9日期间发生的网络交易数据,共有541909条记录、8个字段。
阿里真实用户-商品行为数据-推荐系统
阿里真实用户-商品行为数据-推荐系统应用。
样本数量:tianchi_mobile_recommend_train_item 商品信息 50w左右
tianchi_mobile_recommend_train_user 用户商品交互信息 500w左右
tianchi_mobile_recommend_train_user_down2 用户商品交换信息2 500w左右
简介:以阿里巴巴移动电商平台的真实用户-商品行为数据为基础,同时提供移动时代特有的位置信息。通过大数据和算法构建面向移动电子商务的商品推荐模型,挖掘数据背后丰富的内涵,为移动用户在合适的时间、合适的地点精准推荐合适的内容。提供的数据包含两个部分。第一部分是用户在商品全集上的移动端行为数据,表名为tianchi_mobile_recommend_train_user和tianchi_mobile_recommend_train_user_down2。 第二个部分是商品子集,表名为tianchi_mobile_recommend_train_item。
可应用于推荐系统的训练与测试。
PaddleOCR文字识别的完整代码
展示了如何使用PaddleOCR库来进行图像文字识别。通过安装PaddleOCR、加载模型、进行OCR识别,并绘制结果,我们可以轻松地实现图像中的文字识别任务。如果需要在更复杂的任务中应用,PaddleOCR提供了丰富的API接口,可对识别结果进行后处理和自定义调整。
论文:DeepSeek-V3 Technical Report
**DeepSeek-V3 技术报告**
**摘要**
DeepSeek-V3 是 DeepSeek 团队推出的最新一代人工智能模型,旨在通过技术创新和性能优化,进一步提升模型在多任务、多领域场景下的表现。本技术报告详细介绍了 DeepSeek-V3 的架构设计、训练方法、性能评估以及应用场景,展示了其在自然语言处理、代码智能、多模态理解等方面的突破性进展。
**核心内容**
1. **架构设计**
- **模块化设计**:DeepSeek-V3 采用模块化架构,支持灵活的任务定制和扩展。
- **混合专家系统(MoE)**:引入混合专家机制,通过动态路由实现任务的高效分配与处理。
- **多模态融合**:支持文本、图像、代码等多种数据类型的联合建模与理解。
2. **训练方法**
- **大规模预训练**:基于海量高质量数据,采用自监督学习方法进行预训练,提升模型的泛化能力。
- **多任务学习**:通过多任务联合训练,增强模型在跨领域任务中的适应性和表现。
- **高效微调**:提供轻量级微调工
论文:DeepSeek-Coder: When the Large Language Model Meets Programming - The Rise of Code Intelligence
**DeepSeek-Coder:当大语言模型遇见编程——代码智能的崛起**
**摘要**
DeepSeek-Coder 是一项探索大语言模型(LLM)与编程领域深度融合的研究计划,旨在推动代码智能技术的快速发展。通过结合大语言模型的强大能力与编程领域的专业知识,DeepSeek-Coder 致力于实现代码生成、理解、优化和调试的智能化,为开发者提供高效、精准的工具支持。
该计划的核心研究方向包括:
1. **代码生成与补全**:利用大语言模型生成高质量代码,并提供智能化的代码补全建议,提升开发效率。
2. **代码理解与文档化**:通过自然语言处理技术,自动解析代码逻辑并生成相应的文档,降低代码维护成本。
3. **代码优化与重构**:识别代码中的性能瓶颈和潜在问题,提供优化建议和自动化重构方案。
4. **智能调试与错误修复**:结合程序分析与机器学习技术,快速定位代码错误并生成修复方案。
5. **开源与开发者生态**:构建开放的代码智能平台,促进开发者社区的协作与创新。
DeepSeek-Coder 的目标是通过大语言模型与编程技术的结
论文细节:DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models
**DeepSeekMoE:迈向混合专家语言模型的终极专家专业化**
**摘要**
DeepSeekMoE 是一项专注于提升混合专家(Mixture-of-Experts, MoE)语言模型性能的研究计划,旨在通过极致的专家专业化优化模型的表现。混合专家模型通过将任务分配给多个专业化子网络(即“专家”)来提高效率和性能,而 DeepSeekMoE 进一步推动了这一范式,致力于实现每个专家的高度专业化。
该研究重点包括:
1. **专家专业化**:通过精细化的训练和架构设计,使每个专家在特定领域或任务上达到最优性能。
2. **动态路由优化**:改进模型中的路由机制,确保输入数据能够高效分配给最合适的专家。
3. **可扩展性与效率**:在保持高性能的同时,降低计算资源消耗,使模型更适用于实际应用场景。
4. **开源与协作**:推动开源社区的共同发展,促进技术共享和创新。
DeepSeekMoE 的目标是为混合专家模型设立新的技术标准,推动语言模型在专业化、效率和性能方面的突破,同时为人工智能的长期发展提供可持续的技术支持。
论文细节:DeepSeek LLM Scaling Open-Source Language Models with Longtermism
DeepSeek LLM:以长期主义扩展开源语言模型
摘要
DeepSeek LLM 是一项致力于推动开源语言模型发展的计划,其核心目标是通过可扩展性和长期可持续性来构建更强大的语言模型。该项目强调开发具有鲁棒性、可扩展性且符合伦理规范的语言模型,并推动其被全球社区广泛采用和持续改进。通过融入长期主义理念,DeepSeek LLM 旨在确保这些模型的开发不仅满足当前需求,还能为未来社会带来长期价值。项目重点关注开源协作、技术普惠以及对社会和环境的积极影响,致力于推动人工智能技术的可持续发展。
chatGPT从入门到精通
chatGPT从入门到精通,一共116页,是chatgpt入门的优秀文档。
用于安全带检测的车内驾驶安全带图像
一共包括1080张车内带有安全带的人员驾驶图像,同时包括对应的1080个安全带目标检测的位置标记文件。可以用于驾驶员监控的安全带的目标检测训练。
深度学习-人脸卡通化-实现代码
python环境,包括推理和训练代码。包括pytorch模型和onnx模型。有预训练模型,可以直接对人脸图像进行卡通化,有训练代码,可以自己根据需要,使用自己的数据集,重新训练自己的模型。
车内驾驶员行为图像集包括打手机-喝水-转身等情景
车内驾驶员行为图像集包括打手机-喝水-转身等情景,样本数量:2w左右
深度学习-猫和狗图像集
一共30000(3w)张左右图像,包括各种猫和狗的图像,可以用于深度学习的分类训练。
深度学习-目标检测-人头数据集001
深度学习-目标检测-人头数据集,一共有7581张包括各种人头场景的图像,每张图像有对应的人头位置的标记文件。用于深度学习人头目标检测训练。注意由于系统对文件大小限制,需要分成2个文件,仅仅”深度学习-目标检测-人头数据集001“文件需要积分,其他不需要。
该文件下载后,请继续下载另外一个,在同一个目录下进行解压即可。另外一个与该文件同在一个下载资源中,文件名“深度学习-目标检测-人头数据集002“
深度学习-目标检测-人头数据集002
深度学习-目标检测-人头数据集,一共有7581张包括各种人头场景的图像,每张图像有对应的人头位置的标记文件。用于深度学习人头目标检测训练。注意由于系统对文件大小限制,需要分成2个文件,仅仅”深度学习-目标检测-人头数据集001“文件需要积分,其他不需要。
该文件下载后,请继续下载另外一个,在同一个目录下进行解压即可。另外一个与该文件同在一个下载资源中,文件名“深度学习-目标检测-人头数据集001“
深度学习-目标检测-密集人头检测数据集001
深度学习-目标检测-密集人头检测数据集,brainwash数据集是一个密集人头检测数据集,拍摄在人群出现的各种区域,然后对这群人进行标注而得到的数据集。包含三个部分,训练集:10769张图像81975个人头,验证集:500张图像3318个人头。测试集:500张图像5007个人头。可以用于密集人头目标检测的训练。注意由于系统对文件大小限制,需要分成2个文件,仅仅”深度学习-目标检测-密集人头检测数据集001“文件需要积分,其他不需要。该文件下载后,请继续下载另外一个,在同一个目录下进行解压即可。另外一个与该文件同在一个下载资源中,文件名“深度学习-目标检测-密集人头检测数据集002“
深度学习-目标检测-密集人头检测数据集002
深度学习-目标检测-密集人头检测数据集
注意由于系统对文件大小限制,需要分成2个文件,仅仅”深度学习-目标检测-密集人头检测数据集001“文件需要积分,其他不需要。该文件下载后,请继续下载另外一个,在同一个目录下进行解压即可。另外一个与该文件同在一个下载资源中,文件名“深度学习-目标检测-密集人头检测数据集001“
brainwash数据集是一个密集人头检测数据集,拍摄在人群出现的各种区域,然后对这群人进行标注而得到的数据集。包含三个部分,训练集:10769张图像81975个人头,验证集:500张图像3318个人头。测试集:500张图像5007个人头。可以用于密集人头目标检测的训练。
深度学习-表情识别-人脸表情数据集001
深度学习-表情识别-人脸表情数据集。注意由于文件大小限制,需要分成2个文件,仅仅”深度学习-表情识别-人脸表情数据集001“文件需要积分,其他不需要。该文件下载后,请继续下载另外一个,在同一个目录下进行解压即可。另外一个与该文件同在一个下载资源中,文件名“深度学习-表情识别-人脸表情数据集002“
深度学习-表情识别-人脸表情数据集002
深度学习-表情识别-人脸表情数据集。注意由于文件大小限制,需要分成2个文件,仅仅”深度学习-表情识别-人脸表情数据集001“文件需要积分,其他不需要。该文件下载后,请继续下载另外一个,在同一个目录下进行解压即可。另外一个与该文件同在一个下载资源中,文件名“深度学习-表情识别-人脸表情数据集001“
各种室内场景图像集001
各种室内场景图像集001。注意由于文件大小限制,需要分成3个文件,仅仅该文件需要积分,其他两个并不需要。该文件下载后,请继续下载另外两个在同一个目录下进行解压即可。另外两个与该文件同在一个下载资源中,文件名“各种室内场景图像集002“和 “各种室内场景图像集003“. 数据集包含67个室内类别,总共15620个图像。图像数量因类别而异,但每个类别至少有100张图像。
各种室内场景图像集002
各种室内场景图像集002。注意由于文件大小限制,需要分成3个文件,仅仅”各种室内场景图像集001“文件需要积分,其他两个并不需要。该文件下载后,请继续下载另外两个,在同一个目录下进行解压即可。另外两个与该文件同在一个下载资源中,文件名“各种室内场景图像集001“和 “各种室内场景图像集003“. 数据集包含67个室内类别,总共15620个图像。图像数量因类别而异,但每个类别至少有100张图像。
各种室内场景图像集003
各种室内场景图像集003。注意由于文件大小限制,需要分成3个文件,仅仅”各种室内场景图像集001“文件需要积分,其他两个并不需要。该文件下载后,请继续下载另外两个,在同一个目录下进行解压即可。另外两个与该文件同在一个下载资源中,文件名“各种室内场景图像集001“和 “各种室内场景图像集002“. 数据集包含67个室内类别,总共15620个图像。图像数量因类别而异,但每个类别至少有100张图像。