
数据集预处理
一、使用 GroupLens_MovieLens 数据集,该数据集囊括了 10 几年的电影评分数据
1. 概述
该数据集包含 2000 年起,6040 个用户对大概 3900 部电影的 1000209 条
评分数据。该数据集项目 1992 年开始就被使用在研究协同过滤和改进的协同
过滤上。
二、 该数据集包含三个文件:movies.dat rangs.dat user.dat
1. Movies.dat :
a. 包含数据:MovieID,Title,Genres
b. Genres :流派
1* Acon :动作
2* Adventure :冒险
3* Animaon :动画
4* Children's :儿童
5* Comedy :喜剧
6* Crime :犯罪
7* Documentary :纪录片
8* Drama :戏剧
9* Fantasy :奇幻
10* Film-Noir :黑色电影
11* Horror :惊悚
12* Musical :音乐片
13* Mystery :神秘片
14* Romance :浪漫片
15* Sci-Fi :科幻片
16* Thriller :惊险片
17* War :战争片
18* Western :西部片
c. 其中有些数据丢失,电影 id 没有对应上。该数据集是手工录入的,所以
有些条目会有些错误
d. 原始数据形式