最近有一个问题就是想从多个角度尽可能的提取能够完整准确地表达一个页面的特征从而构成页面的签名元素,以此来计算相似度,这个问题不同于以往的异常检测或者恶意页面检测那样,可有针对性地提取页面的特征用于检测,这样的话就是大而全的问题了,如何来细化呢?比如我从文本入手,需要提取页面清洗后的正文内容之后计算相似度但是如何进行页面内容的声音呢?在大规模的数据背景下怎么解决?
关注
码龄 粉丝数 原力等级 --
- 被采纳
- 被点赞
- 采纳率

大规模网页相似度计算
收起
- 写回答
- 好问题 0 提建议
- 关注问题
微信扫一扫
点击复制链接分享
- 邀请回答
- 编辑 收藏 删除 结题
- 收藏 举报
0条回答 默认 最新
报告相同问题?
提交
- 2022-11-13 10:39在实际工程中,Shingling和Minhashing的结合使用可以有效处理大规模数据的相似度计算,提供快速且准确的结果。由于它们的计算效率和存储效率,这些方法在互联网领域的推荐系统、内容去重、社交网络分析等多个场景下...
- 2021-02-07 02:26比如大规模数据处理效率问题、模型训练时的过拟合风险等。 3. **伦理考量**:在收集和分析用户行为数据时,如何平衡数据利用与用户隐私保护之间的关系?如何确保算法决策的透明性和公正性? 通过以上内容可以看出,...
- 2024-10-02 19:02在实现语义相似度计算时,研究者们通常会先构建一个大规模的语料库,其中包含了大量的句子、短语或单词。然后,他们使用人工神经网络模型对这些语言单元进行编码,将其转换为高维空间中的向量表示。在高维空间中,...
- 2008-05-05 21:40### 大规模网页快速去重算法详解 #### 引言 在互联网的迅猛发展中,海量信息的积累成为了信息检索领域的一大挑战。据2001年4月的统计数据,网络中已存在超过28,669,939个网站,且数量持续快速增长。这些网站承载了...
- 2024-03-15 12:33知识图谱是一种结构化的知识表达形式,它以...总之,知识图谱是一个大规模、多领域、多源异构知识集成的载体,是实现智能化信息系统的基础工具和关键基础设施,对于提升信息检索质量、推动智能应用研发具有重要作用。
- 2024-07-07 01:01AI天才研究院的博客 Transformer大模型实战 计算句子的相似度 作者:禅与计算机程序设计艺术 / Zen and the Art of Computer Programming 关键词:Transformer模型, 句子相似度, 自注意力机制, 余弦相似度, 模型评估 1.
- 2025-05-26 21:49微刻时光的博客 本文深入探讨了 Python 中...此外,还介绍了 Python 中的 difflib 和 fuzzywuzzy 等实用库,简化了相似度计算过程。最后,通过实际应用案例展示了字符串相似度计算在文本校对、搜索引擎优化和信息检索中的重要作用。
- 2025-08-06 11:38Takoony的博客 维度压缩:将高维集合压缩为固定长度签名计算加速:从O(n)集合运算降至O(k)签名比对规模化能力:配合LSH从O(N²)降至O(N)的搜索复杂度这使得原本不可能的大规模相似度计算变为现实。在大数据时代,MinHash已成为去重...
- 2021-08-10 00:3211. 分类体系和语料库统计的局限性:指出传统的基于分类体系的语义相似度计算方法主观性强,而依赖大规模语料库的方法存在数据稀疏问题。 12. 语义相似度计算的研究现状:评述了近年来国内外关于语义相似度计算的...
- 2020-12-28 17:32Singmi2015的博客 1、simhash分桶策略,只适合基本完全相同的文本查重,比如网页查重。64位simhash如果有3位以内的海明距离,则认为文本一致;存储使用hbase等列式存储,分4个桶,64位simhash分4个桶存储,必有一个key一致。这样性能...
- 没有解决我的问题, 去提问