Hugging Face开源快速语义文本去重工具SemHash
SemHash 是 Hugging Face 最新开源的语义文本去重工具,旨在帮助用户快速清理数据集中的重复文本,避免因重复样本导致的训练偏差、泛化能力下降以及训练-测试数据泄露等问题。它结合了高效的文本嵌入技术和近似最近邻(ANN)搜索,能够在短时间内处理大规模数据集。
主要特点
1. 快速且硬件友好使用 Model2Vec 生成文本嵌入,并结合 Vicinity 的 ANN 技术进行相似性搜索。仅依赖 CPU,无需 GPU,即可在几分钟内处理包含数百万条记录的数据集。
2. 灵活且可扩展支持单数据集去重和多数据集去重(例如训练集与测试集的去重)。可处理多列数据集(如问答数据集中的问题和上下文)。适用于多种数据格式,包括简单的文本列表和复杂的多列数据。
3. 轻量级与易用性依赖最小化(最大的依赖是 NumPy),安装和使用都非常简单。提供了详细的文档和示例代码,便于快速上手。
4. 可解释性提供了丰富的去重结果检查功能,用户可以通过 DeduplicationResult 对象查看重复项及其原因。支持调整去重阈值,以适应不同的数据集和需求。
使用方法
安装
pip install semhash
1. 单数据集去重
from datasets import load_dataset from semhash import SemHash # 加载数据集 texts = load_dataset...
点击查看剩余70%
网友评论