100M csv百万数据记录如何最小带宽高效急速关键词搜索方案过程-BFW博客

100M csv百万数据记录如何最小带宽高效急速关键词搜索方案过程

前端html网页直接加载 100MB 的 CSV 会导致浏览器卡顿甚至崩溃。但是可以“切割成小块”。及腰节省服务器带宽，又要快速搜索，我们想出一个这个办法。

为了实现极低带宽（只下载需要的数据）和极低内存，我们需要采用 Hash Sharding（哈希分片） 策略。

我们以这个100万条域名排名记录csv为例，下载地址：https://tranco-list.eu/download/daily/top-1m.csv.zip

一行一条记录，第一个是排名，第二个是域名，用，分开

怎么根据域名来查排名呢，这个百万记录的csv记录很大。

核心方案设计

数据预处理（Python）：

将 前10条 单独存为一个极小的 JSON (top10.json)，用于秒开展示。

将 剩余 100MB 数据 根据域名的哈希值切分成 N 个小 JSON 文件（例如 256 个分片）。

原理：google.com 经过哈希计算永远落在 shard_X.json 中。

前端展示（HTML/JS）：

页面加载时，只请求 top10.json (几KB)。

搜索时，在前端计算输入域名的哈希值，算出它属于哪个分片，然后只下载那个几KB的分片文件进行查找。

点击查看全文

打赏博主×

100M csv百万数据记录如何最小带宽高效急速关键词搜索方案过程

网友评论0

nodejs+webrtc实现浏览器端p2p音视频通话完整可用代码

DDoS攻击原理及抵御应对方法

python免费为小孩写一个少儿动画片自动搜索多集按循序投屏电视播放的工具

win10下用python+openai打造一个ai语音交互助手

rtmp、rtsp、hls流媒体直播服务器搭建的六种方案

babel.js浏览器端实时将es6代码转成es5代码的插件

flux逼真人物、logo、三维提示词合集

人工智能、机器学习和深度学习的差异

php openssl_public_encrypt公钥加密出现无效公钥问题

一招教你如何复制禁止复制的页面文字

{{item.title}}

deepfacelive实时换脸直播视频通话教程

浅谈AI克隆人的几个开源项目

这个世界是真实的吗？

分享6款文字语音生成驱动虚拟数字人说话的开源项目

deepfakelab进行换脸入门教程

GitHub上的17款开源项目推荐

AI人工智能实时克隆别人声音将你的声音变成任意一个人的声音

教你用ChilloutMix让ai人工智能创作真假难辨的美女照片

教你实现在国内正常访问chatgpt接口

声音驱动照片或视频人物说话嘴唇同步开源库Wav2Lip教程

ai自我进化无需干预的智能体有吗？

ai世界大模型最终进化成与真实世界媲美的平行宇宙吗？

眼球转动能否控制操作手机？

什么是DAU?

php如何检查一段html代码运行是否会有js语法错误？

如何破解绕开seedance2.0真人照片生成视频限制？

python有哪些算法可以将视频中的每个帧图片去除指定区域水印合成新的视频？

iphone的激光雷达数据能否实时传输到three三维空间中？

豆包sora等ai视频生成大模型生成的视频水印如何去除？

python如何实现在电脑上拨号打电话给手机？