从大型语料库生成 n-gram

【问题标题】：Generate n-gram from a large corpus从大型语料库生成 n-gram
【发布时间】：2021-06-29 02:03:28
【问题描述】：

我正在使用*语料库 (17G) 和 python 语言来获得一个 n-gram 模型。我用过sklearn.feature_extraction.text.CountVectorizer，但它没有任何进度条或详细选项。有推荐的方法吗？

【问题讨论】：

您是否寻求建议如何使用另一个库创建sklearn的CountVectorizer的输出（因为它需要太长时间），或者显示sklearn的CountVectorizer的进度？
你应该展示你的代码并更好地解释你的目标是什么。（只是不耐烦不确定CountVectorizer 在做什么，还是别的什么？）
我想确保CountVectorizer 不会花费一周时间来完成语料库。

标签： scikit-learn nlp nltk gensim n-gram

【解决方案1】：

好的。解决方案很简单。编辑源代码，因为代码很容易理解。将 tqdm 添加到 for 循环中。

【讨论】：

猜你喜欢

从 JSON Schema 自动生成 JavaScript 2025-11-21
如何使用 Gensim 在葡萄牙语中生成词嵌入？ 2025-11-21
生成多个随机数 2025-11-21
动态生成的文本框 2025-11-21
生成签名的 apk 时出现 DexArchiveMergerException 2025-11-21
为什么编译器会生成这段代码？ 1970-01-01
编译器对数组声明大小的评估。什么时候发生？ 2025-11-21
在大型方形网格中测量集群的好方法是什么？ 2025-11-21
使用命名管道绑定为 WCF 服务生成代理类 2025-11-21
动态控制 IFrame 大小 2025-11-21

相关资源

从XML生成可与Ajax共同使用的JSON 中文WORD版下载 2023-09-12
Axure RP8 实战手册网站和APP原型制作案例精粹(小楼一夜听春语) 试读版 13.7M下载 2023-01-08
德彪钢笔行书 Regular字体,德彪钢笔行书字库-3.0字体下载下载 2023-01-23
n下载 2023-10-13

最近更新更多

热门标签

Java Python linux javascript C# Mysql Docker 算法前端 SpringBoot Redis Vue spring .net 设计模式 .net core c++ kubernetes 数据库机器学习大数据数据结构微服务 js 人工智能 Go Android 面试程序员 JVM 云原生后端 ASP.net core 深度学习 CSS k8s git golang PHP devops Nginx Django React mybatis 架构多线程 Spring Boot 云计算 LeetCode 分布式