单选题 jieba分词中,如何添加自定义词汇?
A、jieba.set_dictionary('dict.txt')
B、jieba.load_userdict('dict.txt')
C、jieba.add_word('新词')
D、以上都是
单选题 网络爬虫的基本流程不包括以下哪个步骤?
A、解析HTML内容
B、模型训练
C、发送HTTP请求
D、数据存储
单选题 数据形式按其结构可以分为三类,以下哪一个不属于?
A、结构化数据
B、半结构化数据
C、非全结构化数据
D、非结构化数据
单选题 在Gensim中,用于主题模型的核心类是?
A、TfidfModel
B、LdaModel
C、Doc2Vec
D、Word2Vec
单选题 在处理缺失值时, Pandas中用于填充缺失值的方法是?
A、dropna()
B、fillna()
C、notna()
D、isnull()
单选题 若要抽取Word文档内容,应使用以下哪个库?
A、pywin32
B、docx
C、BeautifulSoup
D、pdfplumber
单选题 计算TF-IDF值时, IDF(逆文档频率)的作用是?
A、以上都不对
B、衡量词在单个文档中的重要性
C、降低常见词的权重,提高稀有词的权重
D、计算词在语料库中的出现频率