本文共 2267 字,大约阅读时间需要 7 分钟。
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizerimport jiebadef cutWord(): '''首先得对中文进行分词''' text1 = '一个人活着,何任何时,是不能无所事事,更不可枸人忧天,怨声载道,必须要有他该做的事情,唯有那样他的心里才会有所寄托,他才会真正的获得快乐。 不要抱怨工作的奔波劳累,其实有的时候,不是工作本身有多么辛苦,而是我们自己的身心感觉的,也许可能真的是累了。' text2 = '做人,无需去羡慕别人,也无需去花时间去羡慕别人是如何成功的,想的只要是自己如何能战胜自己,如何变得比昨天的自己强大就行。自己的磨练和坚持,加上自己的智慧和勤劳,会成功的。终将变成石佛那样受到成长的尊敬。 1 星期梦想价值朋友目标聊天,朋友说生命痛苦努力' text3 = '梯子的梯阶从来不是用来搁脚的,它只是让人们的脚放上一段时间,以便让别一只脚能够再往上登。 山路曲折盘旋,但毕竟朝着顶峰延伸。 只有登上山顶,才能看到那边的风光。 即使道路坎坷不平,车轮也要前进;即使江河波涛汹涌,船只也航行。 只有创造,才是真正的享受,' con1 = list(jieba.cut(text1)) con2 = list(jieba.cut(text2)) con3 = list(jieba.cut(text3)) con1 = ' '.join(con1) con2 = ' '.join(con2) con3 = ' '.join(con3) return con1, con2, con3def countVec(arr): '''对文本进行特征值化 :return:None ''' cv = CountVectorizer() data = cv.fit_transform(arr) print(cv.get_feature_names()) print(data.toarray()) return Nonedef tfidfVec(): ‘’‘TF_IDF方法’‘’ con1, con2, con3 = cutWord() # print(con1) # print(con2) # print(con3) tf = TfidfVectorizer() data = tf.fit_transform([con1, con2, con3]) print(tf.get_feature_names()) print(data.toarray())
from sklearn.feature_extraction import DictVectorizerdef dictVec(X): '''字典特征抽取 :return:None ''' # 实例化DictVectorizer dVec = DictVectorizer(sparse=False) # 调用fit_transfrom data = dVec.fit_transform(X) print('spare矩阵:\n', data) # 把字典中的一些类别数据分别转换为特征 print(dVec.get_feature_names()) print(dVec.inverse_transform(data)) return Noneif __name__=='__main__': x = [ {'City':'上海','temperature':100}, {'City':'北京','temperature':30}, {'City':'深圳', 'temperature':60} ] dictVec(x)```
转载地址:http://azhgn.baihongyu.com/