博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
机器学习day1
阅读量:3933 次
发布时间:2019-05-23

本文共 2267 字,大约阅读时间需要 7 分钟。

什么是机器学习?

- 机器学习就是从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测

为什么要机器学习?

  • 解放生产力(客服,流水线…)
  • 解决专业问题(建模,工程…)
  • 提供社会便利(城市大脑,垃圾分类…)

机器学习在各领域带来的价值

  • 领域:航天、医疗、电商、教育…
  • 目的:让机器学习替换手动的步骤,减少企业的成本也提高企业的效率
  • 例子:
    • iOS13系统中为了更好的保护电池,让电池寿命更持久,它就有一个机器学习的算法,通过学习用户的充电习惯,达到这个目的。
    • 还有淘宝的猜你喜欢系统,等等

特征工程

  • 数据集的结构
    • 特征值+目标值(有些数据集可以没有目标值)
  • 特征工程是什么
    • 将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对未知数据的预测准确性
  • 数据的特征抽取方式
    • 文本特征抽取
      • CountVectorizer 单个英文字母或汉字没有分类依据在这里插入图片描述
      • TF-idf: TF(term frquency:词的频率) ,IDF(inverse document frequency:逆文档频率)
        • 重要性程度(log=总文档数量/该词出现的文档数量)log越小,结果越小在这里插入图片描述在这里插入图片描述
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizerimport jiebadef cutWord():    '''首先得对中文进行分词'''    text1 = '一个人活着,何任何时,是不能无所事事,更不可枸人忧天,怨声载道,必须要有他该做的事情,唯有那样他的心里才会有所寄托,他才会真正的获得快乐。 不要抱怨工作的奔波劳累,其实有的时候,不是工作本身有多么辛苦,而是我们自己的身心感觉的,也许可能真的是累了。'    text2 = '做人,无需去羡慕别人,也无需去花时间去羡慕别人是如何成功的,想的只要是自己如何能战胜自己,如何变得比昨天的自己强大就行。自己的磨练和坚持,加上自己的智慧和勤劳,会成功的。终将变成石佛那样受到成长的尊敬。 1 星期梦想价值朋友目标聊天,朋友说生命痛苦努力'    text3 = '梯子的梯阶从来不是用来搁脚的,它只是让人们的脚放上一段时间,以便让别一只脚能够再往上登。 山路曲折盘旋,但毕竟朝着顶峰延伸。 只有登上山顶,才能看到那边的风光。 即使道路坎坷不平,车轮也要前进;即使江河波涛汹涌,船只也航行。 只有创造,才是真正的享受,'    con1 = list(jieba.cut(text1))    con2 = list(jieba.cut(text2))    con3 = list(jieba.cut(text3))    con1 = ' '.join(con1)    con2 = ' '.join(con2)    con3 = ' '.join(con3)    return con1, con2, con3def countVec(arr):    '''对文本进行特征值化    :return:None    '''    cv = CountVectorizer()    data = cv.fit_transform(arr)    print(cv.get_feature_names())    print(data.toarray())    return Nonedef tfidfVec():	‘’‘TF_IDF方法’‘’    con1, con2, con3 = cutWord()    # print(con1)    # print(con2)    # print(con3)    tf = TfidfVectorizer()    data = tf.fit_transform([con1, con2, con3])    print(tf.get_feature_names())    print(data.toarray())
  • 字典特征抽取
    • 作用:对字典数据进行特征值化
    • 类:sklearn.feature_extraction.DictVectorizer
      在这里插入图片描述
from sklearn.feature_extraction import DictVectorizerdef dictVec(X):    '''字典特征抽取    :return:None    '''    # 实例化DictVectorizer    dVec = DictVectorizer(sparse=False)    # 调用fit_transfrom    data = dVec.fit_transform(X)    print('spare矩阵:\n', data)    # 把字典中的一些类别数据分别转换为特征    print(dVec.get_feature_names())    print(dVec.inverse_transform(data))    return Noneif __name__=='__main__':    x = [        {'City':'上海','temperature':100},        {'City':'北京','temperature':30},        {'City':'深圳', 'temperature':60}    ]    dictVec(x)```

转载地址:http://azhgn.baihongyu.com/

你可能感兴趣的文章
架构设计:系统存储(5)——MySQL数据库性能优化(1)
查看>>
架构设计:系统存储(2)——块存储方案(2)
查看>>
架构设计:系统间通信(45)——阶段性问题记录
查看>>
架构设计:系统间通信(44)——自己动手设计ESB(5)
查看>>
架构设计:系统存储(1)——块存储方案(1)
查看>>
架构设计:系统间通信(42)——自己动手设计ESB(3)
查看>>
在工作时走神的闪光
查看>>
Ajax使用注意事项
查看>>
使用FileChannel下载本地文件及扩展
查看>>
linux文件权限与目录配置问题与解答(整理篇)
查看>>
linux文件与目录管理问题与回答(整理篇)
查看>>
java 数组笔记整理
查看>>
java IO/NIO 下载上传的笔记
查看>>
对行为的描述---一般系统论读书笔记
查看>>
贪心算法
查看>>
分支限界法
查看>>
随机化算法
查看>>
项目整体管理(一)
查看>>
项目整体管理(二)
查看>>
推荐阅读书籍
查看>>