机器学习——基本概念
Updated:
机器学习(Machine Learning)、数据挖掘(Data Minding)、人工智能(AI)之间的关系
在我学习Machine Learning的时候,我是不太能分清楚这三者之间的关系的。后来看过了这篇文章之后,大约明白过来:人工智能是一个比较大的概念,溯源可至古希腊神话,而现代的人工智能概念最初在19世纪、20世纪的科幻小说中被提出来。在计算机发明之后,计算机科学家门曾有很大的热望实现这一设想,不过这种跨度很大的项目沉沉浮浮,至今也没有完成它最初的目标。
人工智能,顾名思义,就是设计计算机能够模拟人类,完成图灵测试。其涉及到这么几个下属的技术难题:计算机推理、论证解决实际问题;知识在计算机中如何表示(www上一种可行的方案是本体技术);机器如何制定计划并具有应急功能;机器如何学习知识;自然语言处理;操纵和控制;认知;社会智能;创作力;常规智能。可以看出,机器学习实际上是人工智能的一个子领域。
而数据挖掘,是计算机科学的交叉子领域,在大规模数据集中发现有用模式的过程,涉及到AI,ML,统计与数据库系统等技术。
机器学习的定义
Tom Mitchell (1998) Well-posed Learning Problem: A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E. 一个计算机程序为了完成任务T,从经验E中学习,以P衡量完成任务的效果,如果它在T上的性能P通过学习经验E提高了,则认为这是一个机器学习的过程。
分类:无监督学习与有监督学习
无监督学习指的是从没有标签的数据集中试图找出隐含的结构。算法包括:聚类算法,使用特征提取的降维算法等。
有监督学习指的是从有标签的数据集中归纳出某种函数,包含训练数据。算法包含:神经网络,决策树算法,贝叶斯统计等。
简单讲,无监督学习就是不需要手动对数据进行标注,我们塞给算法的可能是一堆粗糙的原始数据,算法有可能会根据这些东西构建自己的学习样例,或者通过其他的方法产生学习样例;而有监督的算法,则需要人工对数据进行标准,其处理后的训练数据提交给算法之后,算法会给出一个方程用以对需要的数据进行预测或者计算得到函数值。