安然是美国历史上最大的公司破产案。到什么程度?相当于中国农业银行的倒闭。2000年,安然是美国最大的能源公司,但在被曝出欺诈后不到一年就破产了。
之所以选择用安然事件的数据集来做机器学习项目,是因为我们已经有了安然的电子邮件数据库,里面包含了50万封安然前员工的电子邮件,主要是高级管理人员。这也是唯一的大型公共真实邮件数据库。
有兴趣的话可以看看安然的纪录片,也是非常尴尬的经典纪录片:【纪录片】安然:房间里最聪明的人。看完之后,我的感觉是:脚踏实地,不要为了钱去做。
好的,这篇文章将分析安然的数据,看看是否有电子邮件揭露他们的非法行为。整个项目没有想象的那么难。让我们一起来看看。
准备工作/即将工作
1.安装,pip包。
如果这一步有什么问题,请参考朴素贝叶斯项目的“准备”部分和文末的“其他问题”部分。
资源库
需要Git来复制资源库:-(您可以先熟悉git的使用,然后单击链接)。
克隆后,进入目录并运行。该程序首先检查模块(查看您的numpy、scikit-learn等包是否存在。安装成功),然后下载并解压缩我们在后期会大量使用的大数据集。下载和解压需要一些时间,但你不必等到全部完成后才开始第一部分。
3.下载并解压安然邮件数据。
下载地址为http://zoo . cs . Yale . edu/class/cs 458/讲课/sklearn/ud/ud 120-project-master/registry _ mail _ 20150507 . tgz,数据量大,建议用7zip解压(可能需要半小时)。
4.运行开始代码。
汇总的安然电子邮件和财务数据集存储在字典中,其中每个关键字是一个人的名字,值是包含该人所有特征的字典。电子邮件和金融(E F)数据字典存储在pickle文件中,可以直接存储和加载python对象,非常方便。
使用\ ud 120-projects \ datasets _ questions \ explore _ registry _ data . py加载数据集,并在此python文件中完成代码编写。
不熟悉字典功能的可以在百度“python字典”查看相关知识。
安然事件数据练习。
1.数据集中有多少个数据点(人)?
因为数据存储在字典中,所以您可以通过以下代码来检查人数。
打印
网友评论
当前共有20条评论