黑客24小时在线接单网站

[机器学习] 美国最大欺诈案

jason2021-09-22 14:48:2161720

安然是美国历史上最大的公司破产案。到什么程度?相当于中国农业银行的倒闭。2000年,安然是美国最大的能源公司,但在被曝出欺诈后不到一年就破产了。

之所以选择用安然事件的数据集来做机器学习项目,是因为我们已经有了安然的电子邮件数据库,里面包含了50万封安然前员工的电子邮件,主要是高级管理人员。这也是唯一的大型公共真实邮件数据库。

有兴趣的话可以看看安然的纪录片,也是非常尴尬的经典纪录片:【纪录片】安然:房间里最聪明的人。看完之后,我的感觉是:脚踏实地,不要为了钱去做。

好的,这篇文章将分析安然的数据,看看是否有电子邮件揭露他们的非法行为。整个项目没有想象的那么难。让我们一起来看看。

准备工作/即将工作

1.安装,pip包。

如果这一步有什么问题,请参考朴素贝叶斯项目的“准备”部分和文末的“其他问题”部分。

资源库

需要Git来复制资源库:-(您可以先熟悉git的使用,然后单击链接)。

克隆后,进入目录并运行。该程序首先检查模块(查看您的numpy、scikit-learn等包是否存在。安装成功),然后下载并解压缩我们在后期会大量使用的大数据集。下载和解压需要一些时间,但你不必等到全部完成后才开始第一部分。

3.下载并解压安然邮件数据。

下载地址为http://zoo . cs . Yale . edu/class/cs 458/讲课/sklearn/ud/ud 120-project-master/registry _ mail _ 20150507 . tgz,数据量大,建议用7zip解压(可能需要半小时)。

4.运行开始代码。

汇总的安然电子邮件和财务数据集存储在字典中,其中每个关键字是一个人的名字,值是包含该人所有特征的字典。电子邮件和金融(E F)数据字典存储在pickle文件中,可以直接存储和加载python对象,非常方便。

使用\ ud 120-projects \ datasets _ questions \ explore _ registry _ data . py加载数据集,并在此python文件中完成代码编写。

不熟悉字典功能的可以在百度“python字典”查看相关知识。

安然事件数据练习。

1.数据集中有多少个数据点(人)?

因为数据存储在字典中,所以您可以通过以下代码来检查人数。

打印

len(安然数据)

相关阅读

  • 美国安然事美国安然事件件(要短小精悍的)
  • 美国安然事件,2001年美国安然公司破产案(破产额高达498亿美元)
  • [机器学习] 美国最大欺诈案
  • 本文链接:http://www.1516qp.com/zj/15798.html

    网友评论

    当前共有20条评论