10大Python数据科学源代码教程


这里提供您开始下一个数据科学项目所需的一切,包括数据集链接、教程以及如何最终将它们变成您自己的想法。
 
1.构建音乐推荐引擎
百万歌曲数据集是一个庞大的当代音乐数据库,包含一百万首歌曲的音频特征和元数据。使用 Python,您可以利用此数据集构建推荐引擎。
从 Ajinkya Khobragade的这个有用的教程开始,它向您展示了如何构建一个协作过滤推荐引擎。
使用百万歌曲数据库,你可以追求很多不同的推荐系统项目。一种可能的选择是使用LightFM Python 实现来快速构建推荐引擎。
 
2. 使用 Python 检测垃圾邮件
这是一个很棒的初学者 Python 数据科学项目,有大量的电子邮件数据集可供初学者垃圾邮件过滤项目使用。
最好的之一是Enron-Spam Corpus,其中包含 35,000 多条垃圾邮件和非垃圾邮件。
教程深入介绍了如何使用 Python 和 Scikit-learn 构建垃圾邮件过滤器。
  
3. 使用 Python 进行房价预测
网上有大量的住房数据,你可以使用这些数据用 Python 做很多很酷的事情。这是来自聪明程序员 Aman Kharwal 的有用教程,它利用加州人口普查数据集来预测房价。
这是一个很棒的初学者 Python 数据科学项目。您可以使用加利福尼亚数据集,或将其切换为预测二手车和机票等价格。
 
4. 使用 Python 进行 NBA 分析
项目分析从篮球参考中抓取的数据,以确定篮球中的 2 换 1 比赛是否真的提供了优势。如果您对体育或 NBA 数据科学项目感兴趣,一定要再看看这个项目。
看看GitHub 上的源代码。您可以抓取和分析的体育统计数据确实无穷无尽。
 
5. 影评情感分析
 如果您对 NLP 感兴趣,可以尝试许多情绪分析和文本分析项目。一个可靠的初学者到中级情绪分析项目可能涉及根据现有电影评论对情绪进行分类或预测。
一个有用的例子是使用这个包含50,000 多个 IMDB 电影评论的数据集(你也可以在这个Kaggle 笔记本中找到一些有用的提示)。
 
6. 用 Python 和 OpenCV 换脸
如果您想知道 Instagram 如何让换脸变得如此简单,请查看这个计算机视觉项目。在 Pysource 上,Sergio Canu 创建了一个关于如何使用 Python 和 OpenCV构建面部交换应用程序的非常有用的教程。
这是一个可靠的中高级 CV 项目,也是使用 OpenCV 库的绝佳实践。本教程将引导您完成所有步骤(包括源代码),例如位置映射。
 CelebFaces数据集非常适合这样的项目。
 
7. 用 Python 检测假新闻
对如何使用 Python 检测假新闻感兴趣?查看Manthan Bhikadiya 的 Medium 上的本教程,它将引导您完成整个过程
 
8. 从零开始构建聊天机器人
Python 是创建聊天机器人的有用工具。如果您想亲自尝试,请查看此DataFlair 聊天机器人教程,其中介绍了如何使用自然语言工具包、Keras 和 Python。这是一个很好的教程,可以帮助您使用所有这三个工具,它包括所有源代码。
 
9. 预测森林火灾损失
对哪些条件会影响森林火灾的严重程度感兴趣?看看Kaggle 上的这个数据集,你可以用它来预测火灾的燃烧面积。
然后,您进入回归或分类分析以进行预测。
 
10. 在 Craigslist 上寻找廉价住房
Craigslist 是查找数据的最佳场所之一——从二手车价格到出租公寓。这个项目也来自 Jay,并模拟了从 Craigslist 上抓取的旧金山住房数据。
对于使用 Python 框架 Scrapy,这是一个特别有用的项目。请查看此处的源代码,以深入了解如何为您的项目自定义 Scrapy 实现。