前言
大家早上好呀,我是完熊🦝,欢迎来到我们机器学习之旅的Day 4!
在Day 3,我们成功搭建好了环境,还小试牛刀了Pandas的两个核心数据结构——Series和DataFrame。今天的内容会非常充实,我们将兵分两路:
先介绍浣熊的百宝箱里的一件能极大提升笔记和文档效率的神器——Markdown。
然后继续Pandas实战,学习如何加载真实数据并对其进行最核心的查看与选择操作。
第一部分:Markdown入门
今天的浣熊百宝箱介绍的工具叫Markdown。你可能会好奇,之前看到的代码块与文字结合的内容是怎么实现的——其实就是在Markdown里实现的。它能让你记笔记、写文档、运行py代码的效率和美观度都瞬间翻倍!
![]()
1. Markdown是什么?
首先要明确:Markdown不是无需安装的软件,它是一种写作的语法规则。
你只需要用一些极简的符号(比如# *),就能为纯文本赋予格式。而很多我们常用的软件,天生就能“看懂”这种语法并把它渲染成漂亮的样子。
2. 在哪里使用Markdown?
Jupyter Notebook (网页端): 这是我们数据科学家的主战场。在Jupyter中,单元格(Cell)有两种主要类型:Code(代码)和Markdown(文本)。当你把单元格类型切换到Markdown,就可以用这种语法来写注释、做笔记、展示分析思路了!我们下载了jupyter后可以在终端中输入jupyter Notebook,随后网页中会自动跳转到主界面。
![]()
IDE插件 (比如PyCharm, VS Code): 在PyCharm里可以通过插件来使用Jupyter Notebook。同样,这些IDE也支持直接创建.md文件,并提供实时预览窗口,让你边写边看效果。
![]()
其他平台: 像GitHub的项目说明(README.md)、Kaggle的Notebook、AI生成的文本内容,都广泛支持Markdown。可以说,它已经是程序员的“必会写作技巧”。
![]()
3. 为什么它对我们数据分析者这么重要?
对于我们来说,Markdown是数据分析工作流中不可或缺的一部分,尤其是在Jupyter Notebook中,它能带来三大核心优势:
实现“文学化编程”
最大的好处就是实现了段落式运行py代码!Jupyter允许我们创建一个Markdown单元格写下我们的分析思路和假设,紧接着在下一个Code单元格里编写Python代码来验证它,然后再下一个Markdown单元格里解释代码的输出结果。
成为“数据故事的讲述者”
一份只有代码的分析文件是很难让人读懂的。而一份用Markdown清晰地解释了每一步“为什么这么做”、“代码结果说明了什么”的Notebook,就在讲述一个“数据故事”。
一键生成可分享的报告
因为Jupyter Notebook完美融合了Markdown的文本、代码的逻辑和代码运行生成的图表,所以你可以轻松地将整个.ipynb文件导出为一份HTML或PDF格式的精美报告。
4. 快速上手:核心语法
![]()
花几分钟熟悉一下,你就能轻松写出结构清晰的笔记和文档了!
第二部分:加载与选择文件
好了,工具箱更新完毕!现在让我们回到Pandas的主线任务。我们将不再满足于自己创造的小数据,而是要向一个真实的、外部的数据集发起探索!今天的任务很明确:学会加载真实数据,并掌握数据操作中最核心的查看、选择与切片。
1、读取数据
我们之前的数据都是自己手动创建的,但在真实世界里,数据通常都存放在文件里。CSV (逗-号分隔值) 就是最常见的一种表格数据文件。而Pandas提供了一个超级强大的“传送门”——pd.read_csv()函数,可以轻松地将文件里的数据传入一个DataFrame。
![]()
我们将使用一个非常经典的公开数据集。你不需要下载它,Pandas可以直接从URL读取!
仅仅一行代码,一个包含891名乘客、12个维度信息的数据集就已经在我们的df里了,是不是非常方便!
2、数据初探
数据成功加载!我们不要急着深入分析,而是像医生给病人做检查一样,先对数据进行一次快速的“体检”,了解它的基本情况。
![]()
![]()
![]()
![]()
3、 精准选择
体检完毕,现在是时候学习如何精准地获取我们想要的数据了!
![]()
![]()
【敲黑板】.loc vs .iloc 的核心区别:.loc认的是索引的名字(标签),.iloc认的是行在表格里的位置(第几行)。现在默认索引下它们看起来很像,但这个区别在未来至关重要!
结语
今天我们迈出了一大步!从加载真实数据,到快速“体检”,再到精准地选择出我们想要的部分,你已经掌握了数据分析中最核心、最高频的操作。
现在我们能“找到”数据了,但下一步呢?当然是根据条件去筛选数据!下一篇,我们将学习如何向数据提出更具体的问题,比如“筛选出所有年龄小于18岁的乘客”,学会向数据提问。
![]()
浣熊的小游戏终于肝完了,也是成功提交上去了(还剩两分半截止)接下来有时间了可能更新频率会稍微高一些。
两天也是花了差不多一个半小时才编辑出来这篇文章,希望大家能有收获
欢迎大家在评论区讨论、分享、建议、指正,催更达咩我是浣熊,我们下次不知道什么时候再见
更多游戏资讯请关注:电玩帮游戏资讯专区
电玩帮图文攻略 www.vgover.com
