前言
大家早上好呀,我是完熊🦝,歡迎來到我們機器學習之旅的Day 4!
在Day 3,我們成功搭建好了環境,還小試牛刀了Pandas的兩個核心數據結構——Series和DataFrame。今天的內容會非常充實,我們將兵分兩路:
先介紹浣熊的百寶箱裏的一件能極大提升筆記和文檔效率的神器——Markdown。
然後繼續Pandas實戰,學習如何加載真實數據並對其進行最核心的查看與選擇操作。
第一部分:Markdown入門
今天的浣熊百寶箱介紹的工具叫Markdown。你可能會好奇,之前看到的代碼塊與文字結合的內容是怎麼實現的——其實就是在Markdown裏實現的。它能讓你記筆記、寫文檔、運行py代碼的效率和美觀度都瞬間翻倍!
![]()
1. Markdown是什麼?
首先要明確:Markdown不是無需安裝的軟件,它是一種寫作的語法規則。
你只需要用一些極簡的符號(比如# *),就能爲純文本賦予格式。而很多我們常用的軟件,天生就能“看懂”這種語法並把它渲染成漂亮的樣子。
2. 在哪裏使用Markdown?
Jupyter Notebook (網頁端): 這是我們數據科學家的主戰場。在Jupyter中,單元格(Cell)有兩種主要類型:Code(代碼)和Markdown(文本)。當你把單元格類型切換到Markdown,就可以用這種語法來寫註釋、做筆記、展示分析思路了!我們下載了jupyter後可以在終端中輸入jupyter Notebook,隨後網頁中會自動跳轉到主界面。
![]()
IDE插件 (比如PyCharm, VS Code): 在PyCharm裏可以通過插件來使用Jupyter Notebook。同樣,這些IDE也支持直接創建.md文件,並提供實時預覽窗口,讓你邊寫邊看效果。
![]()
其他平臺: 像GitHub的項目說明(README.md)、Kaggle的Notebook、AI生成的文本內容,都廣泛支持Markdown。可以說,它已經是程序員的“必會寫作技巧”。
![]()
3. 爲什麼它對我們數據分析者這麼重要?
對於我們來說,Markdown是數據分析工作流中不可或缺的一部分,尤其是在Jupyter Notebook中,它能帶來三大核心優勢:
實現“文學化編程”
最大的好處就是實現了段落式運行py代碼!Jupyter允許我們創建一個Markdown單元格寫下我們的分析思路和假設,緊接着在下一個Code單元格里編寫Python代碼來驗證它,然後再下一個Markdown單元格里解釋代碼的輸出結果。
成爲“數據故事的講述者”
一份只有代碼的分析文件是很難讓人讀懂的。而一份用Markdown清晰地解釋了每一步“爲什麼這麼做”、“代碼結果說明了什麼”的Notebook,就在講述一個“數據故事”。
一鍵生成可分享的報告
因爲Jupyter Notebook完美融合了Markdown的文本、代碼的邏輯和代碼運行生成的圖表,所以你可以輕鬆地將整個.ipynb文件導出爲一份HTML或PDF格式的精美報告。
4. 快速上手:核心語法
![]()
花幾分鐘熟悉一下,你就能輕鬆寫出結構清晰的筆記和文檔了!
第二部分:加載與選擇文件
好了,工具箱更新完畢!現在讓我們回到Pandas的主線任務。我們將不再滿足於自己創造的小數據,而是要向一個真實的、外部的數據集發起探索!今天的任務很明確:學會加載真實數據,並掌握數據操作中最核心的查看、選擇與切片。
1、讀取數據
我們之前的數據都是自己手動創建的,但在真實世界裏,數據通常都存放在文件裏。CSV (逗-號分隔值) 就是最常見的一種表格數據文件。而Pandas提供了一個超級強大的“傳送門”——pd.read_csv()函數,可以輕鬆地將文件裏的數據傳入一個DataFrame。
![]()
我們將使用一個非常經典的公開數據集。你不需要下載它,Pandas可以直接從URL讀取!
僅僅一行代碼,一個包含891名乘客、12個維度信息的數據集就已經在我們的df裏了,是不是非常方便!
2、數據初探
數據成功加載!我們不要急着深入分析,而是像醫生給病人做檢查一樣,先對數據進行一次快速的“體檢”,瞭解它的基本情況。
![]()
![]()
![]()
![]()
3、 精準選擇
體檢完畢,現在是時候學習如何精準地獲取我們想要的數據了!
![]()
![]()
【敲黑板】.loc vs .iloc 的核心區別:.loc認的是索引的名字(標籤),.iloc認的是行在表格裏的位置(第幾行)。現在默認索引下它們看起來很像,但這個區別在未來至關重要!
結語
今天我們邁出了一大步!從加載真實數據,到快速“體檢”,再到精準地選擇出我們想要的部分,你已經掌握了數據分析中最核心、最高頻的操作。
現在我們能“找到”數據了,但下一步呢?當然是根據條件去篩選數據!下一篇,我們將學習如何向數據提出更具體的問題,比如“篩選出所有年齡小於18歲的乘客”,學會向數據提問。
![]()
浣熊的小遊戲終於肝完了,也是成功提交上去了(還剩兩分半截止)接下來有時間了可能更新頻率會稍微高一些。
兩天也是花了差不多一個半小時才編輯出來這篇文章,希望大家能有收穫
歡迎大家在評論區討論、分享、建議、指正,催更達咩我是浣熊,我們下次不知道什麼時候再見
更多遊戲資訊請關註:電玩幫遊戲資訊專區
電玩幫圖文攻略 www.vgover.com
