資料分析 IPython 處理 (2)

基本介紹

教學目標

學習如何在 IPython Notepad 中透過 Pandas 套件進行 Google BigQuery 查詢。

使用教學

套件安裝

請先切換管理者權限。

1
$ sudo su

確認 python 版本為 2.7.6 。

1
$ python -V

安裝 Pandas 和 Google API 相關套件。

1
2
3
$ pip install pandas
$ pip install --upgrade google-api-python-client
$ pip install --upgrade python-gflags

執行 IPython Notebook 網站服務。

1
$ ipython notebook --profile=[設定檔名稱] --no-browser

撰寫程式

開啟瀏覽器在網址列輸入 http:// [伺服器 IP 位址]:8888 ,登入密碼之後,開啟 IPython Notebook 網站服務。

按下 New Notebook 按鈕新增 notebook ,接著輸入 python 程式碼。

輸入程式碼透過 Pandas 套件進行 Google BigQuery 查詢

1
2
3
4
import pandas as pd
projectId = "Google 專案 ID"
df = pd.read_gbq('select repository.language, count(*) as total from publicdata:samples.github_nested where repository.language is not null group by repository.language order by total desc limit 10;', projectId)
df

先執行之後終止再執行,就能夠透過驗證碼的方式進行 Google API 授權認證。

執行結果

repository_language total
0 JavaScript 372211
1 Ruby 259329
2 Java 223470
3 Python 193720
4 C 186949
5 PHP 177864
6 C++ 102954
7 Objective-C 50522
8 Shell 45875
9 C# 44594

相關資源