Magicodes.Pay，打造開箱即用的統一支付庫，已提供ABP模塊封裝

2020-05-222020-05-22 admin

Magicodes.Pay，打造開箱即用的統一支付庫，已提供ABP模塊封裝

簡介

Magicodes.Pay，是心萊科技團隊提供的統一支付庫，相關庫均使用.NET標準庫編寫，支持.NET Framework以及.NET Core。目前已提供Abp模塊的封裝，支持開箱即用。

Nuget

新的包

已棄用的包，不再更新

主要功能

Magicodes.Pay，是心萊科技團隊提供的統一支付庫，相關庫均使用.NET標準庫編寫，支持.NET Framework以及.NET Core。目前已提供Abp模塊的封裝，支持開箱即用。目前支持以下支付方式和功能：

支付寶支付

APP支付
Wap支付

支付寶國際支付

支持分賬

微信支付

小程序支付
APP支付
訂單查詢
企業付款（提現）
退款申請
普通紅包

通聯支付

小程序支付

統一支付回調處理
支持日誌函數注入（不依賴支付庫）
支持支付配置函數注入，以便於支持自定義配置獲取邏輯，以應用於不同的場景（比如從配置文件、用戶設置獲取配置，或者多租戶支持）
針對ABP提供模塊封裝，添加模塊依賴即可立即使用。主要包括：

支付渠道註冊（IPaymentRegister）
支付回調邏輯處理（IPaymentCallbackAction）
統一支付服務實現（IToPayService）
統一支付服務封裝（見IPayAppService）
支付管理器封裝（IPaymentManager），包含：
交易日誌封裝，自動記錄客戶端信息以及自動異常處理和記錄
僅需編寫一次回調邏輯，即可支持多個支付渠道
業務參數支持更大長度（500）

開始使用

如果使用Abp相關模塊，則使用起來比較簡單，具體您可以參考相關單元測試的編寫。主要有以下步驟：

引用對應的Abp支付的Nuget包如果僅需某個支付，僅需引用該支付的包。下面以通聯支付為例，我們需要在工程中引用此包：
添加模塊依賴在對應工程的Abp的模塊（AbpModule）中，添加對“AbpAllinpayModule”的依賴，如：

 [DependsOn(typeof(AbpAllinpayModule))]

在DbContext中添加名為“TransactionLogs”的DbSet 整個支付過程中（無論是支付成功還是出現異常），均會記錄交易日誌。交易日誌會記錄交易過程中的一些信息，比如客戶端信息、交易參數、自定義參數以及異常信息。因此我們需要針對EF添加對TransactionLog的支持。需要在DbContext中添加的完整代碼如下所示：

public DbSet<TransactionLog> TransactionLogs { get; set; }

註冊回調邏輯我們需要實現“IPaymentCallbackAction”接口來編寫自定義的回調邏輯。如以下示例所示：

public class TestPaymentCallbackAction : IPaymentCallbackAction
    {
        /// <summary>
        /// 業務Key
        /// </summary>
        public string Key { get; set; } = "繳費支付";

        /// <summary>
        /// 執行回調
        /// </summary>
        /// <returns></returns>
        public async Task Process(IUnitOfWorkManager unitOfWork, TransactionLog transactionLog)
        {
            var data = transactionLog.CustomData.FromJsonString<JObject>();
            //業務處理

            await Task.FromResult(0);
        }
    }

注意Key不要重複。

向容器中註冊回調邏輯

我們可以將回調邏輯寫在一個公共的程序集，然後使用以下代碼進行註冊：

 IocManager.IocContainer.Register(
                //註冊自定義支付回調邏輯
                Classes.FromAssembly(typeof(ApplicationCoreModule).GetAssembly())
                    .BasedOn<IPaymentCallbackAction>()
                    .LifestyleTransient()
                    .Configure(component => component.Named(component.Implementation.FullName))
                    .WithServiceFromInterface()
            );

除了上面的方式，我們還可以通過注入IPaymentManager對象，通過其RegisterCallbackAction方法來註冊自定義的回調邏輯。

發起支付

通過容器獲得IPayAppService，然後調用Pay方法即可。也可以自行封裝：

public async Task<object> Payment(PaymentInput input)
        {
            return await _payAppService.Pay(new PayInputBase()
            {
                Body = $"{input.Name} {input.ChargeProjectName}",
                CustomData = input.ToJsonString(),
                Key = "繳費支付",
                OpenId = input.OpenId,
                Subject = input.ChargeProjectName,
                TotalAmount = input.Amount,
                PayChannel = input.PayChannel
            });
        }

通過IPayAppService統一支付有如下好處：

統一支付（無論支付寶還是微信各種端的支付，均可統一）
自動記錄交易日誌以及進行相關邏輯處理
自定義數據依賴交易日誌進行存儲，而不依賴支付渠道，因此支持無業務參數的支付渠道，也支持存儲更多自定義數據

非ABP集成

請參考Abp相關模塊的封裝或者歷史代碼。

官方訂閱號

關注“麥扣聊技術”訂閱號免費獲取：

最新文章、教程、文檔
視頻教程
基礎版免費授權
模板
解決方案
編程心得和理念

官方博客/文檔站

其他開源庫地址

本站聲明:網站內容來源於博客園,如有侵權,請聯繫我們,我們將及時處理
【其他文章推薦】

※帶您來了解什麼是 USB CONNECTOR ?

※自行創業缺乏曝光? 下一步"網站設計"幫您第一時間規劃公司的門面形象

※如何讓商品強力曝光呢? 網頁設計公司幫您建置最吸引人的網站，提高曝光率!!

※綠能、環保無空污,成為電動車最新代名詞，目前市場使用率逐漸普及化

※廣告預算用在刀口上，網站設計公司幫您達到更多曝光效益

澳洲野火肆虐動物缺糧政府空投糧食救援

2020-05-212020-05-21 admin

摘錄自2020年1月13日公視報導

澳洲最近野火燎原，專家估計至少有8億隻野生動物被燒死或受到影響，澳洲當局星期一宣布將投入5000萬澳幣，約合10億新台幣，作為搶救野生動物與復原棲地的經費，而在新南威爾斯則已經空投兩噸的蔬菜糧食，讓當地瀕危的刷尾袋鼠等物種果腹救命。

從直升機上將一箱箱紅蘿蔔和蕃薯空投到地面，攝影機隨後捕捉到小型瀕危的刷尾岩袋鼠現身，抱著救命的糧食啃了起來。為了搶救倖存的野生動物，相關單位已經在國家公園內空投兩噸的蔬菜糧食。

澳洲當局同時在星期一宣布將砸下5000萬澳幣，約合10億台幣，作為救助野生動物的經費，澳洲環境部長表示，其中一半將用於野生動物的醫療照顧與安置，並致力復原被野火燒毀的棲地；另一半將用來搶救面臨生存危機的野生動物。

本站聲明:網站內容來源環境資訊中心https://e-info.org.tw/,如有侵權,請聯繫我們,我們將及時處理

【其他文章推薦】

※帶您來了解什麼是 USB CONNECTOR ?

※自行創業缺乏曝光? 下一步"網站設計"幫您第一時間規劃公司的門面形象

※如何讓商品強力曝光呢? 網頁設計公司幫您建置最吸引人的網站，提高曝光率!!

※綠能、環保無空污,成為電動車最新代名詞，目前市場使用率逐漸普及化

※廣告預算用在刀口上，網站設計公司幫您達到更多曝光效益

新品牌效應台灣電動機車買氣加溫

2020-05-202020-05-20 admin

台灣中央與地方政府推動電動機車多年，今年因為新品牌Gogoro加入市場而加強了業者間的競爭意識，同時帶動了消費者的買氣。

Gogoro的電動機車Smartscooter今年七月正式上市。在十月祭出降價策略後，十月的銷售量達680輛，比九月成長了106%，已是當月台北市機車掛牌數量第四名。台北市是目前Gogoro相關服務最完善的地區，除了有較密集的電池交換站外，也開始嘗試與超商業者合作，讓騎士能以超商為據點交換電池。

在Gogoro加入市場後，台灣電動機車的需求整體也隨之升高。今年十月，台灣整體電動車掛牌輛創下2012年元月開始推行電動機車以來的新高；電動車相關概念股的股價也跟著成長，後勢可期。

本站聲明:網站內容來源於EnergyTrend https://www.energytrend.com.tw/ev/,如有侵權,請聯繫我們,我們將及時處理

【其他文章推薦】

※帶您來了解什麼是 USB CONNECTOR ?

※自行創業缺乏曝光? 下一步"網站設計"幫您第一時間規劃公司的門面形象

※如何讓商品強力曝光呢? 網頁設計公司幫您建置最吸引人的網站，提高曝光率!!

※綠能、環保無空污,成為電動車最新代名詞，目前市場使用率逐漸普及化

※廣告預算用在刀口上，網站設計公司幫您達到更多曝光效益

決策樹(上)-ID3、C4.5、CART

2020-05-192020-05-20 admin

參考資料(要是對於本文的理解不夠透徹，必須將以下博客認知閱讀，方可全面了解決策樹)：

決策樹是一個非常常見並且優秀的機器學習算法，它易於理解、可解釋性強，其可作為分類算法，也可用於回歸模型。本文將分三篇介紹決策樹，第一篇介紹基本樹（包括 ID3、C4.5、CART），第二篇介紹 Random Forest、Adaboost、GBDT，第三篇介紹 Xgboost 和 LightGBM。

在進入正題之前，先讓我們了解一些有關信息論的知識！

信息論

1.信息熵

在決策樹算法中，熵是一個非常非常重要的概念。一件事發生的概率越小，我們說它所蘊含的信息量越大。比如：我們聽女人能懷孕不奇怪，如果某天聽到哪個男人懷孕了，我們就會覺得emmm…信息量很大了。

所以我們這樣衡量信息量：

其中，P(y)是事件發生的概率。信息熵就是所有可能發生的事件的信息量的期望：

表達了Y事件發生的不確定度。

決策樹屬性劃分算法

眾所周知，決策樹學習的關鍵在於如何選擇最優劃分屬性，一般而言，隨着劃分過程不斷進行，我們希望決策樹的分支結點所包含的樣本盡可能屬於同一類別，即結點的“純度”越來越高。

1.ID3

(1)思想

從信息論的知識中我們知道：信息熵越大，從而樣本純度越低，。ID3 算法的核心思想就是以信息增益來度量特徵選擇，選擇信息增益最大的特徵進行分裂。算法採用自頂向下的貪婪搜索遍歷可能的決策樹空間（C4.5 也是貪婪搜索）。

(2)劃分標準(詳細過程以及公式推導見西瓜書即可)

ID3算法使用信息增益為準則來選擇劃分屬性，“信息熵”(information entropy)是度量樣本結合純度的常用指標，假定當前樣本集合D中第k類樣本所佔比例為pk，則樣本集合D的信息熵定義為：

假定通過屬性劃分樣本集D，產生了V個分支節點，v表示其中第v個分支節點，易知：分支節點包含的樣本數越多，表示該分支節點的影響力越大。故可以計算出劃分后相比原始數據集D獲得的“信息增益”（information gain）。

信息增益越大，表示使用該屬性劃分樣本集D的效果越好，因此ID3算法在遞歸過程中，每次選擇最大信息增益的屬性作為當前的劃分屬性。

(3)缺點

ID3 沒有剪枝策略，容易過擬合；
信息增益準則對可取值數目較多的特徵有所偏好，類似“編號”的特徵其信息增益接近於 1；
只能用於處理離散分佈的特徵；
沒有考慮缺失值。

2. C4.5

2.1 思想

C4.5 算法最大的特點是克服了 ID3 對特徵數目的偏重這一缺點，引入信息增益率來作為分類標準。

C4.5 相對於 ID3 的缺點對應有以下改進方式：

引入悲觀剪枝策略進行后剪枝；
引入信息增益率作為劃分標準；
可以處理連續值：將連續特徵離散化，假設 n 個樣本的連續特徵 A 有 m 個取值，C4.5 將其排序並取相鄰兩樣本值的平均數共 m-1 個劃分點，分別計算以該劃分點作為二元分類點時的信息增益，並選擇信息增益最大的點作為該連續特徵的二元離散分類點；
可以處理缺失值：對於缺失值的處理可以分為兩個子問題：
問題一：在特徵值缺失的情況下進行劃分特徵的選擇？（即如何計算特徵的信息增益率）
問題二：選定該劃分特徵，對於缺失該特徵值的樣本如何處理？（即到底把這個樣本劃分到哪個結點里）
針對問題一，C4.5 的做法是：對於具有缺失值特徵，用沒有缺失的樣本子集所佔比重來折算；
針對問題二，C4.5 的做法是：將樣本同時劃分到所有子節點，不過要調整樣本的權重值，其實也就是以不同概率劃分到不同節點中。

2.2 劃分標準

利用信息增益率可以克服信息增益的缺點，其公式為：

注意：信息增益率對可取值較少的特徵有所偏好（分母越小，整體越大），因此 C4.5 並不是直接用增益率最大的特徵進行劃分，而是使用一個啟髮式方法：先從候選劃分特徵中找到信息增益高於平均值的特徵，再從中選擇增益率最高的。

2.3 剪枝策略(預剪枝+后剪枝)

決策樹解決過擬合的主要方法：剪枝、隨機森林

2.3.1 預剪枝

(1) 在決策樹生成過程中，對每個結點在劃分前先進行估計，若當前結點的劃分不能帶來決策樹泛化性能提升，則停止劃分並將當前結點標記為恭弘=叶恭弘結點。在構造的過程中先評估，再考慮是否分支。衡量決策樹泛化性能提升的方法：

節點內數據樣本低於某一閾值；
所有節點特徵都已分裂；
節點劃分前準確率比劃分后準確率高。

(2)優缺點

降低過擬合風險、顯著減少決策樹的訓練時間開銷和測試時間開銷。
預剪枝基於“貪心”策略，有可能會帶來欠擬合風險。

2.3.2 后剪枝(C4.5採用的是基於后剪枝的悲觀剪枝方法)

(1) 后剪枝是先從訓練集生成一棵完整的決策樹，然後自底向上地對非恭弘=叶恭弘子結點進行考察，若將該結點對應的子樹替換為恭弘=叶恭弘結點能帶來決策樹泛化性能提升，則將該子樹替換為恭弘=叶恭弘結點。

(2) 后剪枝決策樹的欠擬合風險很小，泛化性能往往優於預剪枝決策樹。但同時其訓練時間會大的多。

2.4 缺點

剪枝策略可以再優化；
C4.5 用的是多叉樹，用二叉樹效率更高；
C4.5 只能用於分類；
C4.5 使用的熵模型擁有大量耗時的對數運算，連續值還有排序運算；
C4.5 在構造樹的過程中，對數值屬性值需要按照其大小進行排序，從中選擇一個分割點，所以只適合於能夠駐留於內存的數據集，當訓練集大得無法在內存容納時，程序無法運行。

3. CRAT

ID3 和 C4.5 雖然在對訓練樣本集的學習中可以盡可能多地挖掘信息，但是其生成的決策樹分支、規模都比較大，CART 算法的二分法可以簡化決策樹的規模，提高生成決策樹的效率。

Cart算法的兩個主要步驟為：(1)將樣本遞歸劃分進行建樹過程 ; (2)用驗證數據進行剪枝.

3.1 思想

CART 在 C4.5 的基礎上進行了很多提升。

C4.5 為多叉樹，運算速度慢，CART 為二叉樹，運算速度快；
C4.5 只能分類，CART 既可以分類也可以回歸；
CART 使用 Gini 係數作為變量的不純度量，減少了大量的對數運算；
CART 採用代理測試來估計缺失值，而 C4.5 以不同概率劃分到不同節點中；
CART 採用“基於代價複雜度剪枝”方法進行剪枝，而 C4.5 採用悲觀剪枝方法。

3.2 劃分標準(Cart分類樹、Cart回歸樹)

首先我們來看看Cart分類樹！

CART決策樹(分類樹)使用“基尼指數”（Gini index）來選擇劃分屬性，基尼指數反映的是從樣本集D中隨機抽取兩個樣本，其類別標記不一致的概率，因此Gini(D)越小越好，這和信息增益（率）正好相反，基尼指數定義如下：

進而，使用屬性α劃分后的基尼指數為：

接下來讓我們通過一個實例，從實例中去了解如何創建一棵Cart分類樹。 如下圖所示

在上述圖中，共10條數據，屬性有3個，分別是有房情況(離散屬性且2種取值)，婚姻狀況(離散屬性且有3種取值)和年收入(連續屬性)，拖欠貸款者屬於分類的結果。

對於離散屬性(2種取值與多種取值)和連續屬性我們該如何進行Gini係數的計算以及劃分呢？

1.首先來看有房情況這個屬性，因為該屬性只有“是”“否”兩種取值，所以其Gini係數比較容易計算，那麼按照它劃分后的Gini指數計算如下：

2.接下來對婚姻狀況進行計算，我們發現婚姻狀況一共有三種取值：單身、已婚、離異，又因為Cart分類樹只能是二叉樹，所以我們只能對多種取值的屬性進行組合：

3.最後對年收入屬性進行計算。年收入屬性為連續值，Cart分類樹又是如何對連續值屬性進行處理的呢？(Cart分類樹對於連續值的處理其實和C4.5算法對於連續值的處理類似，只不過Cart使用Gini指數，C4.5使用信息增益率)

將連續特徵離散化，假設 n 個樣本的連續特徵 A 有 m 個取值，C4.5/Cart 將其排序並取相鄰兩樣本值的平均數共 m-1 個劃分點，分別計算以該劃分點作為二元分類點時的信息增益/Gini係數，並選擇信息增益最大/Gini係數最小的點作為該連續特徵的二元離散分類點；

通過計算我們可以發現，(單身或離異，已婚) 和 (<=97,>97)這種劃分其Gini係數最小(假設我們選擇年收入)。所以根節點分裂為兩個子節點，其中一個為恭弘=叶恭弘子結點。對於另外一個結點我們繼續使用上述方法在婚姻狀況、有房情況中選擇最佳特徵以及最佳切分點，反覆循環直到滿足條件為止。

接下來讓我們看看Cart回歸樹(最小二乘回歸樹)

眾所周知，決策樹學習的關鍵在於如何選擇最優劃分屬性，然而對於Cart回歸樹而言，還有一個重要的問題就是：如何決定樹中恭弘=叶恭弘節點的輸出值？

回歸樹的模型可以表示如下：

上式中，為對應恭弘=叶恭弘子節點的輸出值，為指示函數，當x屬於時，值為1，否則為0。

回歸樹的建立過程，優化策略或損失函數為最小化平方誤差，即最小化下式：

（1）問題1：怎樣對輸入空間進行劃分？即如何選擇劃分點？

CART回歸樹的建樹過程是二分裂節點，並且保證分裂的結果符合最小化平方誤差，這裏採用了比較暴力的遍曆法，即遍歷所有特徵j和每個特徵的多個閾值s，以平方誤差最小的組合作為分裂依據，數學描述如下：

上式中，R為以s為分割點分割的左右子樹樣本合集，c為該集合的均值。

確定了j，s后，就可以就行分裂了，將樹分裂為左右兩個區域：

（2）問題2：如何決定樹中恭弘=叶恭弘節點的輸出值？

分裂完畢以後，要確定每個恭弘=叶恭弘子結點的輸出值，使用類別均值：

接下來讓我們通過一個實例，從實例中去了解如何創建一棵Cart回歸樹。 如下圖所示

3.3 剪枝策略(簡略版本，具體推導見李航統計學習方法)

採用一種“基於代價複雜度的剪枝”方法進行后剪枝，這種方法會生成一系列樹，每個樹都是通過將前面的樹的某個或某些子樹替換成一個恭弘=叶恭弘節點而得到的，這一系列樹中的最後一棵樹僅含一個用來預測類別的恭弘=叶恭弘節點。然後用一種成本複雜度的度量準則來判斷哪棵子樹應該被一個預測類別值的恭弘=叶恭弘節點所代替。這種方法需要使用一個單獨的測試數據集來評估所有的樹，根據它們在測試數據集熵的分類性能選出最佳的樹。

3.4類別不平衡

CART 的一大優勢在於：無論訓練數據集有多失衡，它都可以將其消除不需要建模人員採取其他操作。

CART 使用了一種先驗機制，其作用相當於對類別進行加權。這種先驗機制嵌入於 CART 算法判斷分裂優劣的運算里，在 CART 默認的分類模式中，總是要計算每個節點關於根節點的類別頻率的比值，這就相當於對數據自動重加權，對類別進行均衡。

4.總結

最後通過總結的方式對比下 ID3、C4.5 和 CART 三者之間的差異。

除了之前列出來的劃分標準、剪枝策略、連續值確實值處理方式等之外，我再介紹一些其他差異：

劃分標準的差異：ID3 使用信息增益偏向特徵值多的特徵，C4.5 使用信息增益率克服信息增益的缺點，偏向於特徵值小的特徵，CART 使用基尼指數克服 C4.5 需要求 log 的巨大計算量，偏向於特徵值較多的特徵。
使用場景的差異：ID3 和 C4.5 都只能用於分類問題，CART 可以用於分類和回歸問題；ID3 和 C4.5 是多叉樹，速度較慢，CART 是二叉樹，計算速度很快；
樣本數據的差異：ID3 只能處理離散數據且缺失值敏感，C4.5 和 CART 可以處理連續性數據且有多種方式處理缺失值；從樣本量考慮的話，小樣本建議 C4.5、大樣本建議 CART。C4.5 處理過程中需對數據集進行多次掃描排序，處理成本耗時較高，而 CART 本身是一種大樣本的統計方法，小樣本處理下泛化誤差較大；
樣本特徵的差異：ID3 和 C4.5 層級之間只使用一次特徵，CART 可多次重複使用特徵；
剪枝策略的差異：ID3 沒有剪枝策略，C4.5 是通過悲觀剪枝策略來修正樹的準確性，而 CART 是通過代價複雜度剪枝

本站聲明:網站內容來源於博客園,如有侵權,請聯繫我們,我們將及時處理
【其他文章推薦】

※帶您來了解什麼是 USB CONNECTOR ?

※自行創業缺乏曝光? 下一步"網站設計"幫您第一時間規劃公司的門面形象

※如何讓商品強力曝光呢? 網頁設計公司幫您建置最吸引人的網站，提高曝光率!!

※綠能、環保無空污,成為電動車最新代名詞，目前市場使用率逐漸普及化

※廣告預算用在刀口上，網站設計公司幫您達到更多曝光效益

特斯拉盼於德國設廠因環保問題遭抗議

2020-05-182020-05-18 admin

摘錄自2020年01月19日中央通訊社德國報導

美國電動車大廠特斯拉（Tesla）計畫在柏林郊區設立超級工廠，大約250名德國民眾今天（19日）到設廠地點抗議，宣稱這樣的建設將會危害區域內的水源供應和野生生物。

特斯拉去年11月宣布，計畫在德國東部布蘭登堡邦（Brandenburg）市鎮格林海德（Grünheide）設立他們在歐洲的第一座工廠。政界、工會、產業團體都對特斯拉表示歡迎，宣稱那會為地區帶來工作機會，但因為對環境保護的憂慮，讓數百名當地人在今天走上街頭。

在此之前，布蘭登堡邦水利當局16日警告，預定興建的特斯拉工廠，將使得「飲水供應以及工廠廢水排放，出現廣泛及嚴重的問題。」

同時，民眾也為附近道路和村落之間的交通憂心不已，他們預期交通未來會有「巨幅」成長，他們為此表達抗議。

本站聲明:網站內容來源環境資訊中心https://e-info.org.tw/,如有侵權,請聯繫我們,我們將及時處理

【其他文章推薦】

※帶您來了解什麼是 USB CONNECTOR ?

※自行創業缺乏曝光? 下一步"網站設計"幫您第一時間規劃公司的門面形象

※如何讓商品強力曝光呢? 網頁設計公司幫您建置最吸引人的網站，提高曝光率!!

※綠能、環保無空污,成為電動車最新代名詞，目前市場使用率逐漸普及化

※廣告預算用在刀口上，網站設計公司幫您達到更多曝光效益

氣候變遷是真的高調擁煤的澳洲總理認了

2020-05-152020-05-18 admin

摘錄自2020年1月16日中央社報導

曾高調支持煤炭政策、不願將野火與氣候變遷做連結的澳洲總理莫里森（Scott Morrison），今天（15日）終於承認氣候變遷是真的。

三年前，時任財政部長的澳洲總理莫里森在國會殿堂上揮舞一塊煤炭，將其作為執政的保守派聯盟計劃維持電力供應與低電價的象徵。

如今，澳洲正經歷空前嚴重的野火季節，加上莫里森因為自己的擁煤政策面臨外界批評，他今天承認氣候變遷是真的，也談到澳洲對環境的「適應力」與「復原力」。

路透社報導，莫里森今天在首都坎培拉（Canberra）告訴記者：「我想我們都希望擁有高度信心，作為一個國家，我們正在提升自身復原力，和對我們所生存現實環境的適應力。」

本站聲明:網站內容來源環境資訊中心https://e-info.org.tw/,如有侵權,請聯繫我們,我們將及時處理

【其他文章推薦】

※帶您來了解什麼是 USB CONNECTOR ?

※自行創業缺乏曝光? 下一步"網站設計"幫您第一時間規劃公司的門面形象

※如何讓商品強力曝光呢? 網頁設計公司幫您建置最吸引人的網站，提高曝光率!!

※綠能、環保無空污,成為電動車最新代名詞，目前市場使用率逐漸普及化

※廣告預算用在刀口上，網站設計公司幫您達到更多曝光效益

Pandas進階筆記（一） Groupby 重難點總結

2020-05-142020-05-14 admin

如果Pandas只是能把一些數據變成 dataframe 這樣優美的格式，那麼Pandas絕不會成為叱吒風雲的數據分析中心組件。因為在數據分析過程中，描述數據是通過一些列的統計指標實現的，分析結果也需要由具體的分組行為，對各組橫向縱向對比。

GroupBy 就是這樣的一個有力武器。事實上，SQL語言在Pandas出現的幾十年前就成為了高級數據分析人員的標準工具，很大一部分原因正是因為它有標準的SELECT xx FROM xx WHERE condition GROUP BY xx HAVING condition 範式。

感謝 Wes Mckinney及其團隊，除了SQL之外，我們多了一個更靈活、適應性更強的工具，而非困在SQL Shell或Python里步履沉重。

【示例】將一段SQL語句用Pandas表達

SQL

SELECT Column1, Column2, mean(Column3), sum(Column4)
FROM SomeTable
WHERE Condition 1
GROUP BY Column1, Column2
HAVING Condition2

Pandas

df [Condition1].groupby([Column1, Column2], as_index=False).agg({Column3: “mean”, Column4: “sum”}).filter(Condition2)

Group By: split – apply – combine

GroupBy可以分解為三個步驟：

Splitting: 把數據按主鍵劃分為很多個小組
Applying: 對每個小組獨立地使用函數
Combining: 把所得到的結果組合

那麼，這一套行雲流水的動作是如何完成的呢？

Splitting 由 groupby 實現
Applying 由 agg、apply、transform、filter實現具體的操作
Combining 由 concat 等實現

其中，在apply這一步，通常由以下四類操作：

Aggregation:做一些統計性的計算
Apply：做一些數據轉換
Transformation:做一些數據處理方面的變換
Filtration:做一些組級別的過濾

注意，這裏討論的apply,agg,transform,filter方法都是限制在 pandas.core.groupby.DataFrameGroupBy裏面，不能跟 pandas.core.groupby.DataFrame混淆。

先導入需要用到的模塊

import numpy as np
import pandas as pd
import sys, traceback
from itertools import chain

Part 1: Groupby 詳解

df_0 = pd.DataFrame({'A': list(chain(*[['foo', 'bar']*4])),
                     'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
                     'C': np.random.randn(8),
                     'D': np.random.randn(8)})

df_0

	A	B	C	D
0	foo	one	1.145852	0.210586
1	bar	one	-1.343518	-2.064735
2	foo	two	0.544624	1.125505
3	bar	three	1.090288	-0.296160
4	foo	two	-1.854274	1.348597
5	bar	two	-0.246072	-0.598949
6	foo	one	0.348484	0.429300
7	bar	three	1.477379	0.917027

Talk 1：創建一個Groupby對象時應注意的問題

Good Practice

df_01 = df_0.copy()
df_01.groupby(["A", "B"], as_index=False, sort=False).agg({"C": "sum", "D": "mean"})

	A	B	C	D
0	foo	one	1.494336	0.319943
1	bar	one	-1.343518	-2.064735
2	foo	two	-1.309649	1.237051
3	bar	three	2.567667	0.310433
4	bar	two	-0.246072	-0.598949

Poor Practice

df_02 = df_0.copy()
df_02.groupby(["A", "B"]).agg({"C": "sum", "D": "mean"}).reset_index()

	A	B	C	D
0	bar	one	-1.343518	-2.064735
1	bar	three	2.567667	0.310433
2	bar	two	-0.246072	-0.598949
3	foo	one	1.494336	0.319943
4	foo	two	-1.309649	1.237051

直接使用 as_index=False 參數是一個好的習慣，因為如果dataframe非常巨大（比如達到GB以上規模）時，先生成一個Groupby對象，然後再調用reset_index()會有額外的時間消耗。
在任何涉及數據的操作中，排序都是非常”奢侈的”。如果只是單純的分組，不關心順序，在創建Groupby對象的時候應當關閉排序功能，因為這個功能默認是開啟的。尤其當你在較大的大數據集上作業時更當注意這個問題。
值得注意的是：groupby會按照數據在原始數據框內的順序安排它們在每個新組內的順序。這與是否指定排序無關。

如果要得到一個多層索引的數據框，使用默認的as_index=True即可，例如下面的例子：

df_03 = df_0.copy()
df_03.groupby(["A", "B"]).agg({"C": "sum", "D": "mean"})

		C	D
A	B
bar	one	-1.343518	-2.064735
	three	2.567667	0.310433
	two	-0.246072	-0.598949
foo	one	1.494336	0.319943
foo	two	-1.309649	1.237051

注意，as_index僅當做aggregation操作時有效，如果是其他操作，例如transform，指定這個參數是無效的

df_04 = df_0.copy()
df_04.groupby(["A", "B"], as_index=True).transform(lambda x: x * x)

	C	D
0	1.312976	0.044347
1	1.805040	4.263130
2	0.296616	1.266761
3	1.188727	0.087711
4	3.438331	1.818714
5	0.060552	0.358740
6	0.121441	0.184298
7	2.182650	0.840938

可以看到，我們得到了一個和df_0一樣長度的新dataframe，同時我們還希望A,B能成為索引，但這並沒有生效。

Talk 2：使用 `pd.Grouper`

pd.Grouper 比 groupby更強大、更靈活，它不僅支持普通的分組，還支持按照時間進行升採樣或降採樣分組

df_1 = pd.read_excel("dataset\sample-salesv3.xlsx")
df_1["date"] = pd.to_datetime(df_1["date"])

df_1.head()

	account number	name	sku	quantity	unit price	ext price	date
0	740150	Barton LLC	B1-20000	39	86.69	3380.91	2014-01-01 07:21:51
1	714466	Trantow-Barrows	S2-77896	-1	63.16	-63.16	2014-01-01 10:00:47
2	218895	Kulas Inc	B1-69924	23	90.70	2086.10	2014-01-01 13:24:58
3	307599	Kassulke, Ondricka and Metz	S1-65481	41	21.05	863.05	2014-01-01 15:05:22
4	412290	Jerde-Hilpert	S2-34077	6	83.21	499.26	2014-01-01 23:26:55

【例子】計算每個月的ext price總和

df_1.set_index("date").resample("M")["ext price"].sum()

date
2014-01-31    185361.66
2014-02-28    146211.62
2014-03-31    203921.38
2014-04-30    174574.11
2014-05-31    165418.55
2014-06-30    174089.33
2014-07-31    191662.11
2014-08-31    153778.59
2014-09-30    168443.17
2014-10-31    171495.32
2014-11-30    119961.22
2014-12-31    163867.26
Freq: M, Name: ext price, dtype: float64

df_1.groupby(pd.Grouper(key="date", freq="M"))["ext price"].sum()

date
2014-01-31    185361.66
2014-02-28    146211.62
2014-03-31    203921.38
2014-04-30    174574.11
2014-05-31    165418.55
2014-06-30    174089.33
2014-07-31    191662.11
2014-08-31    153778.59
2014-09-30    168443.17
2014-10-31    171495.32
2014-11-30    119961.22
2014-12-31    163867.26
Freq: M, Name: ext price, dtype: float64

兩種寫法都得到了相同的結果，並且看上去第二種寫法似乎有點兒難以理解。再看一個例子

【例子】計算每個客戶每個月的ext price總和

df_1.set_index("date").groupby("name")["ext price"].resample("M").sum().head(20)

name                             date      
Barton LLC                       2014-01-31     6177.57
                                 2014-02-28    12218.03
                                 2014-03-31     3513.53
                                 2014-04-30    11474.20
                                 2014-05-31    10220.17
                                 2014-06-30    10463.73
                                 2014-07-31     6750.48
                                 2014-08-31    17541.46
                                 2014-09-30    14053.61
                                 2014-10-31     9351.68
                                 2014-11-30     4901.14
                                 2014-12-31     2772.90
Cronin, Oberbrunner and Spencer  2014-01-31     1141.75
                                 2014-02-28    13976.26
                                 2014-03-31    11691.62
                                 2014-04-30     3685.44
                                 2014-05-31     6760.11
                                 2014-06-30     5379.67
                                 2014-07-31     6020.30
                                 2014-08-31     5399.58
Name: ext price, dtype: float64

df_1.groupby(["name", pd.Grouper(key="date",freq="M")])["ext price"].sum().head(20)

name                             date      
Barton LLC                       2014-01-31     6177.57
                                 2014-02-28    12218.03
                                 2014-03-31     3513.53
                                 2014-04-30    11474.20
                                 2014-05-31    10220.17
                                 2014-06-30    10463.73
                                 2014-07-31     6750.48
                                 2014-08-31    17541.46
                                 2014-09-30    14053.61
                                 2014-10-31     9351.68
                                 2014-11-30     4901.14
                                 2014-12-31     2772.90
Cronin, Oberbrunner and Spencer  2014-01-31     1141.75
                                 2014-02-28    13976.26
                                 2014-03-31    11691.62
                                 2014-04-30     3685.44
                                 2014-05-31     6760.11
                                 2014-06-30     5379.67
                                 2014-07-31     6020.30
                                 2014-08-31     5399.58
Name: ext price, dtype: float64

這次，第二種寫法遠比第一種寫法清爽、便於理解。這種按照特定字段和時間採樣的混合分組，請優先考慮用pd.Grouper

Talk 3: 如何訪問組

如果只是做完拆分動作，沒有做後續的apply，得到的是一個groupby對象。這裏討論下如何訪問拆分出來的組
主要方法為：

groups
get_group
迭代遍歷

df_2 = pd.DataFrame({'X': ['A', 'B', 'A', 'B'], 'Y': [1, 4, 3, 2]})
df_2

	X	Y
0	A	1
1	B	4
2	A	3
3	B	2

使用 groups方法可以看到所有的組

df_2.groupby("X").groups

{'A': Int64Index([0, 2], dtype='int64'),
 'B': Int64Index([1, 3], dtype='int64')}

使用get_group方法可以訪問到指定的組

df_2.groupby("X", as_index=True).get_group(name="A")

	X	Y
0	A	1
2	A	3

注意，get_group方法中，name參數只能傳遞單個str，不可以傳入list，儘管Pandas中的其他地方常常能看到這類傳參。如果是多列做主鍵的拆分，可以傳入tuple。

迭代遍歷

for name, group in df_2.groupby("X"):
    print(name)
    print(group,"\n")

這裏介紹一個小技巧，如果你得到一個<pandas.core.groupby.groupby.DataFrameGroupBy object對象，想要將它還原成其原本的 dataframe ，有一個非常簡便的方法值得一提:

gropbyed_object.apply(lambda x: x)

囿於篇幅，就不對API逐個解釋了，這裏僅指出最容易忽視也最容易出錯的三個參數

參數	注意事項
level	僅作用於層次化索引的數據框時有效
as_index	僅對數據框做 `agg` 操作時有效，
group_keys	僅在調用 `apply` 時有效

Part 2: Apply 階段詳解

拆分完成后，可以對各個組做一些的操作，總體說來可以分為以下四類：

aggregation
apply
transform
filter

先總括地對比下這四類操作

任何能將一個Series壓縮成一個標量值的都是agg操作，例如求和、求均值、求極值等統計計算
對數據框或者groupby對象做變換，得到子集或一個新的數據框的操作是apply或transform
對聚合結果按標準過濾的操作是filter

apply 和 transform有那麼一點相似，下文會重點剖析二者

Talk 4：agg VS apply

agg和apply都可以對特定列的數據傳入函數，並且依照函數進行計算。但是區別在於，agg更加靈活高效，可以一次完成操作。而apply需要輾轉多次才能完成相同操作。

df_3 = pd.DataFrame({"name":["Foo", "Bar", "Foo", "Bar"], "score":[80,80,95,70]})
df_3

	name	score
0	Foo	80
1	Bar	80
2	Foo	95
3	Bar	70

我們需要計算出每個人的總分、最高分、最低分

（1）使用apply方法

df_3.groupby("name", sort=False).score.apply(lambda x: x.sum())

name
Foo    175
Bar    150
Name: score, dtype: int64

df_3.groupby("name", sort=False).score.apply(lambda x: x.max())

name
Foo    95
Bar    80
Name: score, dtype: int64

df_3.groupby("name", sort=False).score.apply(lambda x: x.min())

name
Foo    80
Bar    70
Name: score, dtype: int64

顯然，我們輾轉操作了3次，並且還需要額外一次操作（將所得到的三個值粘合起來）

（2）使用agg方法

df_3.groupby("name", sort=False).agg({"score": [np.sum, np.max, np.min]})

	score
	sum	amax	amin
name
Foo	175	95	80
Bar	150	80	70

小結 agg一次可以對多個列獨立地調用不同的函數，而apply一次只能對多個列調用相同的一個函數。

Talk 5：transform VS agg

transform作用於數據框自身，並且返回變換后的值。返回的對象和原對象擁有相同數目的行，但可以擴展列。注意返回的對象不是就地修改了原對象，而是創建了一個新對象。也就是說原對象沒變。

df_4 = pd.DataFrame({'A': range(3), 'B': range(1, 4)})
df_4

	A	B
0	0	1
1	1	2
2	2	3

df_4.transform(lambda x: x + 1)

	A	B
0	1	2
1	2	3
2	3	4

可以對數據框先分組，然後對各組賦予一個變換，例如元素自增1。下面這個例子意義不大，可以直接做變換。

df_2.groupby("X").transform(lambda x: x + 1)

	Y
0	2
1	5
2	4
3	3

下面舉一個更實際的例子

df_5 = pd.read_csv(r"dataset\tips.csv")
df_5.head()

	total_bill	tip	sex	smoker	day	time	size
0	16.99	1.01	Female	No	Sun	Dinner	2
1	10.34	1.66	Male	No	Sun	Dinner	3
2	21.01	3.50	Male	No	Sun	Dinner	3
3	23.68	3.31	Male	No	Sun	Dinner	2
4	24.59	3.61	Female	No	Sun	Dinner	4

現在我們想知道每天，各數值列的均值
對比以下 agg 和 transform 兩種操作

df_5.groupby("day").aggregate("mean")

	total_bill	tip	size
day
Fri	17.151579	2.734737	2.105263
Sat	20.441379	2.993103	2.517241
Sun	21.410000	3.255132	2.842105
Thur	17.682742	2.771452	2.451613

df_5.groupby('day').transform(lambda x : x.mean()).total_bill.unique()

array([21.41      , 20.44137931, 17.68274194, 17.15157895])

觀察得知，兩種操作是相同的，都是對各個小組求均值。所不同的是，agg方法僅返回4行（即壓縮后的統計值），而transform返回一個和原數據框同樣長度的新數據框。

Talk 6：transform VS apply

transform 和 apply 的不同主要體現在兩方面：

apply 對於每個組，都是同時在所有列上面調用函數；而 transform 是對每個組，依次在每一列上調用函數
由上面的工作方法決定了：apply 可以返回標量、Series、dataframe——取決於你在什麼上面調用了apply 方法；而 transform 只能返回一個類似於數組的序列，例如一維的 Series、array、list，並且最重要的是，要和原始組有同樣的長度，否則會引發錯誤。

【例子】通過打印對象的類型來對比兩種方法的工作對象

df_6 = pd.DataFrame({'State':['Texas', 'Texas', 'Florida', 'Florida'], 
                   'a':[4,5,1,3], 'b':[6,10,3,11]})
df_6

	State	a	b
0	Texas	4	6
1	Texas	5	10
2	Florida	1	3
3	Florida	3	11

def inspect(x):
    print(type(x))
    print(x)

df_6.groupby("State").apply(inspect)

<class 'pandas.core.frame.DataFrame'>
     State  a   b
2  Florida  1   3
3  Florida  3  11
<class 'pandas.core.frame.DataFrame'>
     State  a   b
2  Florida  1   3
3  Florida  3  11
<class 'pandas.core.frame.DataFrame'>
   State  a   b
0  Texas  4   6
1  Texas  5  10

從打印結果我們清晰地看到兩點：apply 每次作用的對象是一個 dataframe，其次第一個組被計算了兩次，這是因為pandas會通過這種機制來對比是否有更快的方式完成後面剩下組的計算。

df_6.groupby("State").transform(inspect)

<class 'pandas.core.series.Series'>
2    1
3    3
Name: a, dtype: int64
<class 'pandas.core.series.Series'>
2     3
3    11
Name: b, dtype: int64
<class 'pandas.core.frame.DataFrame'>
   a   b
2  1   3
3  3  11
<class 'pandas.core.series.Series'>
0    4
1    5
Name: a, dtype: int64
<class 'pandas.core.series.Series'>
0     6
1    10
Name: b, dtype: int64

從打印結果我們也清晰地看到兩點：transform每次只計算一列；會出現計算了一個組整體的情況，這有點令人費解，待研究。

從上面的對比，我們直接得到了一個有用的警示：不要傳一個同時涉及到多列的函數給transform方法，因為那麼做只會得到錯誤。例如下面的代碼所示：

def subtract(x):
    return x["a"] - x["b"]

try:
    df_6.groupby("State").transform(subtract)
except Exception:
    exc_type, exc_value, exc_traceback = sys.exc_info()
    formatted_lines = traceback.format_exc().splitlines()
    print(formatted_lines[-1])

KeyError: ('a', 'occurred at index a')

另一個警示則是：在使用 transform 方法的時候，不要去試圖修改返回結果的長度，那樣不僅會引發錯誤，而且traceback的信息非常隱晦，很可能你需要花很長時間才能真正意識到錯誤所在。

def return_more(x):
    return  np.arange(3)

try:
    df_6.groupby("State").transform(return_more)
except Exception:
    exc_type, exc_value, exc_traceback = sys.exc_info()
    formatted_lines = traceback.format_exc().splitlines()
    print(formatted_lines[-1])

ValueError: Length mismatch: Expected axis has 6 elements, new values have 4 elements

這個報錯信息有點彆扭，期待返回6個元素，但是返回的結果只有4個元素；其實，應該說預期的返回為4個元素，但是現在卻返回6個元素，這樣比較容易理解錯誤所在。

最後，讓我們以一條有用的經驗結束這個talk：如果你確信自己想要的操作時同時作用於多列，並且速度最好還很快，請不要用transform方法，Talk9有一個這方面的好例子。

Talk 7：agg 用法總結

（1）一次對所有列調用多個函數

df_0.groupby("A").agg([np.sum, np.mean, np.min])

	C			D
	sum	mean	amin	sum	mean	amin
A
bar	0.978077	0.244519	-1.343518	-2.042817	-0.510704	-2.064735
foo	0.184686	0.046172	-1.854274	3.113988	0.778497	0.210586

（2）一次對特定列調用多個函數

df_0.groupby("A")["C"].agg([np.sum, np.mean, np.min])

	sum	mean	amin
A
bar	0.978077	0.244519	-1.343518
foo	0.184686	0.046172	-1.854274

（3）對不同列調用不同函數

df_0.groupby("A").agg({"C": [np.sum, np.mean], "D": [np.max, np.min]})

	C		D
	sum	mean	amax	amin
A
bar	0.978077	0.244519	0.917027	-2.064735
foo	0.184686	0.046172	1.348597	0.210586

df_0.groupby("A").agg({"C": "sum", "D": "min"})

	C	D
A
bar	0.978077	-2.064735
foo	0.184686	0.210586

（4）對同一列調用不同函數，並且直接重命名

df_0.groupby("A")["C"].agg([("Largest", "max"), ("Smallest", "min")])

	Largest	Smallest
A
bar	1.477379	-1.343518
foo	1.145852	-1.854274

（5）對多個列調用同一個函數

agg_keys = {}.fromkeys(["C", "D"], "sum")
df_0.groupby("A").agg(agg_keys)

	C	D
A
bar	0.978077	-2.042817
foo	0.184686	3.113988

（6）注意agg會忽略缺失值，這在計數時需要加以注意

df_7 = pd.DataFrame({"ID":["A","A","A","B","B"], "Num": [1,np.nan, 1,1,1]})
df_7

	ID	Num
0	A	1.0
1	A	NaN
2	A	1.0
3	B	1.0
4	B	1.0

df_7.groupby("ID").agg({"Num":"count"})

	Num
ID
A	2
B	2

注意：Pandas 中的 count,sum,mean,median,std,var,min,max等函數都用C語言優化過。所以，還是那句話，如果你在大數據集上使用agg，最好使用這些函數而非從numpy那裡借用np.sum等方法，一個緩慢的程序是由每一步的緩慢積累而成的。

Talk 8：Filtration 易錯點剖析

通常，在對一個 dataframe 分組並且完成既定的操作之後，可以直接返回結果，也可以視需求對結果作一層過濾。這個過濾一般都是指 filter 操作，但是務必要理解清楚自己到底需要對組作過濾還是對組內的每一行作過濾。這個Talk就來討論過濾這個話題。

【例子】找出每門課程考試分數低於這門課程平均分的學生

df_8 = pd.DataFrame({"Subject": list(chain(*[["Math"]*3,["Computer"]*3])),
                    "Student": list(chain(*[["Chan", "Ida", "Ada"]*2])),
                    "Score": [80,90,85,90,85,95]})

df_8

	Subject	Student	Score
0	Math	Chan	80
1	Math	Ida	90
2	Math	Ada	85
3	Computer	Chan	90
4	Computer	Ida	85
5	Computer	Ada	95

這樣一個需求是否適合用 filter 來處理呢？我們試試看：

try:
    df_8.groupby("Subject").filter(lambda x: x["Score"] < x["Score"].mean())
except Exception:
    exc_type, exc_value, exc_traceback = sys.exc_info()
    formatted_lines = traceback.format_exc().splitlines()
    print(formatted_lines[-1])

TypeError: filter function returned a Series, but expected a scalar bool

顯然不行，因為 filter 實際上做的事情是要麼留下這個組，要麼過濾掉這個組。我們在這裏弄混淆的東西，和我們初學 SQL時弄混 WHERE 和 HAVING 是一回事。就像需要記住 HAVING 是一個組內語法一樣，請記住 filter 是一個組內方法。

我們先解決這個例子，正確的做法如下:

df_8.groupby("Subject").apply(lambda g: g[g.Score < g.Score.mean()])

		Subject	Student	Score
Subject
Computer	4	Computer	Ida	85
Math	0	Math	Chan	80

而關於 filter，我們援引官方文檔上的例子作為對比

df_9 = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar',
                          'foo', 'bar'],
                    'B' : [1, 2, 3, 4, 5, 6],
                    'C' : [2.0, 5., 8., 1., 2., 9.]})
df_9

	A	B	C
0	foo	1	2.0
1	bar	2	5.0
2	foo	3	8.0
3	bar	4	1.0
4	foo	5	2.0
5	bar	6	9.0

df_9.groupby('A').filter(lambda x: x['B'].mean() > 3.)

	A	B	C
1	bar	2	5.0
3	bar	4	1.0
5	bar	6	9.0

Part 3：groupby 應用舉例

Talk 9：組內缺失值填充

df_10 = pd.DataFrame({"ID":["A","A","A","B","B","B"], "Num": [100,np.nan,300,np.nan,500,600]})
df_10

	ID	Num
0	A	100.0
1	A	NaN
2	A	300.0
3	B	NaN
4	B	500.0
5	B	600.0

df_10.groupby("ID", as_index=False).Num.transform(lambda x: x.fillna(method="ffill")).transform(lambda x: x.fillna(method="bfill"))

	Num
0	100.0
1	100.0
2	300.0
3	500.0
4	500.0
5	600.0

如果dataframe比較大（超過1GB）,transform + lambda方法會比較慢，可以用下面這個方法，速度約比上面的組合快100倍。

df_10.groupby("ID",as_index=False).ffill().groupby("ID",as_index=False).bfill()

	ID	Num
0	A	100.0
1	A	100.0
2	A	300.0
3	B	500.0
4	B	500.0
5	B	600.0

參考資料：

本站聲明:網站內容來源於博客園,如有侵權,請聯繫我們,我們將及時處理
【其他文章推薦】

※帶您來了解什麼是 USB CONNECTOR ?

※自行創業缺乏曝光? 下一步"網站設計"幫您第一時間規劃公司的門面形象

※如何讓商品強力曝光呢? 網頁設計公司幫您建置最吸引人的網站，提高曝光率!!

※綠能、環保無空污,成為電動車最新代名詞，目前市場使用率逐漸普及化

※廣告預算用在刀口上，網站設計公司幫您達到更多曝光效益

美生物學家夫婦深入拉美記錄野生動物

2020-05-132020-05-13 admin

摘錄自2020年1月25日公視報導

氣候變遷讓全世界許多珍貴的物種面臨可能消失的危機，有一對美國的生物學家夫婦在哥斯大黎加執行拍攝動物的計畫，希望能將這些影像分享給世人。

八年前，來自美國賓州的生物學家洛沙索以及太太琳熙，搬到哥斯大黎加西北部的瓜拿卡斯特省，去年底，他們成立瓜拿卡斯特監控計畫，在當地超過40個森林裡架設隱藏式攝影機，收錄超過100個不同的野生動物物種、約1萬個錄影的片段。這些鏡頭防水防震，還有動態捕捉以及夜間攝影功能。他們希望將這些拍攝到的珍貴畫面，分享給在地的孩子。

根據世界自然基金會的報告，哥斯大黎加面積不到全世界的1%，但其生物多樣性卻佔全球的5%，而這其中有超過25%，是國家指定為特別保護的森林及保育區。

本站聲明:網站內容來源環境資訊中心https://e-info.org.tw/,如有侵權,請聯繫我們,我們將及時處理

【其他文章推薦】

※帶您來了解什麼是 USB CONNECTOR ?

※自行創業缺乏曝光? 下一步"網站設計"幫您第一時間規劃公司的門面形象

※如何讓商品強力曝光呢? 網頁設計公司幫您建置最吸引人的網站，提高曝光率!!

※綠能、環保無空污,成為電動車最新代名詞，目前市場使用率逐漸普及化

※廣告預算用在刀口上，網站設計公司幫您達到更多曝光效益

從演奏家的新年大膽願望一窺日本都市蜂害問題

2020-05-082020-05-12 admin

文：宋瑞文

本站聲明:網站內容來源環境資訊中心https://e-info.org.tw/,如有侵權,請聯繫我們,我們將及時處理

【其他文章推薦】

※帶您來了解什麼是 USB CONNECTOR ?

※自行創業缺乏曝光? 下一步"網站設計"幫您第一時間規劃公司的門面形象

※如何讓商品強力曝光呢? 網頁設計公司幫您建置最吸引人的網站，提高曝光率!!

※綠能、環保無空污,成為電動車最新代名詞，目前市場使用率逐漸普及化

※廣告預算用在刀口上，網站設計公司幫您達到更多曝光效益

原來JS是這樣的 – 原型鏈

2020-05-072020-05-07 admin

提到屬性描述符 [[Get]] 和 [[Put]] 以及提到了訪問描述符 [[Prototype]]，看它們的特性就會很容易的讓人想到經典的面向對象風格體系中對類操作要做的事情，但帶一些 introspector 的味道。回想到之前所寫來自用的辣雞應用中所附帶了一個簡易的類似 jQuery 的簡易常用功能實現，就用到了簡單的 [[Prototype]] 特性。但我們前幾篇都沒有詳細的提及 js 的原型鏈相關的內容，本篇就將討論 js 的 [[Prototype]] 屬性和相關的內容。

注：ES6 的 Proxy 和 class 的概念不在本篇討論範圍內。

`[[Prototype]]`

JavaScript 中的特殊對象屬性除了 [[Get]] 和 [[Put]] 外，還有一個很重要的特殊內置屬性就是 [[Prototype]] 了。

[[Prototype]] 是一個幾乎所有對象在創建時都會被賦予一個非空值的屬性，還記得在之前提到 new 操作符的行為嗎？其中的行為之一就是把其 [[Prototype]] 關聯指向到對應的內置對象上。通常 [[Prototype]] 所指向的即為創建此對象時所使用的對象了。

來看下面一個例子

var macat = { a: 1 };

var codingcat = macat; // 和 macat 指向的內容相同
codingcat.b = 2;
console.log(macat.b); // 2

var pineapple = Object.create( macat ); // 新對象，但其 [[Prototype]] 鏈向 macat
pineapple.c = 3; // 新對象的屬性
console.log(macat.c); // undefined
codingcat.d = 4;
console.log(pineapple.d) // 4;

上例中，變量 codingcat 顯然是指向和 macat 相同的內容，實質完全一致，而 pineapple 則是通過創建的變量。顯然 pineapple 和 macat 是不同的兩個對象。不過我們會發現我們依然可以通過 pineapple.d 訪問 macat.d 的值，這就是因為在 Object.create() 中，會把 pineapple 的 [[Prototype]] 指向我們的原型對象 macat 了。

那 [[Prototype]] 引用的作用是什麼呢？看上去這是一個確定這種像 fallback 一樣的取值操作應該 fallback 到誰的屬性標記，而準確的說，這種 pineapple.d 形式的屬性引用會觸發 [[Get]] 操作（上篇的內容），而默認的 [[Get]] 則會在對象本身沒有此屬性時會去查找 [[Prototype]] 引用的變量了。這樣的引用成為了鏈狀，故被稱作原型鏈。

當然，這個行為其實我們已經“用過”很多次了，比如 .toString()、 .valueOf()、hasOwnProperty()，我們 Object.create() 等形式構建的新對象顯然並沒有附帶一份這些函數的副本，而是因為普通的 [[Prototype]] 鏈最終都會指向內置的 Object.prototype，而它提供了這些功能。

屬性設置和屏蔽

不過上例中有個有趣的坑，我們考慮在上例的基礎上做如下操作：

...
pineapple.a++; // 交互式終端會輸出 1
console.log(pineapple.a); // 2
console.log(macat.a); // 1

pineapple.a++ 看上去是進行了變量自增的操作，但這一行后，我們發現 pineapple.a 不再等於 macat.a 了，這是因為實際上 pineapple.a 本來並不存在，但可以通過原型鏈找到 macat.a，而 pineapple.a++ （相當於 pineapple.a = pineapple.a + 1）最終進行的賦值操作創建了 pineapple.a ，故最終這兩個變量的值自然不再相等。

這個例子來看，如果本身即通過對 pineapple 的屬性（a）進行訪問操作，那麼不同情況下訪問得到的結果可能是不同的甚至是出人意料的。無意中創建的屬性“阻止”了原型鏈上查找這個屬性的行為，我們稱之為屬性屏蔽。

屬性屏蔽根據變量本身情況的不同會有很多不同的狀態表現，例如原型鏈上層變量的數據訪問屬性標記為只讀的情況，（如果不是嚴格模式下）嘗試進行的賦值操作會被忽略等。

類（迫真）

我們早已知道 JavaScript 中不存在“類”的概念，而為了能夠“寫着爽”，很多開發者都在想盡辦法在 JavaScript 中模仿其它 OO 語言中“類”的行為。其中很常見的做法類似下面這樣：

function Person(name) {
    console.log("I'm " + name + "!");
    this.name = name;
}

Person.prototype.getName = function() {
    return this.name;
}

var chris = new Person("Chris"); // I'm Chris
var sophie = new Person("Sophie"); // I'm Sophie
chris.getName(); // "Chris"

看上去我們的 Person 像極了一個包含 name 成員變量和 getName() 方法的類，並且在其“構造函數”中會輸出 “I’m xxx”。不過在之前的文章中我們已經講過了，並不存在所謂的構造函數，new 只是把 Person() 函數作為構造對象所需調用的函數進行了一次調用而已。不過你可能還會比較奇怪為什麼 .getName() 是可以使用的，既然我們在原型鏈這一章提起這件事，顯然是因為原型鏈，於是回顧之前第二章我們含糊提到的一句話是（之一是）“對這個新對象執行 [[Prototype]] 鏈接”，實際上，這裏我們被 new 出來的對象的 [[Prototype]] 被關聯到了 Person.prototype 上，於是當我們嘗試進行屬性訪問的時候，自然就可以訪問到 Person.prototype.getName() 上了。

不過這個過程還是可能會引起一些蛋疼的誤會，比如假設我們在上面例子的基礎上：

...
sophie.constructor === Person; // true
sophie.constructor === Person.prototype.constructor; // true
Person.prototype = {};
var koishi = new Person("Koishi");  // I'm Koishi
koishi.constructor === Person; // false
koishi.constructor === Object; // true
sophie.constructor === Person; // true
sophie.constructor === Person.prototype.constructor; // false

由於“構造函數”這種表現形式的理解，我們有時候會認為 變量名.constructor 實際就總是構造調用時指向的函數，甚至 sophie.constructor === Person 返回也是 true ，但實際並不是這樣，這裏返回為真，僅僅是因為 Person.prototype.constructor 默認指向的就是 Person 罷了。於是我們嘗試替換 Person.prototype 之後創建了變量 koishi，再檢查 koishi.constructor === Person 就不再為真了，在原型鏈的查找過程最終找到了 Object.prototype，然後 Object.prototype.constructor 其實指向了 Object。

不過，後面我們接着嘗試檢查了 sophie.constructor 卻發現似乎它並未受到影響，這個就不要往原型鏈方面想了，這裏的原因僅僅是 sophie 的原型鏈指向的是曾經 Person.prototype 所指向的東西上，而我們 Person.prototype = {} 的操作只是讓 Person.prototype 指向了新的東西，舊的東西並沒有改變，所以 sophie 自然看上去“沒有受到影響”了。當然，koishi 這個變量被構造時所被調用的函數仍然是 Person()，這和 koishi.constructor 或者 Person.prototype.constructor 的指向沒有什麼關係。

對象實例關係

當然我們還有一點需要重新強調的是，[[Prototype]] 和 .prototype 不是一回事，[[Prototype]] 是描述對象實例關係的屬性描述符，而 .prototype 只是 Function 對象的一個屬性而已。new 操作符會把新建的對象的 [[Prototype]] 指向原對象的 .prototype 屬性上，僅此而已。

既然 [[Prototype]] 實際描述了對象之間的實例關係，那麼我們自然就可以想到 instanceof 的實際作用了，其所做的事情就是告訴你在 a instanceof Foo 中， a 的整個原型鏈中是否有指向 Foo.prototype 的對象。

絕大多數瀏覽器支持一個 .__proto__ 屬性（實際位於 Object.__proto__）指向了 [[Prototype]] ，這對於我們調試時希望直接訪問內部的 [[Prototype]] 提供了便利，不過它並不是標準，所以除了調試便利之外還是不要使用它比較好。

最後

於是關於原型鏈相關的簡單討論就到此結束了。和上篇一樣，如果你對這些內容仍然感興趣，不妨去讀一讀《You don’t know JS – this & object prototypes》一書。這是一本開源書，你可以在這裡在線閱讀這本書，或者購買這本書的电子版或實體版。這本書的中文譯本涵蓋在《你所不知道的 JavaScript 上卷》中，你也可以考慮看中文版。

由於近期工作過於繁忙的精力佔用緣故，“原來JS是這樣的”系列可能就暫時告一段落了。最後，儘管我會盡可能仔細的檢查文章內容是否有問題，但也不保證這篇文章中一定不會有錯誤，如果您發現文章哪裡有問題，請在下面留言指正，或通過任何你找得到的方式聯繫我指正。感激不盡～

本站聲明:網站內容來源於博客園,如有侵權,請聯繫我們,我們將及時處理
【其他文章推薦】

※帶您來了解什麼是 USB CONNECTOR ?

※自行創業缺乏曝光? 下一步"網站設計"幫您第一時間規劃公司的門面形象

※如何讓商品強力曝光呢? 網頁設計公司幫您建置最吸引人的網站，提高曝光率!!

※綠能、環保無空污,成為電動車最新代名詞，目前市場使用率逐漸普及化

※廣告預算用在刀口上，網站設計公司幫您達到更多曝光效益

Magicodes.Pay，打造開箱即用的統一支付庫，已提供ABP模塊封裝

簡介

Nuget

新的包

已棄用的包，不再更新

主要功能

開始使用

非ABP集成

官方訂閱號

官方博客/文檔站

其他開源庫地址

信息論

1.信息熵

決策樹屬性劃分算法

1.ID3

(1)思想

(2)劃分標準(詳細過程以及公式推導見西瓜書即可)

(3)缺點

2. C4.5

2.1 思想

2.2 劃分標準

2.3 剪枝策略(預剪枝+后剪枝)

2.3.1 預剪枝

2.3.2 后剪枝(C4.5採用的是基於后剪枝的悲觀剪枝方法)

2.4 缺點

3. CRAT

3.1 思想

3.2 劃分標準(Cart分類樹、Cart回歸樹)

3.3 剪枝策略(簡略版本，具體推導見李航 統計學習方法)

3.4類別不平衡

4.總結

【示例】將一段SQL語句用Pandas表達

SQL

Pandas

Group By: split – apply – combine

Part 1: Groupby 詳解

Talk 1：創建一個Groupby對象時應注意的問題

Good Practice

Poor Practice

Talk 2：使用 pd.Grouper

Talk 3: 如何訪問組

Part 2: Apply 階段詳解

Talk 4：agg VS apply

Talk 5：transform VS agg

Talk 6：transform VS apply

Talk 7：agg 用法總結

Talk 8：Filtration 易錯點剖析

Part 3：groupby 應用舉例

Talk 9：組內缺失值填充

[[Prototype]]

屬性設置和屏蔽

類 （迫真）

對象實例關係

最後

3.3 剪枝策略(簡略版本，具體推導見李航統計學習方法)

Talk 2：使用 `pd.Grouper`

`[[Prototype]]`

類（迫真）