海關“龍騰行動2019”扣留侵權嫌疑貨物超1700萬件_台中搬家

台中搬家公司費用怎麼算?

擁有20年純熟搬遷經驗,提供免費估價且流程透明更是5星評價的搬家公司

新華社北京1月25日電(記者劉紅霞)記者近日從海關總署獲悉,以打擊侵權假冒為主題的海關“龍騰行動2019”專項行動戰果豐碩,共扣留侵權嫌疑貨物4.5萬批,涉及貨物1745萬件,價值1.07億元。

據了解,本次專項行動為期6個月,持續至2019年年底。專項行動期間,全國海關查獲涉及我國自主品牌侵權嫌疑貨物356批,扣留侵權貨物627.1萬件,價值3019.78萬元;對外資品牌實施保護措施8617次,查獲侵犯外資品牌貨物4.23萬批,涉及貨物1032.57萬件,價值6239.38萬元。

以廣州海關為例,專項行動期間,廣州海關共查扣侵權嫌疑貨物1941批次、264.1萬件,129家知識產權權利人的406項知識產權得到保護。

台中搬家遵守搬運三大原則,讓您的家具不再被破壞!

台中搬家公司推薦超過30年經驗,首選台中大展搬家

廣州海關綜合業務處處長唐慶林說,專項行動主要聚焦消費电子類產品、汽車配件、個人護理用品、服裝、箱包、鞋靴等涉及公眾健康安全的商品,加大了對重點國家和地區的貨物監管力度。

據介紹,全國海關充分依託“金關二期郵遞物品信息化管理系統”“智能審圖系統”“快件輔助申報平台”等科技手段,開展多角度立體分析和“精準畫像”,並加強區域協作,有效控制侵權商品口岸漂移態勢。

“專項行動期間,全國海關共開展各層級關際合作200餘次,區域聯動、跨區作戰體系初步形成,侵權商品口岸漂移態勢得到有效控制。”海關方面有關負責人說。

區域協作加強的同時,我國海關在打擊侵權假冒方面也在不斷加強國際合作,與歐盟、日本、俄羅斯等國家和地區海關的案件信息通報更加密切。

本站聲明:網站內容來http://www.societynews.cn/html/wh/fq/,如有侵權,請聯繫我們,我們將及時處理

台中搬家遵守搬運三大原則,讓您的家具不再被破壞!

台中搬家公司推薦超過30年經驗,首選台中大展搬家

外媒票選 2020 年最討人厭手機設計,湊數用鏡頭勇奪第一_台中搬家

台中搬家遵守搬運三大原則,讓您的家具不再被破壞!

台中搬家公司推薦超過30年經驗,首選台中大展搬家

2021 年的開始也是 2020 年的結束,過去一年的智慧型手機上出現眾多讓人驚豔的設計,也有許多讓消費者覺得無言的設計,從中當然也看到許多新趨勢的崛起,其中當然也有大家其實並不想看見的設計。國外媒體發起了一項開放式票選,最不受消費者青睞的前三名在 2021 年應該會有越來越多手機具備。

外媒票選 2020 年最討人厭手機設計,湊數用鏡頭勇奪第一

在 GSMArena 票選結果公布後,無用的相機模組成為現在智慧型手機中最受讀者討厭的設計。各家廠商比拚鏡頭數量的潮流其實並不是在 2020 年才開始有,但是像 ToF、語焉不詳的 AI 感測器,甚至微距鏡頭等,其實對一般消費者來說很少會用到,而且也不會讓手機看起來更好或有加分作用,這似乎與當初原廠手機設計的初衷有所出入。

最討人厭的第二名則是省略了幾乎所有隨機附贈的配件。Apple 一直是各家手機業者的風向球,在今年推出 iPhone 12 系列時,Apple 將包裝盒內的配件最少化,這點也勢必會引起各家業者的效仿,目前第一個跟隨者就是甫發表的小米 11,雖說它還提供了包含充電設備的加量不加價套裝,但在 2021 年應該會有更多廠商跟進。

而從網友發表的評論意見中,瀏海與打洞螢幕依然不是太討喜的設計,只是螢幕下前鏡頭的普及還有很長一段時間。且還有許多人對小型手機趕到不滿意,除了小型經濟實惠的機型,小型旗艦也不受寵。相比於小尺寸手機來說,更惱人的就是因為手機體型變小而跟著縮小的電池,在手機廠商陷入了快充速度競爭中,雖說 100W 充電能夠成為媒體競相報導的頭條,但對大多數用戶來說,更希望有不需要經常充電的手機。

台中搬家公司費用怎麼算?

擁有20年純熟搬遷經驗,提供免費估價且流程透明更是5星評價的搬家公司

上面這些不被喜歡的設計卻很有可能是 2021 年變成常態,下面與大家分享一下整體的投票結果,對你來說最不喜歡的設計會是什麼呢?

◎資料來源:GSMArena

您也許會喜歡:

【推爆】終身$0月租 打電話只要1元/分

立達合法徵信社-讓您安心的選擇

台中搬家公司費用怎麼算?

擁有20年純熟搬遷經驗,提供免費估價且流程透明更是5星評價的搬家公司

沒有ABS沒有安全氣囊?你敢買這些國產車那是不要命!_台中搬家

台中搬家公司費用怎麼算?

擁有20年純熟搬遷經驗,提供免費估價且流程透明更是5星評價的搬家公司

不過在安全配置確實寒磣的,最低配沒有安全氣囊、ABS防抱死系統,低配則只有一個安全氣囊,為了安全着想,建議大家選擇4。68萬起的手動時尚版或者更高版本。3吉利-自由艦吉利自由艦以及是一輛家喻戶曉的車型了,甚至不少人的上一輛汽車是自由艦。

前言

ABS防抱死系統,相信大家都知道這是一個非常重要的裝置,它可以在我們緊急剎車時還保留着一定的轉向能力以躲避危險。所以國家已經有着法規將其作為強制安裝的裝置,不過在某些車型上,依然為了成本以及售價不提供ABS防抱死系統,倘若在不知情的情況購買了這些車型,生命安全就處於沒有保障的地步。

說到哪一款5萬以下的汽車最受年輕人歡迎的話,比亞迪F0肯定榜上有名,它憑着低廉的價格、比較時尚的外形以及不俗的改裝潛力、低保養維修成本,使得不少在校大學生或者剛剛走進社會的年輕人選擇這款小車。但是在安全配置上因為成本的原因,低得令人髮指,中低配下都是沒有安全氣囊以及ABS防抱死系統,加上165/60 R14的低規格輪胎,

台中搬家遵守搬運三大原則,讓您的家具不再被破壞!

台中搬家公司推薦超過30年經驗,首選台中大展搬家

使得它駕駛時的穩定性以及安全性受到深大的質疑。

寶駿310是最近上市的新車,在上市之初就憑着“用一部iphone的價格給首付”去吸引年輕人,3.68-4.98萬的官方指導價加上免息,使得很多年輕人都願意去買這款同價位中顏值最高、同級別中最為優秀的小型車,而且它使用了电子轉向助力系統,在手感上要明顯好於競爭對手。不過在安全配置確實寒磣的,最低配沒有安全氣囊、ABS防抱死系統,低配則只有一個安全氣囊,為了安全着想,建議大家選擇4.68萬起的手動時尚版或者更高版本。

吉利自由艦以及是一輛家喻戶曉的車型了,甚至不少人的上一輛汽車是自由艦。它是吉利沉積豐田夏利平台的產物,在整車質量是相當的可靠,1.3L發動機雖然動力一般,但卻有着維修保養費用低廉的優點。不過在安全配置上就有點說不過去了,低配上竟然沒有配備安全氣囊,甚至連ABS防抱死系統,雖說價格僅僅是3.89萬但我們依然是不建議購買,建議選擇僅僅高3000元的高配,與此相比多了安全氣囊以及ABS防抱死系統。本站聲明:網站內容來源於http://www.auto6s.com/,如有侵權,請聯繫我們,我們將及時處理

台中搬家公司費用怎麼算?

擁有20年純熟搬遷經驗,提供免費估價且流程透明更是5星評價的搬家公司

itext7史上最全實戰總結_台中搬家

台中搬家公司費用怎麼算?

擁有20年純熟搬遷經驗,提供免費估價且流程透明更是5星評價的搬家公司

1. itext7史上最全實戰總結

1.1. 前言

最近有個需求需要我用Java手動寫一份PDF報告,經過考察幾種pdf開源代碼,最終選取了itext7,此版本為7.1.11,由於發現網上關於該工具的博文比較少,特別是實戰博文幾乎沒有,在我踩完各種坑,最終把PDF成型后,打算把經驗分享出來,本文通過摘錄解釋來說明,內容來自本人GitHub itext-pdf

1.2. 配置文件

項目採用了Spring Cloud config所以配置在git上,僅僅研究itext7不需要用到數據庫等功能,請直接運行PdfMain類的main方法,即可生成模擬的PDF報告

1.3. 版本POM

itext7相關pom

<properties>
    <itext.version>7.1.11</itext.version>
</properties>
<dependencies>
    <!-- itext7 -->
    <dependency>
        <groupId>com.itextpdf</groupId>
        <artifactId>kernel</artifactId>
        <version>${itext.version}</version>
    </dependency>
    <dependency>
        <groupId>com.itextpdf</groupId>
        <artifactId>io</artifactId>
        <version>${itext.version}</version>
    </dependency>
    <dependency>
        <groupId>com.itextpdf</groupId>
        <artifactId>layout</artifactId>
        <version>${itext.version}</version>
    </dependency>
    <dependency>
        <groupId>com.itextpdf</groupId>
        <artifactId>forms</artifactId>
        <version>${itext.version}</version>
    </dependency>
    <dependency>
        <groupId>com.itextpdf</groupId>
        <artifactId>pdfa</artifactId>
        <version>${itext.version}</version>
    </dependency>
    <dependency>
        <groupId>com.itextpdf</groupId>
        <artifactId>pdftest</artifactId>
        <version>${itext.version}</version>
    </dependency>
    <dependency>
        <groupId>com.itextpdf</groupId>
        <artifactId>font-asian</artifactId>
        <version>${itext.version}</version>
    </dependency>
    <dependency>
        <groupId>org.slf4j</groupId>
        <artifactId>slf4j-log4j12</artifactId>
        <version>1.7.18</version>
    </dependency>

    <!--itext7 html轉pdf用到的包-->
    <dependency>
        <groupId>com.itextpdf</groupId>
        <artifactId>html2pdf</artifactId>
        <version>3.0.0</version>
    </dependency>
</dependencies>

1.4. 乾貨

itext7語義本身和前端css很像,所以有點前端基礎還是比較容易掌握的

1.4.1. 添加圖片

  1. 讀取項目中圖片文件
  2. 設置邊距
  3. 設置寬高擴大縮小
Image indexImage = new Image(ImageDataFactory.create(GenoReportBuilder.class.getClassLoader().getResource("image/gene.png")));
indexImage.setMargins(-50, -60, -60, -60);
indexImage.scale(1, 1.05f);

1.4.2. 添加指定空白頁

  1. 添加第2頁為空白頁,立即刷新后再繼續添加
pdf.addNewPage(2).flush();

1.4.3. Div、Paragraph

    Div div = new Div();
    div.setWidth(UnitValue.createPercentValue(100));
    div.setHeight(UnitValue.createPercentValue(100));
    div.setHorizontalAlignment(HorizontalAlignment.CENTER);
    Paragraph p1 = new Paragraph();
    p1.setHorizontalAlignment(HorizontalAlignment.CENTER);
    p1.setMaxWidth(UnitValue.createPercentValue(75));
    p1.setMarginTop(180f);
    p1.setCharacterSpacing(0.4f);
    Style large = new Style();
    large.setFontSize(22);
    large.setFontColor(GenoColor.getThemeColor());
    p1.add(new Text("尊敬的 ").addStyle(large));
    ...
    Paragraph p2 = new Paragraph();
    ...
    div.add(p1);
    div.add(p2);
  1. 整塊的內容用Div包裹,這裏整塊包裹的好處是什麼?一方面排版分明成體系,另一方面若需求是整塊的內容必須在同一個版面,你可以對Div設置div.setKeepTogether(true);,盡量保證若整塊的內容超出了一頁,那這塊內容會自動整塊出現在下一頁,上一頁剩下的就留白了
  2. 可以看到DivParagraph可以設置很多屬性,實際上我們常用的組件除了這兩種,還有TableCellList,他們大部分的屬性都是一樣的,只是部分屬性只在部分組件起效果,所以當你設置某個屬性沒起效果也不用奇怪
  3. Paragraph需要特別注意的一點,想要段落文字居中,不要用setHorizontalAlignment(HorizontalAlignment.CENTER);這是組件的居中對段落無效,甚至對段落里你放Text也無效,需要改用setTextAlignment(TextAlignment.CENTER);
  4. Paragraph段落的行距也是個高頻問題,這裏給出官方我看到的解釋,參考https://itextpdf.com/en/resources/books/itext-7-building-blocks/chapter-4-adding-abstractelement-objects-part-1,搜關鍵字setFixedLeading,我的理解該方法設值行高絕對值,官方解釋是兩行文字中間基線之間的距離
  5. 如果想了解詳細的什麼屬性哪裡能起作用哪裡不行,請訪問該地址

1.4.4. Table

  1. useAllAvailableWidth表示頁面有多寬,我就有多寬
  2. table.startNewRow();表示新起一行,table每畫一行都要新起一行
  3. 同樣table內容需要居中,和段落一樣,請設置new Cell().setTextAlignment(TextAlignment.CENTER)
  4. 每個table中cell都有默認高度,會比實際輸入字體高些,此時設置setHeight,若更大沒有問題,若高度小於或接近字體大小文字可能就消失了,若想讓Cell高度更接近文字高度,請設置Cellpadding,即cell.setPadding(-2),設置負值即可

1.4.5. Tab,\t

  1. itext7中如果要表示段落前的空格,不能使用\t,但換行可以使用\n

  2. 若要實現Tab效果可以有多個方法

    1. \u00a0符號,大概7、8個該符號可表示tab,可能不是很準確
    p1.add(new Text("\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0壹基因衷心祝願您身體健康、享受品質生活!"));
    
    1. p1.setFirstLineIndent(24),表示段落前留多少空,需要知道一個字多大,設置成兩倍就行
    2. Tab也是集成AbstractElement的組件,通過以下方式也可實現相同的效果
      p2.add(new Tab());
      p2.addTabStops(new TabStop(20, TabAlignment.LEFT));
    

1.4.6. 換頁

我常用的換頁方法為如下,該方法可保證立即換頁

doc.add(new AreaBreak(AreaBreakType.NEXT_PAGE));

當然PdfDocumentaddNewPage其實也可以用,但有時候你沒把握好刷新時間可能導致某些混亂

1.4.7. 畫圖或畫文字

能畫出多麼複雜的圖形看是誰畫了,在我的PDF中,我畫的最複雜的圖形如下

該圖形由多個弧形區域加線段加文字組成,包括数字上的小箭頭也是畫出來的,畫這個的代碼過多,想要了解詳細的可以自行下載研究,這裏介紹API功能

  1. lineTo畫線段
  2. roundRectangle可用來畫角是弧形的方形,也可以用來畫圓
  3. showText用來畫文字

以上幾種結合填充即可把三角形,多邊形畫出來了

    PdfPage page = pdf.getPage(pdf.getNumberOfPages());
    pageSize = pdf.getDefaultPageSize();
    PdfCanvas pdfCanvas = new PdfCanvas(page);

    pdfCanvas.saveState().moveTo(pageSize.getWidth() / 2 - 100 + i * 40, yOffset - 203)
                    .lineTo(pageSize.getWidth() / 2 - 100 + i * 40, yOffset - 208)
                    .stroke().restoreState();

    pdfCanvas.setLineWidth(2);
        pdfCanvas.setStrokeColor(color);
        pdfCanvas.roundRectangle(pageSize.getWidth() / 2 - 3 + posXOffset, yOffset - 188, 6, 6, 3)
                .stroke();

    pdfCanvas.beginText()
                .setFontAndSize(font, 12)
                .moveText(pageSize.getWidth() / 2 - text.length() * 12 / 2, yOffset - 45);
        pdfCanvas.showText(text);
        pdfCanvas.endText();

1.4.8. Html段落轉Pdf段落

我們可能遇到把一段Html文本轉換成itext7的段落放進來,此時需要用到它的htmlToPdf模塊,該模塊對應POM

    <!--itext7 html轉pdf用到的包-->
    <dependency>
        <groupId>com.itextpdf</groupId>
        <artifactId>html2pdf</artifactId>
        <version>3.0.0</version>
    </dependency>

至於使用,設置好配置屬性,使用也很簡單,通常我們需要支持中文,所有配置如下,字體可以自己換

台中搬家遵守搬運三大原則,讓您的家具不再被破壞!

台中搬家公司推薦超過30年經驗,首選台中大展搬家

    ConverterProperties proper = new ConverterProperties();
    //字體設置,解決中文不显示問題
    FontSet fontSet = new FontSet();
    fontSet.addFont(GenoReportBuilder.class.getClassLoader().getResource("font/SourceHanSansCN-Regular.ttf").getPath(), PdfEncodings.IDENTITY_H);

    FontProvider fontProvider = new FontProvider(fontSet);
    proper.setFontProvider(fontProvider);

    String content = "html內容";
    List<IElement> elements = HtmlConverter.convertToElements(content, proper);

轉換的內容是IElement集合,而IElement是什麼呢?給張圖就了解了

也就是說只要你的html內容是<div></div>包裹的,你直接把元素轉成itext7的Div然後adddocument就可以實現html內容的添加了,當然你也可以用instanceof判斷不同內容不同處理

如下是我的處理例子供參考,我把輸入html內容樣式進行了一定修改後轉成itext7組件,這裏特別提心,html轉過來的itext7組件可能會不支持部分樣式的修改,所以需要在html中進行css樣式的添加,這裏我就把字體和高度統一用css設值了

    Div overall = new Div();
    java.util.List<IElement> iElements = getFixContent(value);
    for (IElement iElement : iElements) {
        Style style = new Style();
        style.setFontSize(10);
        style.setCharacterSpacing(0.7f);
        if (iElement instanceof Div) {
            Div div = (Div) iElement;
            java.util.List<IElement> children = div.getChildren();
            // 全部段落改成相同樣式
            this.addParagraphStyleCircle(style, children);
            overall.add(div);
        } else if (iElement instanceof Paragraph) {
            Paragraph element = (Paragraph) iElement;
            overall.add(element.addStyle(style));
        }
    }
    doc.add(overall);
  • getFixContent
    private java.util.List<IElement> getFixContent(String content) {
        if (content.startsWith("<div>")) {
            content = content.replaceAll("<div>", "<div style='line-height:18pt;font-size:16px;'>");
        } else {
            content = "<div style='line-height:18pt;font-size:16px;'>" + content + "</div>";
        }
        return HtmlConverter.convertToElements(content, proper);
    }
  • addParagraphStyleCircle
    private void addParagraphStyleCircle(Style style, java.util.List<IElement> children) {
        for (IElement child : children) {
            if (child instanceof Paragraph) {
                Paragraph element = (Paragraph) child;
                element.addStyle(style);
                java.util.List<IElement> children1 = element.getChildren();
                this.addParagraphStyleCircle(style, children1);
            }
            if (child instanceof Div) {
                Div div = (Div) child;
                java.util.List<IElement> children1 = div.getChildren();
                this.addParagraphStyleCircle(style, children1);
            }
            if (child instanceof Text) {
                Text text = (Text) child;
                text.addStyle(style);
            }
        }
    }

1.4.9. 監聽事件

在編寫pdf的時候,比如一篇整體的文章,我們需要在頁眉位置添加關於這篇文章的固定文本或者圖形,類似於打個標籤,表示你翻了這麼多頁一直在看這篇文章,當第二篇文章的時候就換一個,舉個例子

  • 第一頁
  • 第二頁

這種需求我們如何實現呢?思路分析發現,我們需要知道什麼時候文章內容一頁寫不起了,換了一頁的時候我們需要添加一個同樣的頁眉。這樣我們就需要知道頁是何時添加的,監聽事件就是處理這種問題的

  • pdf是PdfDocument,可添加的事件有START_PAGEINSERT_PAGEREMOVE_PAGEEND_PAGE共四個,如上需求我們需要監聽START_PAGE事件,在事件處理中做相應的處理,我在事件中使用PdfCanvas畫了頭部內容
HeaderTextEvent headerTextEvent = new HeaderTextEvent(title, font);
pdf.addEventHandler(PdfDocumentEvent.START_PAGE, headerTextEvent);
  • HeaderTextEvent類,Painting僅僅是封裝了PdfCanvas
public class HeaderTextEvent implements IEventHandler {

    private String text;
    private PdfFont font;

    public HeaderTextEvent(String text,PdfFont font) {
        this.text = text;
        this.font = font;
    }

    @Override
    public void handleEvent(Event event) {
        PdfDocumentEvent docEvent = (PdfDocumentEvent) event;
        PdfDocument pdfDoc = docEvent.getDocument();
        Painting painting = new Painting(pdfDoc, font);
        painting.drawHeader();
        painting.drawHeaderText(text);
        painting.close();
    }
}

在添加內容前添加相應事件,同時需要記得在不需要的時候移除

// 移除監聽器
pdf.removeEventHandler(PdfDocumentEvent.START_PAGE, headerTextEvent);

1.4.10. 添加目錄

我沒有找到itext7原生是否有目錄添加,根據我自己的需求,我用Table組件來實現了自定義目錄,由於我的PDF是用來打印的,所以我並沒有給目錄添加Link,也就是頁面跳轉,不過當你徹底理解了我的項目,我想這個需求實現也不難

  • 實現效果如下,隨着內容的增長,目錄自動增長

先說下遇到的困難,目錄顧明思意,必須要有內容才會有目錄,所以實際上目錄是最後添加的,但如果我們添加內容到最後再跳轉到前面的頁面來添加目錄,有三個問題:

  1. 目錄有幾頁如何知道?
  2. 目錄有幾頁不知道,如何知道內容在第幾頁?
  3. 由於目錄不確定,所以後續內容的頁碼其實也是不確定的,也就是說頁碼也不是一頁頁可以添加過去的

而經過實踐你會發現,我們不能夠回到前幾頁去修改已存在的頁面,因為會提示你已經flush了,不能修改。

這時我看到了movePage這個方法,也就是可以通過移動頁面,把目錄在內容之後生成,后再移動到前幾頁,但是頁碼還是不能修改,發現腦袋不夠想了只能用上屁股,靈光一閃,不能一遍生成為什麼不能二次渲染呢?於是研究讀取原pdf在原pdf上修改,二次渲染的時候填上頁碼及移動頁面,主要代碼如下,包括了讀取中間文件,移動目錄,添加每頁頁碼

PdfReader reader = null;
PdfWriter writer = null;
String inPath = getInPath();
try {
    reader = new PdfReader(new File(inPath));
    writer = new PdfWriter(new File(outPath));
} catch (IOException e) {
    e.printStackTrace();
}
PdfDocument pdf = new PdfDocument(reader, writer);
Document doc = new Document(pdf);
int startPage = 7;
int numberOfPages = pdf.getNumberOfPages();
for (int i = 0; i < catalogSize; i++) {
    pdf.movePage(numberOfPages, startPage);
}
String forbidPage = properties.getProperty("forbidPage");
for (int pageNumber = 1; pageNumber < numberOfPages + 1; pageNumber++) {

    if (pageNumber > 6 + catalogSize && pageNumber != 8 + catalogSize) {
        if (forbidPage != null && (pageNumber - catalogSize) >= Integer.parseInt(forbidPage)) {
            continue;
        }
        PageSize pageSize = pdf.getDefaultPageSize();
        doc.showTextAligned(new Paragraph(String.format("- %d -", pageNumber)), pageSize.getWidth() / 2, 30, pageNumber, TextAlignment.CENTER, VerticalAlignment.MIDDLE, 0);
    }
}

1.5. 總結

經過上述總結,我基本上把項目中的大多基本點和難點都概括進去了,初次用itext7寫PDF的同學基本會遇到的問題基本都在上述這些,不理解的就把項目下下來運行Main方法慢慢調試,理解透我這個項目,還有其它問題那基本只能翻官網了

項目Github: https://github.com/tzxylao/onegeno-itext-pdf
itext7官網:https://itextpdf.com/

本站聲明:網站內容來源於博客園,如有侵權,請聯繫我們,我們將及時處理

台中搬家遵守搬運三大原則,讓您的家具不再被破壞!

台中搬家公司推薦超過30年經驗,首選台中大展搬家

生態環境部一周要聞(11.8-11.14)_台中搬家

台中搬家遵守搬運三大原則,讓您的家具不再被破壞!

台中搬家公司推薦超過30年經驗,首選台中大展搬家

2020-11-15

2020-11-15
分享到:
[打印]
字號:[大] [中] [小]

  1.生態環境部黨組書記孫金龍赴三家部屬單位調研巡視整改工作

  11月10日,生態環境部黨組書記孫金龍赴對外合作與交流中心、應對氣候變化戰略研究中心和生態文明研究與促進會專題調研巡視整改工作並召開座談會。他強調,要認真學習貫徹黨的十九屆五中全會精神,深入貫徹習近平生態文明思想,結合中央巡視整改工作要求,繼續服務支撐應對氣候變化、保護生物多樣性、污染防治等生態環境保護中心工作,為打贏打好污染防治攻堅戰、推進生態文明建設作出新的更大貢獻。更多內容,點擊閱讀

  2.生態環境部黨組書記孫金龍赴廣西調研省以下環保垂改工作

  11月12日,生態環境部黨組書記孫金龍赴廣西南寧,調研省以下環保機構監測監察執法垂直管理改革工作情況。他強調,要深入學習貫徹十九屆五中全會精神,按照中央巡視反饋意見整改工作要求,紮實推進環保垂改任務如期落實落地,進一步釋放改革紅利,助力“十四五”生態環境保護工作開好局、起好步。更多內容,點擊閱讀

  3.生態環境部與國家電網有限公司簽署戰略合作協議

  11月11日,生態環境部與國家電網有限公司在京簽署《電力大數據助力打贏打好污染防治攻堅戰戰略合作協議》。生態環境部黨組書記孫金龍、部長黃潤秋,國家電網董事長、黨組書記毛偉明,總經理、黨組副書記辛保安出席協議簽署儀式並講話。更多內容,點擊閱讀

  4.《生物多樣性公約》第十五次締約方大會籌備工作組織委員會第二次會議暨執行委員會第二次會議在京召開

  11月9日,《生物多樣性公約》第十五次締約方大會(COP15)籌備工作組織委員會第二次會議暨執行委員會第二次會議在京召開。組委會主任、生態環境部部長黃潤秋,組委會主任、雲南省委副書記、省長阮成發出席會議並分別講話。更多內容,點擊閱讀

  5.中韓環境部長舉行2020年度工作視頻會晤

台中搬家公司費用怎麼算?

擁有20年純熟搬遷經驗,提供免費估價且流程透明更是5星評價的搬家公司

  11月11日,中韓環境部長2020年度工作會晤以視頻方式舉行。生態環境部部長黃潤秋和韓國環境部部長趙明來出席會議。雙方還就應對氣候變化、“晴天計劃”項目合作、《生物多樣性公約》第十五次締約方大會等事宜交換了意見。更多內容,點擊閱讀

  6.生態環境部赴山東濰坊調研渤海綜合治理攻堅戰進展情況

  11月10日,生態環境部副部長翟青率調研組赴山東省濰坊市,開展渤海綜合治理攻堅戰核心任務進展情況調研,督促指導山東省濱海濕地生態修復任務進展滯后地區加快推進有關工作。更多內容,點擊閱讀

  7.“中德歐實現氣候新目標的路徑”開展非正式圓桌對話

  2020年11月9日,生態環境部副部長趙英民、氣候變化事務特別顧問解振華應邀出席“中德歐實現氣候新目標的路徑”非正式圓桌對話。圓桌對話由現任歐盟輪值主席國德國聯邦環境、自然保護與核安全部國務秘書約亨·弗拉斯巴特主持,歐委會氣候行動總司總司長莫羅·彼得里喬內、歐洲氣候基金會首席執行官勞倫斯·圖比亞娜出席。圓桌對話聚焦中歐各自最新宣布的應對氣候變化中長期目標和願景,就其實現路徑、短期影響及深化中歐氣候變化合作展開探討。更多內容,點擊閱讀

  8.“繁榮生態文學 共建美麗中國”座談會暨“大地文心”生態文學作家採風四川行啟動儀式在京舉行

  11月9日,“繁榮生態文學 共建美麗中國”座談會暨“大地文心”生態文學作家採風四川行啟動儀式在京舉行。生態環境部副部長庄國泰出席會議並講話。原文化部部長、“人民藝術家”國家榮譽稱號獲得者王蒙,中國作家協會副主席、書記處書記吉狄馬加為採風活動發來視頻寄語。更多內容,點擊閱讀

  9.生態環境部環評司有關負責人就《經濟、技術政策生態環境影響分析技術指南(試行)》有關問題答記者問

  生態環境部近日印發了《經濟、技術政策生態環境影響分析技術指南》(試行)。針對《指南》的出台背景、主要內容、實施重點等問題,生態環境部環評司有關負責人回答了記者的提問。更多內容,點擊閱讀

  10.關於徵集中國生態環境保護吉祥物文化創意作品的公告

  為宣傳貫徹習近平生態文明思想,更好運用“中國生態環境保護吉祥物”傳播生態文明理念、講好生態環保故事,為打贏打好污染防治攻堅戰營造良好社會氛圍,推進美麗中國建設,生態環境部現組織開展中國生態環境保護吉祥物文化創意作品公開徵集展示活動。更多內容,點擊閱讀

台中搬家遵守搬運三大原則,讓您的家具不再被破壞!

台中搬家公司推薦超過30年經驗,首選台中大展搬家

Pixel 的雷達黑科技傳將被用在新世代 Google 智慧顯示器上_台中搬家

台中搬家公司費用怎麼算?

擁有20年純熟搬遷經驗,提供免費估價且流程透明更是5星評價的搬家公司

曾在 Google Pixel 旗艦機上作為新進手勢感應功能的關鍵感應器 Soli Motion 雷達感測器,來到了最新的 Pixel 5 上,卻疑似因為產品定位而沒有提供,更引起 Google 可能已經放棄這方面發展的猜測。不過現在又有了它可能會透過更多 Nest Home 裝置復活的跡象。繼續閱讀 Pixel 的雷達黑科技傳將被用在新世代 Google 智慧顯示器上報導內文。

▲圖片來源:Google

Pixel 的雷達黑科技傳將被用在新世代 Google 智慧顯示器上

其實在外媒去年訪談 Google 的時候,官方就有表示並沒有放棄 Soli 雷達技術。至於可能的應用方向,當時就有猜測很可能會被用在物聯產品方面 — 後續也真的先被 Nest 溫控器所採納。而隨著支援超音波偵測點亮的 Nest Home mini 推出之後,Google 似乎也打算要將更進階的手勢辨識功能給應用在更多的 Nest 物聯產品之上。

▲圖片來源:Google

相對於將 Soli Motion 感測器用在手機上,進行隔空用手勢切換音樂與關閉通知等用途 — 其實現在的智慧顯示器也已經可以透過攝影機來提供類似的手勢功能了。根據外媒 9to5Google 的消息,Google 2021 年 Smart Display 智慧顯示器,將很可能融入 Soli Motion 的雷達感應帶來更進階的機能,會將其應用在睡眠追蹤記錄功能。

誒… 雖然大家應該心裡第一反應就是「那我睡覺的資料不就讓OOO知道了」。不過與其擔心穿戴裝置是否會在睡眠過程中沒電,還有一定得要持續穿戴的麻煩。說真的,對在意這方面監測的使用者而言,透過隨時對著床並且不用擔心充電問題的 Google Home 物聯裝置,也算是解決了不少的麻煩 — 而且還能放放照片、播播音樂跟詢問問題(比讚)。

▲圖片來源:Google

是說,這也不是 Nest 首度採用 Soli 感應器了。其實在他們的自動溫控產品上,就已經有導入來做為更精確感應居家動靜的用途。講起來,這樣的技術好像在物聯產品上反而更發光發熱,創造出不少不錯的應用呢。感覺可以期待一下新世代 Smart Display 可以因此獲得什麼樣的有趣創新功能。

引用來源

台中搬家遵守搬運三大原則,讓您的家具不再被破壞!

台中搬家公司推薦超過30年經驗,首選台中大展搬家

延伸閱讀:

蘋果 AirTags 防丟追蹤器還沒出,但已有皮革鑰匙圈與眼鏡環三方配件照流出

沒錯 Facebook 又改版了,差在哪你看得出來嗎?

您也許會喜歡:

【推爆】終身$0月租 打電話只要1元/分

立達合法徵信社-讓您安心的選擇

台中搬家公司費用怎麼算?

擁有20年純熟搬遷經驗,提供免費估價且流程透明更是5星評價的搬家公司

Python驗證碼識別_台中搬家

台中搬家公司費用怎麼算?

擁有20年純熟搬遷經驗,提供免費估價且流程透明更是5星評價的搬家公司

項目地址:https://github.com/kerlomz/captcha_trainer

編譯版下載地址: https://github.com/kerlomz/captcha_trainer/releases/tag/v1.0

注意:若使用雲服務器 (Windows Server版) 遇到閃退,請按照步驟:我的電腦——屬性——管理——添加角色和功能——勾選桌面體驗,點擊安裝,安裝之後重啟即可。

2020/06/01編外:

想必各位只是偶然間搜到這篇文章,網上文章參差不齊,標題黨很多,能跑起來的開源代碼很少,對於能跑起來的代碼,也經常遇到以下問題如:內存泄漏,網絡參數寫死導致更換訓練集報錯,網絡跑其他樣本識別率低,沒有調用示例等等。

再往下看之前,我可以向你們保證,它絕對會是你所見過的所有驗證碼有關的文章中最實用,最接近生產水平的。

  1. 對小白: 你可以不需要動手寫任何一行代碼。
  2. 對小企業: 它的可用性和穩定性是經得起考驗的,在性能上也是同行領先的,可以放心入坑。

因為小編打算轉行了,離開這個行業之前總要留下點什麼證明自己來過,總有人和我說的這個部署不會調用,可能你們想要的是一行pip就搞定環境的,所以今天給你們安排了麻瓜OCR(MuggleOCR)。
https://pypi.org/project/muggle-ocr
它整合了簡單驗證碼識別通用模型+印刷文字通用識別,並且支持調用本文框架訓練的模型。調用只需要三行核心代碼:

import time
# STEP 1
import muggle_ocr
import os
# STEP 2
sdk = muggle_ocr.SDK(model_type=muggle_ocr.ModelType.OCR)
root_dir = r"./imgs"
for i in os.listdir(root_dir):
    n = os.path.join(root_dir, i)
    with open(n, "rb") as f:
        b = f.read()
    st = time.time()
    # STEP 3
    text = sdk.predict(image_bytes=b)
    print(i, text, time.time() - st)

這真的很簡單,應付一般的文字識別和驗證碼都足夠了。(文字識別過幾天會更新一下新模型,畢竟0601模型就跑了半天。

1. 前言

本項目適用於Python3.7,GPU>=NVIDIA GTX1050Ti,原master分支新增了GUI配置界面以及編譯版本了,是時候寫一篇新的文章了。

長話短說,開門見山,網絡上現有的代碼以教學研究為主,本項目是為實用主義者定製的,只要基本的環境安裝常識,便可很好的訓練出期望的模型,重定義幾個簡單的參數任何人都能使用深度學習技術訓練一個商業化成品。

筆者選用的時下最為流行的CNN+BLSTM+CTC(CRNN)進行端到端的不定長驗證碼識別,代碼中預留了CNNX(搜不到因為是小編自己拼湊的)/MobileNet/DenseNet121/ResNet50等選項,可以在配置界面中直接選用。首先,介紹個大概吧。

網格結構 predict-CPU predict-GPU 模型大小
CNN5+Bi-LSTM+H64+CTC 15ms 8ms 2mb
CNN5+CrossEntropy 8ms 2ms 1.5mb

H16/H64指的是Bi-LSTM的隱藏神經元個數UnitsNum,所以本項目使用GPU訓練,使用CPU進行預測。預測服務部署項目源碼請移步此處:https://github.com/kerlomz/captcha_platform
部署項目的編譯版下載地址:https://github.com/kerlomz/captcha_platform/releases

2.環境依賴:

花了超長篇幅介紹了訓練環境的基本搭建,主要是給尚未入門的讀者看的,老鳥們隨便跳過,若不希望在環境上面浪費時間的,歡迎使用編譯版,可在文章開頭找到下載地址。

關於CUDA和cuDNN版本的問題,不少人很糾結,這裏就列出官方通過pip安裝的TensorFlow的版本對應表:

Linux

Version Python version Compiler Build tools cuDNN CUDA
tensorflow_gpu-1.14.0 3.7 GCC 4.8 Bazel 0.15.0 7.6 9

Windows

Version Python version Compiler Build tools cuDNN CUDA
tensorflow_gpu-1.14.0 3.7 MSVC 2015 update 3 Bazel 0.15.0 7.6 10

如果希望使用上面對應之外的搭配的CUDA和cuDNN,可以自行編譯TensorFlow,或者去Github上搜索TensorFlow Wheel找到第三方編譯的對應版本的whl安裝包。提前預警,若是自己編譯將會苦難重重,坑很多,這裏就不展開了。

2.1 本項目環境依賴

目前在以下主流操作系統平台均測試通過:

操作系統 最低支持版本
Ubuntu 16.04
Windows 7 SP1
MacOS N/A

本訓練項目主要的環境依賴清單如下

依賴 最低支持版本
Python 3.7
TensorFlow-GPU 1.14.0
Opencv-Python 4.1.2.30
Numpy 1.16.0
Pillow 4.3.0
PyYaml 3.13
tqdm N/A

2.1.1 Ubuntu 16.04 下的 Python 3.7

1)先安裝Python環境(有Python 3.7環境的可以忽略)

sudo apt-get install openssl  
sudo apt-get install libssl-dev
sudo apt-get install libc6-dev gcc  
sudo apt-get install -y make build-essential zlib1g-dev libbz2-dev libreadline-dev $ libsqlite3-dev wget curl llvm tk-dev 
wget https://www.python.org/ftp/python/3.7.6/Python-3.7.6.tgz
tar -vxf Python-3.7.6.tar.xz
cd Python-3.7.6
./configure --prefix=/usr/local  --enable-shared
make -j8
sudo make install -j8

經過上面指令就安裝好Python3.7環境了,如果提示找不到libpython3.7m.so.1.0就到/usr/local/lib路徑下將該文件複製一份到/usr/lib和/usr/lib64路徑下。
2)安裝相關依賴(這一步Windows和Linux通用)
可以直接在項目路徑下執行pip3 install -r requirements.txt安裝所有依賴,注意這一步是安裝在全局Python環境下的,強烈建議使用虛擬環境進行項目間的環境隔離,如VirtualenvAnaconda等等。
我一般使用的是Virtualenv,有修改代碼需要的,建議安裝PyCharm作為Python IDE

virtualenv -p /usr/bin/python3 venv # venv is the name of the virtual environment.
cd venv/ # venv is the name of the virtual environment.
source bin/activate # to activate the current virtual environment.
cd captcha_trainer # captcha_trainer is the project path.
pip3 install -r requirements.txt

2.1.2 Ubuntu 16.04 下的 CUDA/cuDNN

網上看到過很多教程,我自己也部署過很多次,Ubuntu 16.04遇到的坑還是比較少的。14.04支持就沒那麼好,如果主板不支持關閉SecureBoot的話千萬不要安裝Desktop版,因為安裝好之後一定會無限循環在登陸界面無法進入桌面。
網上教程說要加驅動黑名單什麼的我直接跳過了,親測沒那個必要。就簡單的幾步:
1. 下載好安裝包
注意下載runfile類型的安裝包,deb安裝會自動安裝默認驅動,極有可能導致登陸循環
NVIDIA 驅動下載:https://www.geforce.cn/drivers
CUDA 下載地址:https://developer.nvidia.com/cuda-downloads
cuDNN 下載地址:https://developer.nvidia.com/cudnn (需要註冊NVIDIA賬號且登陸,下載deb安裝包)

2. 關閉圖形界面
Ctrl+alt+F1進入字符界面,關閉圖形界面

sudo service lightdm stop

3. 安裝Nvidia Driver

命令中的版本自己對應下載的版本改,在上面的下載地址根據自己的顯卡型號下載最新版,切記是runfile格式的安裝包。

sudo chmod a+x NVIDIA-Linux-x86_64-384.90.run //獲取執行權限
sudo ./NVIDIA-Linux-x86_64-384.90.run –no-x-check –no-nouveau-check –no-opengl-files //安裝驅動

安裝成功以後使用以下命令驗證,如果显示顯卡信息則表示安裝成功

nvidia-smi

4. 安裝CUDA

1)先安裝一些系統依賴庫

sudo apt-get install freeglut3-dev build-essential libx11-dev libxmu-dev libxi-dev libgl1-mesa-glx libglu1-mesa libglu1-mesa-dev
  1. 執行安裝程序,按指示無腦繼續就好了,如果提示是否安裝驅動選不安裝。
sudo sh cuda_9.0.176_384.81_linux.run

安裝完如果環境變量沒配上去,就寫到 ~/.bashrc 文件的尾部

export PATH=/usr/local/cuda-9.0/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-9.0/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}

然後在終端執行 sudo ldconfig更新,安裝完畢就可以重啟機器重啟圖形界面了。

sudo service lightdm start

2.1.3 Windows 系統

在Windows其實簡單很多,只要到官網下載安裝包無腦安裝就可以了,下載連接同Ubuntu,先安裝Python,顯卡驅動,CUDA,然後下載對應的cuDNN替換到對應路徑即可。

3 使用

在訓練之前,有不少群友經常問我“訓練4位數英文数字需要多少樣本?”諸如此類的問題,我這裏統一做個回復,樣本數量主要是看樣本的特徵複雜度而定。

這裏可以提供幾個參考依據: 是否變形?是否旋轉?是否有複雜背景干擾?是否多種字體?字符集(分類數)多大?位數(標籤數)多少?

  1. 一般簡單的幾百個樣本(需要自行調整 驗證集大小驗證批次大小 )即可。
  2. 稍微複雜的幾千個樣本一般都能搞定。
  3. 特別複雜的幾萬樣本起。
  4. 中文這種幾千個分類的一般十萬起。

注:只準備一百個不到樣本的親們,千萬不要嘗試訓練測試,因為根本跑不起來。

入手的第一步環境搭建好了,那就是準備跑代碼了,還是有幾個必要的條件,巧婦難為無米之炊,首先,既然是訓練,要先有訓練集,有一個新手嘗鮮的訓練集,是mnist手寫識別的例子,可以在騰訊雲下載:https://share.weiyun.com/5pzGF4V
,現在萬事俱備,只欠東風。

3.1 定義一個模型

本項目基於參數化配置,不需要改動任何代碼,可以通過可視化界面操作訓練幾乎任何字符型圖片驗證碼。訓練框架界面可以大致劃分為幾個部分:

  1. Neural Network – 神經網絡區
  2. Project Configuration – 項目配置區
  3. Sample Source – 樣本源配置區
  4. Training Configuration – 訓練配置區
  5. Buttons – 功能控制區

依此類推的訓練配置的步驟如下:

  1. 神經網絡區 的配置項看起來很多,對於新手來說,可以直接使用默認的配置:CNNX+GRU+CTC+C1組合(CNN前置網絡+GRU+CTC+單通道)。
  2. 項目配置區 的配置項在網絡選好之後配置項目名,按回車或者點擊空白處確認。
  3. 樣本源配置區 的配置項用來配置樣本源的路徑,訓練樣本是根據此路徑進行打包成TFRecords格式,驗證樣本可以不指定,使用[Validation Set Num]參數隨機從訓練集總抽樣成驗證集。
  4. 訓練配置區 的配置項負責定義訓練完成的條件如:結束準確率,結束COST,結束Epochs,批次大小
  5. 功能控制區 的配置項,設置完上面步驟,先點擊[Make Dataset] 打包樣本,再點擊[Start Training]開始訓練。

以下部分有基礎的讀者們可以了解一下:

如若使用CrossEntropy作為解碼器需要注意標籤數LabelNum和圖片尺寸需要滿足的關係,因為網絡為多標籤而設計(一般的多標籤採用直接連接多個分類器),卷積層的輸出 outputs 經過了以下變換:

Reshape([label_num, int(outputs_shape[1] / label_num)])

為了保證運算 int(outputs_shape[1] / label_num) 能夠取得正整數,也意味着他們之間存在某種關係,對於CNN5+Cross Entropy的網絡結構,Conv2D層的步長皆為1,那麼需要保證以下關係成立:

\[mod(\frac{輸入寬度\times輸入高度\times輸出層參數}{池化步長^{池化層數}\times標籤數})= 0 \]

所以有時候需要Resize網絡輸入的Shape

網絡 池化步長^池化層數 輸出層參數
CNN5 16 64
CNNX 8 64
ResNet50 16 1024
DenseNet 32 2048

例如使用CNN5+CrossEntropy組合,則輸入寬度與輸入高度需要滿足:

\[mod(\frac{輸入寬度\times輸入高度\times64}{16\times標籤數})= 0 \]

台中搬家遵守搬運三大原則,讓您的家具不再被破壞!

台中搬家公司推薦超過30年經驗,首選台中大展搬家

同理如果CNN5+RNN+CTC,卷積層之後的輸出經過以下變換:

Reshape([-1, outputs_shape[2] * outputs_shape[3]])

原輸出(batch_size, outputs_shape[1], outputs_shape[2], outputs_shape[3]),RNN層的輸入輸出要求為(batch, timesteps, num_classes),為了接入RNN經過以上操作,那麼又引出一個Time Step的概念,所以timesteps的值也是 outputs_shape[1],而CTC Loss要求的輸入為 [batch_size, frames, num_labels],若是 timesteps 小於標籤數則無法計算損失,也就無法找損失函數中找到極小值,梯度何以下降。timesteps 最合理的值一般是標籤數的2倍,為了達到目的,也可以通過Resize網絡輸入的Shape解決,一般情況timesteps直接關聯於圖片寬度,大多情況只要按比例放大寬度即可。

ExtractRegex 參數:

注意:如果訓練集的命名格式和我提供的新手訓練集不一樣,請根據實際情況修改ExtractRegex的正則表達式。目前只支持在yaml配置文件中直接修改,尚未提供GUI界面修改的支持。 DatasetPath 和SourcePath參數允許多個路徑,這種操作適用於需要將多種樣本訓練為一個模型,或者希望訓練一套通用泛化模型的人。
字符集Category其實大多數情況下不需要修改,一般的圖形驗證碼離不開数字和英文,而且一般來說是大小寫不敏感的,不區分大小寫,因為打碼平台收集的訓練集質量參差不齊,有些大寫有些小寫,不如全部統一為小寫,默認ALPHANUMERIC_LOWER則會自動將大寫的轉為小寫,字符集可定製化很靈活,除了配置備註上提供的幾種類型,還可以訓練中文,自定義字符集用list表示,示例如下:

Category: ['常', '世', '寧', '慢', '南', '制', '根', '難']

如果是單標籤分類,可以配合LabelNum=1,例如:

Category: ["航母", "雨靴", "毛線", "安全帽", "調色板", "海鷗", "日曆", "網球拍", ......]

其文件名示例:航母_1231290424123.png

如果是多標籤分類,可以配合LabelSplit=&,例如:

Category: ["航母", "雨靴", "毛線", "安全帽", "調色板", "海鷗", "日曆", "網球拍", ......]

其文件名示例:航母&雨靴&毛線_1231290424123.png

可以自己根據收集訓練集的實際字符集使用率來定義,也可以無腦網上找3500常用字來訓練,注意:中文字符集一般比数字英文大很多,剛開始收斂比較慢,需要更久的訓練時間,也需要更多的樣本量,請量力而行

形如上圖的圖片能輕鬆訓練到95%以上的識別率。
ImageWidth、ImageHeight只要和當前圖片尺寸匹配即可,其實這裏的配置主要是為了方便後面的部署智能策略。

Pretreatment參數:

該參數是用來做圖片預處理的,例如形如以下的GIF動圖,

可以使用ConcatFrames參數選取幀對兩幀進行水平拼接,適用於處理滾動型GIF,而閃爍型GIF可以使用BlendFrames參數進行融合。

3.2 開始訓練

  1. 經過 採集標註樣本形如 xxx_隨機數.png
  2. 打包樣本
    通過GUI界面的 [Make Dataset] 或者 make_dataset.py 直接打包。
    注意:使用源碼運行本項目的功能模塊需要具備一定的語言基礎,參數修改的部分和示例已預留好,盡量不修改核心類或函數的代碼以免出現錯誤。

按照上面的介紹,配置只要修改極少數的參數對應的值,就可以開啟正式的訓練之旅了,具體操作如下:
可以直接使用 PyCharm 的 Run,執行 trains.py,也可以在激活Virtualenv下使用終端亦或在安裝依賴的全局環境下執行,但本文建議全程使用GUI界面進行操作,使用GUI僅需啟動 app.py 即可。

python3 trains.py

剩下的就是等了,看過程,等結果。
正常開始訓練的模樣應該是這樣的:

訓練結束會在項目的out路徑下生成一個包含pb文件的graph目錄和包含yaml文件的model目錄,下面該到部署環節了。

3.3 部署

真的很有必要認真的介紹一下部署項目,比起訓練,這個部署項目傾注了筆者更多的心血,為什麼呢?
項目地址:https://github.com/kerlomz/captcha_platform

如希望將本系統集成於自己的項目中的可以參考python-sdk的使用:
https://pypi.org/project/muggle-ocr/
該項目的核心基於 captcha_platform/sdk/pb/sdk.py 可以根據需要自行修改,抑或直接使用MuggleOCR 調用訓練框架生產的模型。(具體調用方法可點擊上面鏈接有對應的文檔介紹)

編譯版:https://github.com/kerlomz/captcha_platform/releases,使用編譯版無需安裝Python和TensorFlow環境。

真的值得了解的幾點

  1. 同時管理多個模型,支持模型熱拔插
  2. 靈活的版本控制
  3. 支持批量識別
  4. 服務智能路由策略

首先筆者重寫了TensorFlow的Graph會話管理,設計會話池,允許同時管理多模型,實現多模型動態部署方案。

1) 訓練好的 pb模型只要放在部署項目的graph路徑下,yaml模型配置文件放在model, 即可被服務發現並加載。(用SDK調用時,兩者置於同一目錄下)

2) 如果需要卸載一個正在服務的模型,只需要在model中刪除該模型的yaml配置文件,在graph中刪除對應的pb模型即可。

3) 如果需要更新一個已經服務中的模型,只需修改新版的模型yaml配置文件的版本號高於原模型的版本號,按先放pb後放yaml的順序,服務便會自動發現新版的模型並加載使用,舊的模型將因版本低於新版模型不會被調用,可以按照上述的卸載方法卸載已被棄用的模型釋放內存。
上面的操作中無需重啟服務,完全的無縫切換

其次,一套服務想要服務於各式各樣的圖像識別需求,可以定義一套策略,訓練時將所有尺寸一樣的圖片訓練成一個模型,服務根據圖片尺寸自動選擇使用哪個模型,這樣的設計使定製化和通用性共存,等積累到一定多樣的訓練集時可以將所有的訓練集合到一起訓練一個通用模型,亦可以彼此獨立,每個模型的疊加僅僅增加了少量的內存或顯存,網上的方案大多是不同的模型單獨部署一套服務,每個進程加載了一整套TensorFlow框架勢必是過於龐大和多餘的。

用到批量識別需求的人相對少很多這裏就不展開介紹了。但是這裏給出一個12306的例子:

FieldParam:
  CorpParams: [
    {
      "start_pos": [118, 0],
      "interval_size": [0, 0],
      "corp_num": [1, 1],
      "corp_size": [60, 30]
    },
    {
      "start_pos": [5, 40],
      "interval_size": [5, 5],
      "corp_num": [4, 2],
      "corp_size": [66, 66]
    }
  ]
  OutputCoord: True

該參數可以用於大圖的裁剪組成一批小圖作為一個批次的輸入,改用法可以避免多次調用。

但是識別項目提供了多套可選的服務有:gRPC,Flask,Tornado,Sanic,其中Flask和Tornado提供了加密接口,類似於微信公眾號開發接口的SecretKey和AccessKey接口,感興趣的可以在demo.py中閱讀調用源碼了解。

部署的使用可以經過package.py編譯為可執行文件,這樣可以免去更換機器環境安裝的煩惱,部署項目安裝流程同訓練項目,項目中提供的requirements.txt已經將所需的依賴都列清楚了,強烈建議部署項目安裝cpu版TensorFlow。

本項目部署推薦使用Tornado版,功能最齊全,性能最為穩定。

Linux:

  1. Tornado:
# 端口 19952
python3 tornado_server.py
  1. Flask
# 方案1,裸啟動, 端口 19951
python flask_server.py 
# 方案2,使用gunicorn,端口 5000
pip install gunicorn 
gunicorn -c deploy.conf.py flask_server:app
  1. Sanic:
# 端口 19953
python3 sanic_server.py
  1. gRPC:
# 端口 50054
python3 grpc_server.py
  1. 編譯版(基於Tornado)
# 前台運行
./captcha_platform_tornado
#後台運行
nohup ./captcha_platform_tornado &

Windows:
Windows平台下都是通過python3 xxx_server.py啟動對應的服務,注意,Tornado、Flask、Sanic的性能在Windows平台都大打折扣,gRPC是Google開源的RPC服務,有較為優越的性能。
編譯版直接運行編譯后的exe可執行文件即可。

3.4 調用/測試

1. Tornado服務:

請求地址 Content-Type 參數形式 請求方法
http://localhost:19952/captcha/v1 application/json JSON POST

具體參數:

參數名 必選 類型 說明
image Yes String Base64 編碼
model_name No String 模型名,yaml配置中可綁定
need_color No String 顏色過濾,black/red/blue/yellow/green/white
output_split No String 多標籤分割字符

請求為JSON格式,形如:{“image”: “base64編碼后的圖像二進制流”}

返回結果:

參數名 類型 說明
message String 識別結果或錯誤消息
code String 狀態碼
success String 是否請求成功

該返回為JSON格式,形如:{“message”: “xxxx”, “code”: 0, “success”: true}

2. Flask服務:

請求地址 Content-Type 參數形式 請求方法
http://localhost:19951/captcha/v1 application/json JSON POST

請求參數和返回格式同上

3. Sanic服務:

請求地址 Content-Type 參數形式 請求方法
http://localhost:19953/captcha/v1 application/json JSON POST

請求參數和返回格式同上

4. gRPC服務:
需要安裝依賴,grpcio、grpcio_tools和對應的grpc.proto文件,可以直接從項目中的示例代碼demo.py中提取。

python -m grpc_tools.protoc -I. --python_out=. --grpc_python_out=. ./grpc.proto

grpcio、grpcio_tools 是根據 grpc.proto 使用上述命令生成的。

class GoogleRPC(object):

    def __init__(self, host: str):
        self._url = '{}:50054'.format(host)
        self.true_count = 0
        self.total_count = 0

    def request(self, image, model_type=None, model_site=None):

        import grpc
        import grpc_pb2
        import grpc_pb2_grpc
        channel = grpc.insecure_channel(self._url)
        stub = grpc_pb2_grpc.PredictStub(channel)
        response = stub.predict(grpc_pb2.PredictRequest(
            image=image, split_char=',', model_type=model_type, model_site=model_site
        ))
        return {"message": response.result, "code": response.code, "success": response.success}

if __name__ == '__main__':
    result = GoogleRPC().request("base64編碼后的圖片二進制流")
    print(result)

3.5 奇技淫巧

該項目還可以直接用於識別帶顏色的驗證碼,部署項目middleware/impl/color_extractor.py基於k-means實現了顏色分離模塊,可用於處理如下形式的驗證碼:

還有一種方案是同時預測驗證碼和每個字符對應的顏色,不過這需要修改現有的神經網絡進行支持,在最後一層修改為雙輸出,一個輸出顏色,一個輸出對應字符,這對於樣本標註的要求較高,也提高的成本,所以如果能用無限生成樣本,那問題就迎刃而解了,比如上圖,筆者就寫了樣本生成代碼,感興趣的可以移步:
https://www.jianshu.com/p/da1b972e24f2
其實還有很多很多技巧,例如,用生成的樣本代替訓練集,其實網上的圖片驗證碼大多是採用開源的,稍作修改而已,大多數情況都能被近似生成出來,上述展示的驗證碼圖片不代表任何實際的網站,如有雷同,純屬巧合,該項目只能用於學習和交流用途,不得用於非法用途。

後記

如果文章描述不夠詳盡或需要技術支持的,可以加群 857149419 諮詢,或在開源項目中提issue,很榮幸能為開源社區貢獻綿薄之力。

本站聲明:網站內容來源於博客園,如有侵權,請聯繫我們,我們將及時處理

台中搬家公司費用怎麼算?

擁有20年純熟搬遷經驗,提供免費估價且流程透明更是5星評價的搬家公司

全球6.9億人陷饑餓危機 UN:疫情加劇惡化速度_台中搬家

台中搬家公司費用怎麼算?

擁有20年純熟搬遷經驗,提供免費估價且流程透明更是5星評價的搬家公司

摘錄自2020年7月14日中央社羅馬綜合外電報導

聯合國今天(14日)發表統計報告,全球每九人即有一人受飢餓所苦,疫情使全球飢餓問題更加惡化。法新社報導,全球經濟趨緩加上氣候變遷衝擊,全球更多人陷入飢餓。許多人無法負擔營養的食物,營養不足情形加劇,肥胖人口也日益增加。研究顯示,低品質飲食會導致嚴重的「健康與環境負面影響」。

聯合國2020年「世界糧食安全和營養狀況」(The State of Food Security and Nutrition in the World)年度報告指出:「數十年以來,飢餓人口原本穩定下降中,但2014年又開始緩緩回升。」

台中搬家遵守搬運三大原則,讓您的家具不再被破壞!

台中搬家公司推薦超過30年經驗,首選台中大展搬家

經調查發現,全球近6億9000萬人陷於飢餓,佔全球人口8.9%,光是2019年就增加了1000萬飢餓人口,與五年前相比更多了6000萬人。若目前的趨勢持續,五年前設定的「2030年以前消除饑餓」目標不可能實現。

據聯合國估計,2030年以前,世界上超過8億9000萬人會受飢餓影響(全球人口9.8%)。

土地利用
國際新聞
全球
糧食危機
飢餓
營養不良
疫情下的社會衝突
人口
糧食

本站聲明:網站內容來源環境資訊中心https://e-info.org.tw/,如有侵權,請聯繫我們,我們將及時處理

台中搬家公司費用怎麼算?

擁有20年純熟搬遷經驗,提供免費估價且流程透明更是5星評價的搬家公司

疑似 2021 iPad Pro CAD 工程圖現身,外型改變不大,主要更新在內部硬體_台中搬家

台中搬家遵守搬運三大原則,讓您的家具不再被破壞!

台中搬家公司推薦超過30年經驗,首選台中大展搬家

近年 Apple 更新旗下產品的時間可說逐漸縮短,也因此對於想買新品的人,一定會期待今年會不會有新機種出現?該這時候買還是等等看?去年就曾更新過的 iPad Pro,照道理來說今年應該不太可能有新款(上一次是二年一更),但稍早網路上出現一系列疑似 2021 iPad Pro CAD 工程圖,加上先前分析師的預測內容,看來今年也是蠻有機會的。

疑似 2021 iPad Pro CAD 工程圖現身

稍早外媒 mysmartprice 獲得一組 2021 iPad Pro CAD 洩漏工程圖,而且還註明是從值得信賴的內部人士提供。

圖中明顯顯示,2021 iPad Pro  外型不會有太大的改變,基本上長得一樣,但有可能會更改內部的揚聲器,進而減少喇叭孔數量。mysmartprice  也表示,目前已經確認 11 吋 iPad Pro 的尺寸,將會是 245.74 x 176.61 x 5.90mm,厚度則跟上一代相同:

鏡頭模組看起來也跟上一代一樣,不過似乎又凸出來一點,至於相機規格目前都還不知道。音量鍵將位於右側,鎖定鍵則是頂部,同樣會採用 USB-C 的傳輸充電介面:

硬體方面,既然是新款 2021 iPad Pro,搭載 A 系列晶片的效能當然有望大幅提升。先前知名分析師還指出,Apple 將會發表 mini-LED 版本的 12.9 吋 iPad Pro,厚度可能會增加 0.5mm。

此外,台灣 DigiTimes 去年也獲得內部人士提供的消息,2021 高端的 iPad 產品有機會獲得 mmWave 技術,意味著將支援 5G 網路。

台中搬家公司費用怎麼算?

擁有20年純熟搬遷經驗,提供免費估價且流程透明更是5星評價的搬家公司

2021 iPad Pro 推出時間預計會在今年 3 月,不過一切還是要以 Apple 為主。

資料來源:mysmartprice

最多樣好用的 iPad 手寫筆選擇 Kamera Pencil 開箱體驗(評價 / 評測 / 動手玩)

您也許會喜歡:

【推爆】終身$0月租 打電話只要1元/分

立達合法徵信社-讓您安心的選擇

台中搬家遵守搬運三大原則,讓您的家具不再被破壞!

台中搬家公司推薦超過30年經驗,首選台中大展搬家

洞悉MySQL底層架構:遊走在緩衝與磁盤之間_台中搬家

台中搬家公司費用怎麼算?

擁有20年純熟搬遷經驗,提供免費估價且流程透明更是5星評價的搬家公司

提起MySQL,其實網上已經有一大把教程了,為什麼我還要寫這篇文章呢,大概是因為網上很多網站都是比較零散,而且描述不夠直觀,不能系統對MySQL相關知識有一個系統的學習,導致不能形成知識體系。為此我撰寫了這篇文章,試圖讓這些底層架構相關知識更加直觀易懂:

  • 盡量以圖文的方式描述技術原理;
  • 涉及到關鍵的技術,附加官網或者技術書籍來源,方便大家進一步擴展學習;
  • 涉及到的背景知識盡可能做一個交代,比如討論到log buffer的刷盤方式,延伸一下IO寫磁盤相關知識點。

好了,MySQL從不會到精通系列馬上就要開始了(看完之後還是不會的話..請忽略這句話)。

可能會有同學問:為啥不直接學更加先進的TiDB,或者是強大的OceanBase。

其實,MySQL作為老牌的應用場景廣泛的關係型開源數據庫,其底層架構是很值得我們學習的,吸收其設計精華,那麼我們在平時的方案設計工作中也可以借鑒,如果項目中用的是MySQL,那麼就能夠把數據庫用的更好了,了解了MySQL底層的執行原理,對於調優工作也是有莫大幫助的。本文我重點講述MySQL底層架構,涉及到:

  • 內存結構buffer poollog bufferchange buffer,buffer pool的頁淘汰機制是怎樣的;
  • 磁盤結構系統表空間獨立表空間通用表空間undo表空間redo log
  • 以及IO相關底層原理、查詢SQL執行流程、數據頁結構行結構描述、聚集索引輔助索引的底層數據組織方式、MVCC多版本併發控制的底層實現原理,以及可重複讀讀已提交是怎麼通過MVCC實現的。

看完文本文,您將了解到:

  1. 整體架構:InnoDB存儲架構是怎樣的 (1、MySQL架構)
  2. 工作原理:查詢語句的底層執行流程是怎樣的 (2、查詢SQL執行流程)
  3. IO性能:文件IO操作寫磁盤有哪幾種方式,有什麼IO優化方式 (3.1.2、關於磁盤IO的方式)
  4. 緩存:InnoDB緩存(buffer pool, log buffer)的刷新方式有哪些(3.1.2.2、innodb_flush_method)
  5. 緩存:log buffer是在什麼時候寫入到磁盤的(3.10.2、如何保證數據不丟失 – 其中第四步log buffer持久化到磁盤的時機為)
  6. 緩存:為什麼redo log prepare狀態也要寫磁盤?(3.10.2、如何保證數據不丟失 – 為什麼第二步redo log prepare狀態也要寫磁盤?)
  7. 緩存:臟頁寫盤一般發生在什麼時候(3.10.2、如何保證數據不丟失 – 其中第五步:臟頁刷新到磁盤的時機為)
  8. 緩存:為什麼唯一索引的更新不可以藉助change buffer(3.2、Change Buffer)
  9. 緩存:log buffer的日誌刷盤控制參數innodb_flush_log_at_trx_commit對寫性能有什麼影響(3.4.1、配置參數)
  10. 緩存:buffer pool的LRU是如何實現的,為什麼要這樣實現(3.1.1、緩衝池LRU算法)
  11. 表存儲:系統表空間的結構,MySQL InnoDB磁盤存儲格式,各種表空間(系統表空間,獨立表空間,通用表空間)的作用和優缺點是什麼,ibdataibdfrm文件分別是幹嘛的(3.5、表空間)
  12. 行字段存儲:底層頁和行的存儲格式(3.6、InnoDB底層邏輯存儲結構)
  13. 行字段存儲:varcharnull底層是如何存儲的,最大可用存儲多大的長度(3.6.3.1、MySQL中varchar最大長度是多少)
  14. 行字段存儲:行記錄太長了,一頁存不下,該怎麼存儲?(3.6.3.2、行記錄超過頁大小如何存儲)
  15. 索引:數據庫索引的組織方式是怎樣的,明白為什麼要採用B+樹,而不是哈希表、二叉樹或者B樹(3.7、索引 – 為什麼MySQL使用B+樹)
  16. 索引:索引組織方式是怎樣的,為什麼大字段會影響表性能(查詢性能,更新性能)(3.7、索引)
  17. 索引:覆蓋索引聯合索引什麼情況下會生效(3.7.2、輔助索引)
  18. 索引:什麼是索引下推,索引下推減少了哪方面的開銷?(3.7.2、輔助索引 – 索引條件下推)
  19. 索引:Change Buffer對二級索引DML語句有什麼優化(3.2、Change Buffer)
  20. 數據完整性:MySQL是如何保證數據完整性的,redo logundo logbuffer pool數據完整性的關鍵作用分別是什麼(3.10.2、如何保證數據不丟失)
  21. MVCC:MVCC底層是怎麼實現的,可重複讀和讀已提交是怎麼實現的(3.11.2、MVCC實現原理)
  22. 雙寫緩衝區有什麼作用(3.9、Doublewrite Buffer)
  23. Redo Log在一個事務中是在什麼時候寫入的?binlog和Redo Log有什麼區別?(3.10.1、Redo Log在事務中的寫入時機)

1、MySQL架構

如下圖為MySQL架構涉及到的常用組件:

2、查詢SQL執行流程

有如下錶格:

我們執行以下sql:

select * from t_user where user_id=10000;

2.1、MySQL客戶端與服務器建立連接

如下圖,建立過程:

  • 客戶端通過mysql命令發起連接請求;
  • 經過三次握手后與服務端建立TCP連接;
  • 連接器接收到請求之後使用用戶密碼進行身份驗證;
  • 驗證通過之後,獲取用戶的權限信息緩存起來,該連接後面都是基於該緩存中的權限執行sql

對於Java應用程序來說,一般會把建立好的連接放入數據庫連接池中進行復用,只要這個連接不關閉,就會一直在MySQL服務端保持着,可以通過show processlist命令查看,如下:

注意,這裡有個Time,表示這個連接多久沒有動靜了,上面例子是656秒沒有動靜,默認地,如果超過8個小時還沒有動靜,連接器就會自動斷開連接,可以通過wait_timeout參數進行控制。

2.2、執行SQL

如下圖,執行sql:

  • 服務端接收到客戶端的查詢sql之後,先嘗試從查詢緩存中查詢該sql是否已經有緩存的結果了,如果有則直接返回結果,如果沒有則執行下一步;
  • 分析器拿到sql之後會嘗試對sql語句進行詞法分析和語法分析,校驗語法的正確性,通過之後繼續往下執行;
  • 優化器拿到分析器的sql之後,開始繼續解析sql,判斷到需要走什麼索引,根據實際情況重寫sql,最終生成執行計劃;
  • 執行器根據執行計劃執行sql,執行之前會先進行操作權限校驗;然後根據表存儲引擎調用對飲接口進行查詢數據,這裏的掃描行數就是指的接口返回的記錄數,執行器拿到返回記錄之後進一步加工,如本例子:
    • 執行器拿到select * from t_user where user_id=10000的所有記錄,在依次判斷user_name是不是等於”arthinking”,獲取到匹配的記錄。

3、InnoDB引擎架構

如下圖,為存儲引擎的架構:

其實內存中的結構不太好直接觀察到,不過磁盤的還是可以看到的,我們找到磁盤中MySQL的數據文件夾看看:

cd innodb_data_home_dir 查看MySQL 數據目錄:

|- ib_buffer_pool  // 保存緩衝池中頁面的表空間ID和頁面ID,用於重啟恢復緩衝池
|- ib_logfile0  // redo log 磁盤文件1
|- ib_logfile1  // redo log 磁盤文件2,默認情況下,重做日誌存在磁盤的這兩個文件中,循環的方式寫入重做日誌
|- ibdata1  // 系統表空間文件
|- ibtmp1  // 默認臨時表空間文件,可通過innodb_temp_data_file_path屬性指定文件位置
|- mysql/
|- mysql-bin.000001  // bin log文件
|- mysql-bin.000001  // bin log文件
...
|- mysql-bin.index  // bin log文件索引
|- mysqld.local.err  // 錯誤日誌
|- mysqld.local.pid  // mysql進程號
|- performance_schema/  // performance_schema數據庫
|- sys/  // sys數據庫
|- test/  // 數據庫文件夾
    |- db.opt  // test數據庫配置文件,包含數據庫字符集屬性
    |- t.frm  // 數據表元數據文件,不管是使用獨立表空間還是系統表空間,每個表都對應有一個
    |- t.ibd  // 數據庫表獨立表空間文件,如果使用的是獨立表空間,則一個表對應一個ibd文件,否則保存在系統表空間文件中

innodb_data_home_dir[1]

ib_buffer_pool[2]

ib_logfile0[3]

ibtmp1[4]

db.opt[5]

接下來我們逐一來介紹。

3.1、buffer pool

buffer pool緩衝池)是主內存中的一個區域,在InnoDB訪問表數據索引數據的時候,會順便把對應的數據頁緩存到緩衝池中。如果直接從緩衝池中直接讀取數據將會加快處理速度。在專用服務器上,通常將80%左右的物理內存分配給緩衝池。

為了提高緩存管理效率,緩衝池把頁面鏈接為列表,使用改進版的LRU算法將很少使用的數據從緩存中老化淘汰掉。

3.1.1、緩衝池LRU算法

通過使用改進版的LRU算法來管理緩衝池列表。

當需要把新頁面存儲到緩衝池中的時候,將淘汰最近最少使用的頁面,並將新頁面添加到舊子列表的頭部。

該算法運行方式:

  • 默認 3/8緩衝池用於舊子列表;
  • 當新頁面如緩衝池時,首先將其插入舊子列表頭部
  • 重複訪問舊子列表的頁面,將使其移動至新子列表的頭部;
  • 隨着數據庫的運行,頁面逐步移至列表尾部,緩衝池中未被方位的頁面最終將被老化淘汰。

相關優化參數:

  • innodb_old_blocks_pct:控制LRU列表中舊子列表的百分比,默認是37,也就是3/8,可選範圍為5~95;
  • innodb_old_blocks_time :指定第一次訪問頁面后的時間窗口,該時間窗口內訪問頁面不會使其移動到LRU列表的最前面。默認是1000,也就是1秒。

innodb_old_blocks_time很重要,有了這1秒,對於全表掃描,由於是順序掃描的,一般同一個數據頁的數據都是在一秒內訪問完成的,不會升級到新子列表中,一直在舊子列表淘汰數據,所以不會影響到新子列表的緩存。

3.1.2、關於磁盤IO的方式

O_DIRECTinnodb_flush_method參數的一個可選值。

這裏先介紹下和數據庫性能密切相關的文件IO操作方法

3.1.2.1、文件IO操作方法

數據庫系統是基於文件系統的,其性能和設備讀寫的機制有密切的關係。

open:打開文件[6]
int open(const char *pathname, int flags);

系統調用Open會為該進程一個文件描述符fd,常用的flags如下:

  • O_WRONLY:表示我們以”寫”的方式打開,告訴內核我們需要向文件中寫入數據;
  • O_DSYNC:每次write都等待物理I/O完成,但是如果寫操作不影響讀取剛寫入的數據,則不等待文件屬性更新;
  • O_SYNC:每次write都等到物理I/O完成,包括write引起的文件屬性的更新;
  • O_DIRECT:執行磁盤IO時繞過緩衝區高速緩存(內核緩衝區),從用戶空間直接將數據傳遞到文件或磁盤設備,稱為直接IO(direct IO)。因為沒有了OS cache,所以會O_DIRECT降低文件的順序讀寫的效率。
write:寫文件[7]
ssize_t write(int fd, const void *buf, size_t count);

使用open打開文件獲取到文件描述符之後,可以調用write函數來寫文件,具體表現根據open函數參數的不同而不同弄。

fsync & fdatasync:刷新文件[8]
#include <unistd.h>

int fsync(int fd);

int fdatasync(int fd);
  • fdatasync:操作完write之後,我們可以調用fdatasync將文件數據塊flush到磁盤,只要fdatasync返回成功,則可以認為數據已經寫到磁盤了;
  • fsync:與O_SYNC參數類似,fsync還會更新文件metadata到磁盤;
  • sync:sync只是將修改過的塊緩衝區寫入隊列,然後就返回,不等實際寫磁盤操作完成;

為了保證文件更新成功持久化到硬盤,除了調用write方法,還需要調用fsync。

大致交互流程如下圖:

更多關於磁盤IO的相關內容,可以閱讀:On Disk IO, Part 1: Flavors of IO[9]

fsync性能問題:除了刷臟頁到磁盤,fsync還會同步文件metadata,而文件數據和metadata通常存放在磁盤不同地方,所以fsync至少需要兩次IO操作。

對fsync性能的優化建議:由於以上性能問題,如果能夠減少metadata的更新,那麼就可以使用fdatasync了。因此需要確保文件的尺寸在write前後沒有發生變化。為此,可以創建固定大小的文件進行寫,寫完則開啟新的文件繼續寫。

3.1.2.2、innodb_flush_method

innodb_flush_method定義用於將數據刷新到InnoDB數據文件和日誌文件的方法,這可能會影響I/O吞吐量。

以下是具體參數說明:

屬性
命令行格式 –innodb-flush-method=value
系統變量 innodb_flush_method
範圍 全局
默認值(Windows) unbuffered
默認值(Unix) fsync
有效值(Windows) unbuffered, normal
有效值(Unix) fsync, O_DSYNC, littlesync, nosync, O_DIRECT, O_DIRECT_NO_FSYNC

比較常用的是這三種:

fsync

默認值,使用fsync()系統調用來flush數據文件和日誌文件到磁盤;

O_DSYNC

由於open函數的O_DSYNC參數在許多Unix系統上都存中問題,因此InnoDB不直接使用O_DSYNC。

InnoDB用於O_SYNC 打開和刷新日誌文件,fsync()刷新數據文件。

表現為:寫日誌操作是在write函數完成,數據文件寫入是通過fsync()系統調用來完成;

O_DIRECT

使用O_DIRECT (在Solaris上對應為directio())打開數據文件,並用於fsync()刷新數據文件和日誌文件。此選項在某些GNU/Linux版本,FreeBSD和Solaris上可用。

表現為:數據文件寫入直接從buffer pool到磁盤,不經過操作系統緩衝,日誌還是需要經過操作系統緩存;

O_DIRECT_NO_FSYNC

在刷新I/O期間InnoDB使用O_DIRECT,並且每次write操作后跳過fsync()系統調用。

此設置適用於某些類型的文件系統,但不適用於其他類型的文件系統。例如,它不適用於XFS。如果不確定所使用的文件系統是否需要fsync()(例如保留所有文件元數據),請改用O_DIRECT。

如下圖所示:

為什麼使用了O_DIRECT配置后還需要調用fsync()?

參考MySQL的這個bug:Innodb calls fsync for writes with innodb_flush_method=O_DIRECT[10]

Domas進行的一些測試表明,如果沒有fsync,某些文件系統(XFS)不會同步元數據。如果元數據會更改,那麼您仍然需要使用fsync(或O_SYNC來打開文件)。

例如,如果在啟用O_DIRECT的情況下增大文件大小,它仍將寫入文件的新部分,但是由於元數據不能反映文件的新大小,因此如果此刻系統發生崩潰,文件尾部可能會丟失。

為此:當重要的元數據發生更改時,請繼續使用fsync或除O_DIRECT之外,也可以選擇使用O_SYNC。

MySQL從v5.6.7起提供了O_DIRECT_NO_FSYNC選項來解決此類問題。

3.2、Change Buffer

change buffer是一種特殊的數據結構,當二級索引頁(非唯一索引)不在緩衝池中時,它們會緩存這些更改 。當頁面通過其他讀取操作加載到緩衝池中時,再將由INSERTUPDATEDELETE操作(DML)產生的change buffer合併到buffer pool的數據頁中。

為什麼唯一索引不可以使用chage buffer?

針對唯一索引,如果buffer pool不存在對應的數據頁,還是需要先去磁盤加載數據頁,才能判斷記錄是否重複,這一步避免不了。

而普通索引是非唯一的,插入的時候以相對隨機的順序發生,刪除和更新也會影響索引樹中不相鄰的二級索引樹,通過使用合併緩衝,避免了在磁盤產生大量的隨機IO訪問獲取普通索引頁。

問題

當有許多受影響的行和許多輔助索引要更新時,change buffer合併可能需要幾個小時,在此期間,I/O會增加,可能會導致查詢效率大大降低,即使在事務提交之後,或者服務器重啟之後,change buffer合併操作也會繼續發生。相關閱讀:Section 14.22.2, “Forcing InnoDB Recovery”

3.3、自適應哈希索引

自適應哈希索引功能由innodb_adaptive_hash_index變量啟用 ,或在服務器啟動時由--skip-innodb-adaptive-hash-index禁用。

3.4、Log Buffer

log buffer(日誌緩衝區)用於保存要寫入磁盤上的log file(日誌文件)的數據。日誌緩存區的內容會定期刷新到磁盤。

日誌緩衝區大小由innodb_log_buffer_size變量定義 。默認大小為16MB。較大的日誌緩衝區可以讓大型事務在提交之前無需將redo log寫入磁盤。

如果您有更新,插入或者刪除多行的事務,嘗試增大日誌緩衝區的大小可以節省磁盤I/O。

3.4.1、配置參數

innodb_flush_log_at_trx_commit

innodb_flush_log_at_trx_commit 變量控制如何將日誌緩衝區的內容寫入並刷新到磁盤。

該參數控制是否嚴格存儲ACID還是嘗試獲取更高的性能,可以通過該參數獲取更好的性能,但是會導致在系統崩潰的過程中導致數據丟失。

可選參數:

  • 0,事務提交之後,日誌只記錄到log buffer中,每秒寫一次日誌到緩存並刷新到磁盤,尚未刷新的日誌可能會丟失;
  • 1,要完全符合ACID,必須使用該值,表示日誌在每次事務提交時寫入緩存並刷新到磁盤;
  • 2,每次事務提交之後,日誌寫到page cache,每秒刷一次到磁盤,尚未刷新的日誌可能會丟失;

innodb_flush_log_at_timeout

innodb_flush_log_at_timeout 變量控制日誌刷新頻率。可讓您將日誌刷新頻率設置為N秒(其中N1 ... 2700,默認值為1)

為了保證數據不丟失,請執行以下操作:

  • 如果啟用了binlog,則設置:sync_binlog=1;
  • innodb_flush_log_at_trx_commit=1;

配置效果如下圖所示:

3.5、表空間

一個InnoDB表及其索引可以在建在系統表空間中,或者是在一個 獨立表空間 中,或在 通用表空間。

  • innodb_file_per_table啟用時,通常是將表存放在獨立表空間中,這是默認配置;
  • innodb_file_per_table禁用時,則會在系統表空間中創建表;
  • 要在通用表空間中創建表,請使用 CREATE TABLE ... TABLESPACE語法。有關更多信息,請參見官方文檔 14.6.3.3 General Tablespaces。

表空間概覽圖:

表空間涉及的文件

相關文件默認在磁盤中的innodb_data_home_dir目錄下:

|- ibdata1  // 系統表空間文件
|- ibtmp1  // 默認臨時表空間文件,可通過innodb_temp_data_file_path屬性指定文件位置
|- test/  // 數據庫文件夾
    |- db.opt  // test數據庫配置文件,包含數據庫字符集屬性
    |- t.frm  // 數據表元數據文件,不管是使用獨立表空間還是系統表空間,每個表都對應有一個
    |- t.ibd  // 數據庫表獨立表空間文件,如果使用的是獨立表空間,則一個表對應一個ibd文件,否則保存在系統表空間文件中

frm文件

創建一個InnoDB表時,MySQL 在數據庫目錄中創建一個.frm文件。frm文件包含MySQL表的元數據(如表定義)。每個InnoDB表都有一個.frm文件。

與其他MySQL存儲引擎不同, InnoDB它還在系統表空間內的自身內部數據字典中編碼有關表的信息。MySQL刪除表或數據庫時,將刪除一個或多個.frm文件以及InnoDB數據字典中的相應條目。

因此,在InnoDB中,您不能僅通過移動.frm 文件來移動表。有關移動InnoDB 表的信息,請參見官方文檔14.6.1.4 Moving or Copying InnoDB Tables。

ibd文件

對於在獨立表空間創建的表,還會在數據庫目錄中生成一個 .ibd表空間文件。

通用表空間中創建的表在現有的常規表空間 .ibd文件中創建。常規表空間文件可以在MySQL數據目錄內部或外部創建。有關更多信息,請參見官方文檔14.6.3.3 General Tablespaces。

ibdata文件

系統表空間文件,在 InnoDB系統表空間中創建的表在ibdata中創建。

3.5.1、系統表空間

系統表空間由一個或多個數據文件(ibdata文件)組成。其中包含與InnoDB相關對象有關的元數據(InnoDB 數據字典 data dictionary),以及更改緩衝區change buffer), 雙寫緩衝區doublewrite buffer)和撤消日誌undo logs)的存儲區 。

InnoDB 如果表是在系統表空間中創建的,則系統表空間中也包含表的表數據和索引數據。

系統表空間的問題

在MySQL 5.6.7之前,默認設置是將所有InnoDB表和索引保留 在系統表空間內,這通常會導致該文件變得非常大。因為系統表空間永遠不會縮小,所以如果先加載然後刪除大量臨時數據,則可能會出現存儲問題。

在MySQL 5.7中,默認設置為 獨立表空間模式,其中每個表及其相關索引存儲在單獨的 .ibd文件中。此默認設置使使用Barracuda文件格式的InnoDB功能更容易使用,例如表壓縮頁外列的有效存儲以及大索引鍵前綴(innodb_large_prefix)。

將所有表數據保留在系統表空間或單獨的 .ibd文件中通常會對存儲管理產生影響。

InnoDB在MySQL 5.7.6中引入了通用表空間[11],這些表空間也由.ibd文件表示 。通用表空間是使用CREATE TABLESPACE語法創建的共享表空間。它們可以在MySQL數據目錄之外創建,能夠容納多個表,並支持所有行格式的表。

3.5.2、獨立表空間

MySQL 5.7中,配置參數:innodb_file_per_table,默認處於啟用狀態,這是一個重要的配置選項,會影響InnoDB文件存儲,功能的可用性和I/O特性等。

啟用之後,每個表的數據和索引是存放在單獨的.ibd文件中的,而不是在系統表空間的共享ibdata文件中。

優點

  • 您可以更加靈活的選擇數據壓縮[12]的行格式,如:
    • 默認情況下(innodb_page_size=16K),前綴索引[13]最多包含768個字節。如果開啟innodb_large_prefix,且Innodb表的存儲行格式為 DYNAMIC 或 COMPRESSED,則前綴索引最多可包含3072個字節,前綴索引也同樣適用;
  • TRUNCATE TABLE執行的更快,並且回收的空間不會繼續保留,而是讓操作系統使用;
  • 可以在單獨的存儲設備上創建每表文件表空間數據文件,以進行I / O優化,空間管理或備份。請參見 14.6.1.2 Creating Tables Externally;

缺點

  • 獨立表空間中的未使用空間只能由同一個表使用,如果管理不當,會造成空間浪費;
  • 多個表需要刷盤,只能執行多次fsync,無法合併多個表的寫操作,這可能會導致更多的fsync操作總數;
  • mysqld必須為每個表文件空間保留一個打開的文件句柄,如果表數量多,可能會影響性能;
  • 每個表都需要自己的數據文件,需要更多的文件描述符;

即使啟用了innodb_file_per_table參數,每張表空間存放的只是數據、索引和插入緩存Bitmap頁,其他數據如回滾信息、插入緩衝索引頁、系統事務信息、二次寫緩衝等還是存放在原來的共享表空間中。

3.5.3、通用表空間

通用表空間使用CREATE TABLESPACE語法創建。

類似於系統表空間,通用表空間是共享表空間,可以存儲多個表的數據。

通用表空間比獨立表空間具有潛在的內存優勢,服務器在表空間的生存期內將表空間元數據保留在內存中。一個通用表空間通常可以存放多個表數據,消耗更少的表空間元數據內存。

數據文件可以放置在MySQL數據目錄或獨立於MySQL數據目錄。

3.5.4、undo表空間

undo表空間包含undo log。

innodb_rollback_segments變量定義分配給每個撤消表空間的回滾段的數量。

undo log可以存儲在一個或多個undo表空間中,而不是系統表空間中。

在默認配置中,撤消日誌位於系統表空間中。SSD存儲更適合undo log的I/O模式,為此,可以把undo log存放在有別於系統表空間的ssd硬盤中。

innodb_undo_tablespaces 配置選項控制undo表空間的數量。

3.5.5、臨時表空間

由用戶創建的非壓縮臨時表和磁盤內部臨時表是在共享臨時表空間中創建的。

innodb_temp_data_file_path 配置選項指定零時表空間文件的路徑,如果未指定,則默認在 innodb_data_home_dir目錄中創建一個略大於12MB 的自動擴展數據文件ibtmp1

使用ROW_FORMAT=COMPRESSED屬性創建的壓縮臨時表,是在獨立表空間中的臨時文件目錄中創建的 。

服務啟動的時候創建臨時表空間,關閉的時候銷毀臨時表空間。如果臨時表空間創建失敗,則意味着服務啟動失敗。

3.6、InnoDB底層邏輯存儲結構

在介紹索引之前,我們有必要了解一下InnoDB底層的邏輯存儲結構,因為索引是基於這個底層邏輯存儲結構創建的。截止到目前,我們所展示的都僅僅是物理磁盤中的邏輯視圖,接下來我們就來看看底層的視圖。

3.6.1、ibd文件組織結構

現在我們打開一個表空間ibd文件,看看裏面都是如何組織數據的?

如下圖,表空間由段(segment)、區(extent)、頁(page)組成。

InnoDB最小的存儲單位是頁,默認每個頁大小是16k。

而InnoDB存儲引擎是面向行的(row-oriented),數據按行進行存放,每個頁規定最多允許存放的行數=16k/2 – 200,即7992行。

段:如數據段、索引段、回滾段等。InnoDB存儲引擎是B+樹索引組織的,所以數據即索引,索引即數據。B+樹的恭弘=叶 恭弘子節點存儲的都是數據段的數據。

3.6.2、數據頁結構[14]

名稱 佔用空間 描述
Fil Header 38 byte 頁的基本信息,如所屬表空間,上一頁和下一頁指針。
Page Header 56 byte 數據頁專有的相關信息
Infimun + Supremum 26 byte 兩個虛擬的行記錄,用於限定記錄的邊界
User Records 動態分配 實際存儲的行記錄內容
Free Space 動態調整 尚未使用的頁空間
Page Directory 動態調整 頁中某些記錄的相對位置
Fil Trailer 8 byte 校驗頁是否完整

關於Infimun和Supremum:首次創建索引時,InnoDB會在根頁面中自動設置一個最小記錄和一個最高記錄,並且永遠不會刪除它們。最低記錄和最高記錄可以視為索引頁開銷的一部分。最初,它們都存在於根頁面上,但是隨着索引的增長,最低記錄將存在於第一或最低恭弘=叶 恭弘子頁上,最高記錄將出現在最後或最大關鍵字頁上。

3.6.3、行記錄結構描述[15]

先來講講Compact行記錄格式,Compact是MySQL5.0引入的,設計目標是高效的存儲數據,讓一個頁能夠存放更多的數據,從而實現更快的B+樹查找。

名稱 描述
變長字段長度列表 字段大小最多用2個字節表示,也就是最多限制長度:2^16=65535個字節;字段大小小於255字節,則用1個字節表示;
NULL標誌位 記錄該行哪些位置的字段是null值
記錄頭信息 記錄頭信息信息,固定佔用5個字節
列1數據 實際的列數據,NULL不佔用該部分的空間
列2數據

記錄頭用於將連續的記錄鏈接在一起,並用於行級鎖定。

每行數據除了用戶定義的列外,還有兩個隱藏列:

  • 6個字節的事務ID列;
  • 7個字節的回滾指針列;
  • 如果InnoDB沒有指定主鍵,還會增加一個6個字節的rowid列;

而記錄頭信息包[16]含如下內容:

名稱 大小(bit) 描述
() 1 未知
() 1 未知
deleted_flag 1 該行是否已被刪除
min_rec_flag 1 如果該記錄是預定義的最小記錄,則為1
n_owned 4 該記錄擁有的記錄數
heap_no 13 索引堆中該條記錄的排序號
record_type 3 記錄類型:000 普通,001 B+樹節點指針,010 Infimum,011 Supremum,1xx 保留
next_record 16 指向頁中下一條記錄

更詳細的頁結構參考官網:22.2 InnoDB Page Structure

更詳細的行結構參考官網:22.1 InnoDB Record Structure

更詳細的行格式參考官網:14.11 InnoDB Row Formats

根據以上格式,可以得出數據頁內的記錄組織方式:

3.6.3.1、MySQL中varchar最大長度是多少

上面表格描述我們知道,一個字段最長限制是65535個字節,這是存儲長度的限制。

而MySQL中對存儲是有限制的,具體參考:8.4.7 Limits on Table Column Count and Row Size

  • MySQL對每個表有4096列的硬限制,但是對於給定的表,有效最大值可能會更少;
  • MySQL表的每行行最大限製為65,535字節,這是邏輯的限制;實際存儲的時候,表的物理最大行大小略小於頁面的一半。如果一行的長度少於一頁的一半,則所有行都將存儲在本地頁面內。如果它超過一頁的一半,那麼將選擇可變長度列用於外部頁外存儲,直到該行大小控制在半頁之內為止。

而實際能夠存儲的字符是跟編碼有關的。

背景知識:

  • MySQL 4.0版本以下,varchar(10),代表10個字節,如果存放UTF8漢字,那麼只能存3個(每個漢字3字節);

  • MySQL 5.0版本以上,varchar(10),指的是10個字符,無論存放的是数字、字母還是UTF8漢字(每個漢字3字節),都可以存放10個,最大大小是65532字節

因此,Mysql5根據編碼不同,存儲大小也不同。

那麼假設我們使用的是utf8編碼,那麼每個字符最多佔用3個字節,也就是最多定義varchar(21845)個字符,如果是ascii編碼,一個字符相當於一個字節,最多定義varchar(65535)個字符,下面我們驗證下。

我們嘗試創建一個這樣的字段:

CREATE TABLE `t10` ( `id` int(11) NOT NULL,
                  `a` int(11) NOT NULL,
                  PRIMARY KEY (`id`)
                 ) ENGINE=InnoDB CHARSET=ascii ROW_FORMAT=Compact;


alter table t10 add `str` varchar(21845) DEFAULT NULL;

alter table t10 add `str` varchar(65535) DEFAULT NULL;

發現提示這個錯誤:

mysql> alter table t10 add `str` varchar(65535) DEFAULT NULL;
ERROR 1118 (42000): Row size too large. The maximum row size for the used table type, not counting BLOBs, is 65535. This includes storage overhead, check the manual. You have to change some columns to TEXT or BLOBs

原因是按照以上的行格式介紹,變長字段長度列表記錄也需要佔用空間,佔用2個字節,另外這裡是允許為空字段,在8位之內,所以NULL標誌位佔用1個字節,所以我們總共可以存儲的字符數是:

65535 – 2 – 2 – 4 – 4=65534

其中 -2 個字節表示變長字段列表,-1表示NULL標誌位,兩個-4表示兩個int類型字段佔用大小

所以實際上能夠容納的varchar大小為:65524,我們驗證下:

3.6.3.2、行記錄超過頁大小如何存儲

MySQL表的內部表示具有65,535字節的最大行大小限制。InnoDB 對於4KB,8KB,16KB和32KB innodb_page_size 設置,表的最大行大小(適用於本地存儲在數據庫頁面內的數據)略小於頁面的一半 。如果包含 可變長度列的InnoDB 行超過最大行大小,那麼將選擇可變長度列用於外部頁外存儲。

可變長度列由於太長而無法容納在B樹頁面上,這個時候會把可變長度列存儲在單獨分配的磁盤頁面上,這些頁面稱為溢出頁面,這些列稱為頁外列。頁外列的值存儲在由溢出頁面構成的單鏈接列表中。

InnoDB存儲引擎支持四種行格式:REDUNDANTCOMPACTDYNAMIC,和COMPRESSED。不同的行格式,對溢出的閾值和處理方式有所區別,詳細參考:14.11 InnoDB Row Formats。

COMPACT行格式處理方式

使用COMPACT行格式的表將前768個字節的變長列值(VARCHARVARBINARYBLOBTEXT類型)存儲在B樹節點內的索引記錄中,其餘的存儲在溢出頁上。

台中搬家遵守搬運三大原則,讓您的家具不再被破壞!

台中搬家公司推薦超過30年經驗,首選台中大展搬家

如果列的值等於或小於768個字節,則不使用溢出頁,因此可以節省一些I / O。

如果查過了768個字節,那麼會按照如下方式進行存儲:

DYNAMIC行格式處理方式

DYNAMIC行格式提供與COMPACT行格式相同的存儲特性,但改進了超長可變長度列的存儲能力和支持大索引鍵前綴。

InnoDB 可以完全在頁外存儲過長的可變長度列值(針對 VARCHARVARBINARYBLOBTEXT類型),而聚集索引記錄僅包含指向溢出頁的20字節指針。大於或等於768字節的固定長度字段被編碼為可變長度字段。

表中大字段引發的問題

如果一個表中有過多的可變長度大字段,導致一行記錄太長,而整個時候使用的是COMPACT行格式,那麼就可能會插入數據報錯。

如,頁面大小事16k,根據前面描述我們知道,MySQL限制一頁最少要存儲兩行數據,如果很多可變長度大字段,在使用COMPACT的情況下,仍然會把大字段的前面768個字節存在索引頁中,可以算出最多支持的大字段:1024 * 16 / 2 / 768 = 10.67,那麼超過10個可變長度大字段就會插入失敗了。

這個時候可以把row format改為:DYNAMIC。

3.7、索引

前面我們了解了InnoDB底層的存儲結構,即:以B+樹的方式組織數據頁。另外了解了數據頁中的數據行的存儲方式。

而構建B+樹索引的時候必須要選定一個或者多個字段作為索引的值,如果索引選擇的是主鍵,那麼我們就稱為聚集索引,否則就是二級索引。

為什麼MySQL使用B+樹?

  • 哈希表雖然可以提供O(1)的單行數據操作性能,但卻不能很好的支持排序和範圍查找,會導致全表掃描;
  • B樹可以再非恭弘=叶 恭弘子節點存儲數據,但是這可能會導致查詢連續數據的時候增加更多的I/O操作;
  • 而B+樹數據都存放在恭弘=叶 恭弘子節點,恭弘=叶 恭弘子節點通過指針相互連接,可以減少順序遍歷時產生的額外隨機I/O

更新詳細解釋: 為什麼 MySQL 使用 B+ 樹[17]

3.7.1、聚集索引

了解到上面的底層邏輯存儲結構之後,我們進一步來看看InnoDB是怎麼通過B+樹來組織存儲數據的。

首先來介紹下聚集索引。

聚集索引

主鍵索引的InnoDB術語。

下面我們創建一張測試表,並插入數據,來構造一顆B+樹:

CREATE TABLE t20 (
id int NOT NULL,
a int NOT NULL,
b int,
c int,
PRIMARY KEY (`id`)
) ENGINE=InnoDB;

insert into t20 values(20, 1, 2, 1);
insert into t20 values(40, 1, 2, 5);
insert into t20 values(30, 3, 2, 4);
insert into t20 values(50, 3, 6, 2);
insert into t20 values(10, 1, 1, 1);

可以看到,雖然我們是id亂序插入的,但是插入之後查出來的確是排序好的:

這個排序就是B+索引樹構建的。

我們可以通過這個在線的動態演示工具來看看B+樹的構造過程,最終結果如下:

實際存放在數據庫中的模型因頁面大小不一樣而有所不同,這裏為了簡化模型,我們按照B+樹的通用模型來解釋數據的存儲結構。

類似的,我們的數據也是這種組織形式的,該B+樹中,我們以主鍵為索引進行構建,並且把完整的記錄存到對應的頁下面:

其中藍色的是索引頁,橙色的是數據頁。

每個頁的大小默認為16k,如果插入新的數據行,這個時候就要申請新的數據頁了,然後挪動部分數據過去,重新調整B+樹,這個過程稱為頁分裂,這個過程會影響性能。

相反的,如果InnoDB索引頁的填充因子下降到之下MERGE_THRESHOLD,默認情況下為50%(如果未指定),則InnoDB嘗試收縮索引樹以釋放頁面。

自增主鍵的插入是遞增順序插入的,每次添加記錄都是追加的,不涉及到記錄的挪動,不會觸發恭弘=叶 恭弘子節點的分裂,而一般業務字段做主鍵,往往都不是有序插入的,寫成本比較高,所以我們更傾向於使用自增字段作為主鍵。

聚集索引注意事項

  • 當在表上面定義了PRIMARY KEY之後,InnoDB會把它作為聚集索引。為此,為你的每個表定義一個PRIMARY KEY。如果沒有唯一併且非空的字段或者一組列,那麼請添加一個自增列;
  • 如果您沒有為表定義PRIMARY KEY,則MySQL會找到第一個不帶null值的UNIQUE索引,並其用作聚集索引;
  • 如果表沒有PRIMARY KEY或沒有合適的UNIQUE索引,則InnoDB 內部會生成一個隱藏的聚集索引GEN_CLUST_INDEX,作為行ID,行ID是一個6字節的字段,隨着數據的插入而自增。

聚集索引查找

根據索引進行查找id=50的記錄,如下圖,沿着B+樹一直往下尋找,最終找到第四頁,然後把該頁加載到buffer pool中,在緩存中遍歷對比查找,由於裏面的行記錄是順序組織的,所以很快就可以定位到記錄了。

3.7.2、輔助索引

除了聚集索引之外的所有索引都稱為輔助索引(二級索引)。在InnoDB中,輔助索引中每個記錄都包含該行的主鍵列以及為輔助索引指定的列。

在輔助索引中查找到記錄,可以得到記錄的主鍵索引ID,然後可以通過這個主鍵索引ID去聚集索引中搜索具體的記錄,這個過程稱為回表操作。

如果主鍵較長,則輔助索引將使用更多空間,因此具有短的主鍵是有利的。

下面我們給剛剛的表添加一個組合聯合索引

-- 添加多一個字段
alter table t20 add column d varchar(20) not null default '';
-- 添加一個聯合索引
alter table t20 add index idx_abc(a, b, c);

添加之後組合索引B+樹如下,其中索引key為abc三個字段的組合,索引存儲的記錄為主鍵ID:

覆蓋索引(Using index)

InnoDB存儲引擎支持覆蓋索引,即從輔助索引中就可以得到查詢的記錄,而不需要回表去查詢聚集索引中的記錄,從而減少大量的IO操作。下面的查詢既是用到了覆蓋索引 idx_abc:

select a, b from t20 where a > 2;

執行結果如下:

可以發現,Extra這一列提示Using index,使用到了覆蓋索引,掃描的行數為2。注意:這裏的掃描行數指的是MySQL執行器從引擎取到兩條記錄,引擎內部可能會遍歷到多條記錄進行條件比較。

最左匹配原則

由於InnoDB索引式B+樹構建的,因此可以利用索引的“最左前綴”來定位記錄。

也就是說,不僅僅是用到索引的全部定義字段會走索引,只要滿足最左前綴,就可以利用索引來加速檢索。這個最左前綴可以是聯合索引的最左n個字段。

索引條件下推(Using index condition)

索引條件下推 Index Condition Pushdown (ICP),是針對MySQL使用索引從表中檢索行的情況的一種優化。

為什麼叫下推呢,就是在滿足要求的情況下,把索引的條件丟給存儲引擎去判斷,而不是把完整的記錄傳回MySQL Server層去判斷。

ICP支持range, ref, eq_ref, 和 ref_or_null類型的查找,支持MyISAM和InnoDB存儲引擎。

不能將引用子查詢的條件下推,觸發條件不能下推。詳細規則參考:Index Condition Pushdown

如果不使用ICP,則存儲引擎將遍歷索引以在聚集索引中定位行,並將結果返回給MySQL Server層,MySQL Server層繼續根據WHERE條件進行篩選行。

啟用ICP后,如果WHERE可以僅使用索引中的列來評估部分條件,則MySQL Server層會將這部分條件壓入WHERE條件下降到存儲引擎。然後,存儲引擎通過使用索引條目來判斷索引條件,在滿足條件的情況下,才回表去查找記錄返回給MySQL Server層。

ICP的目標是減少回表掃描的行數,從而減少I / O操作。對於InnoDB表,ICP僅用於二級索引。

使用索引下推的時候,執行計劃中的Extra會提示:Using index condition,而不是Using index,因為必須回表查詢整行數據。Using index代表使用到了覆蓋索引。

3.8、InnoDB Data Directory

InnoDB數據字典(Data Directory)存放於系統表空間中,主要包含元數據,用於追蹤表、索引、表字段等信息。由於歷史的原因,InnoDB數據字典中的元數據與.frm文件中的元數據重複了。

3.9、Doublewrite Buffer

雙寫緩衝區(Doublewrite Buffer)是一個存儲區,是InnoDB在tablespace上的128個頁(2個區),大小是2MB[18]

版本區別:在MySQL 8.0.20之前,doublewrite緩衝區存儲區位於InnoDB系統表空間中。從MySQL 8.0.20開始,doublewrite緩衝區存儲區位於doublewrite文件中。

本文基於MySQL 5.7編寫。

操作系統寫文件是以4KB為單位的,那麼每寫一個InnoDB的page到磁盤上,操作系統需要寫4個塊。如果寫入4個塊的過程中出現系統崩潰,那麼會導致16K的數據只有一部分寫是成功的,這種情況下就是partial page write(部分頁寫入)問題。

InnoDB這個時候是沒法通過redo log來恢復的,因為這個時候頁面的Fil Trailer(Fil Trailer 主要存放FIL_PAGE_END_LSN,主要包含頁面校驗和以及最後的事務)中的數據是有問題的。

為此,每當InnoDB將頁面寫入到數據文件中的適當位置之前,都會首先將其寫入雙寫緩衝區。只有將緩衝區安全地刷新到磁盤后,InnoDB才會將頁面寫入最終的數據文件。

如果在頁面寫入過程中發生操作系統或者mysqld進程崩潰,則InnoDB可以在崩潰恢復期間從雙寫緩衝區中找到頁面的完好副本用於恢復。恢復時,InnoDB掃描雙寫緩衝區,併為緩衝區中的每個有效頁面檢查數據文件中的頁面是否完整。

如果系統表空間文件(“ ibdata文件 ”)位於支持原子寫的Fusion-io設備上,則自動禁用雙寫緩衝,並且將Fusion-io原子寫用於所有數據文件。

3.10、Redo Log

重做日誌(Redo Log)主要適用於數據庫的崩潰恢復,用於實現數據的完整性。

重做日誌由兩部分組成:

  • 重做日誌緩衝區 Log Buffer;
  • 重做日誌文件,重做日誌文件在磁盤上由兩個名為ib_logfile0ib_logfile1的物理文件表示。

為了實現數據完整性,在臟頁刷新到磁盤之前,必須先把重做日誌寫入到磁盤。除了數據頁,聚集索引、輔助索引以及Undo Log都需要記錄重做日誌。

3.10.1、Redo Log在事務中的寫入時機

在事務中,除了寫Redo log,還需要寫binlog,為此,我們先來簡單介紹下binlog。

3.10.1.1、binlog

全寫:Binary Log,二進制log。二進制日誌是一組日誌文件。其中包含有關對MySQL服務器實例進行的數據修改的信息。

Redo Log是InnoDB引擎特有的,而binlog是MySQL的Server層實現的,所有引擎都可以使用。

Redo Log的文件是循環寫的,空間會用完,binlog日誌是追加寫的,不會覆蓋以前的日誌。

binlog主要的目的:

  • 主從同步,主服務器將二進制日誌中包含的事件發送到從服務器,從服務器執行這些事件,以保持和主服務器相同的數據更改;
  • 某些數據恢復操作需要使用二進制日誌,還原到某一個備份點。

binlog主要是用於主從同步和數據恢復,Redo Log主要是用於實現事務數據的完整性,讓InnoDB具有不會丟失數據的能力,又稱為crash-safe。

binlog日誌的兩種記錄形式:

  • 基於SQL的日誌記錄:事件包含產生數據更改(插入,新增,刪除)的SQL語句;
  • 基於行的日誌記錄:時間描述對單個行的更改。

混合日誌記錄默認情況下使用基於語句的日誌記錄,但根據需要自動切換到基於行的日誌記錄。

3.10.1.2、Redo Log在事務中的寫入時機

簡單的介紹完binlog,我們再來看看Redo Log的寫入流程。

假設我們這裏執行一條sql

update t20 set a=10 where id=1;

執行流程如下:

3.10.2、如何保證數據不丟失

前面我們介紹Log Buffer的時候,提到過,為了保證數據不丟失,我們需要執行以下操作:

  • 如果啟用了binlog,則設置:sync_binlog=1;
  • innodb_flush_log_at_trx_commit=1;
  • sync_binlog=0:表示每次提交事務都只 write,不 fsync;
  • sync_binlog=1:表示每次提交事務都會執行 fsync;
  • sync_binlog=N(N>1) :表示每次提交事務都 write,但累積 N 個事務后才 fsync。

這兩個的作用相當於在上面的流程最後一步,提交事務接口返回Server層之前,把binlog cache和log buffer都fsync到磁盤中了,這樣就保證了數據的落盤,不會丟失,即使奔潰了,也可以通過binlog和redo log恢複數據相關流程如下:

在磁盤和內存中的處理流程如下面編號所示:

其中第四步log buffer持久化到磁盤的時機為:

  • log buffer佔用的空間即將達到innodb_log_buffer_size一半的時候,後台線程主動寫盤;
  • InnoDB後台有個線程,每隔1秒會把log buffer刷到磁盤;
  • 由於log buffer是所有線程共享的,當其他事務線程提交時也會導致已寫入log buffer但還未提交的事務的redo log一起刷新到磁盤

其中第五步:臟頁刷新到磁盤的時機為:

  • 系統內存不足,需要淘汰臟頁的時候,要把臟頁同步回磁盤;
  • MySQL空閑的時候;
  • MySQL正常關閉的時候,會把臟頁flush到磁盤。

參數innodb_max_dirty_pages_pct是臟頁比例上限,默認值是 75%。

為什麼第二步 redo log prepare狀態也要寫磁盤?

因為這裏先寫了,才能確保在把binlog寫到磁盤后崩潰,能夠恢複數據:如果判斷到redo log是prepare狀態,那麼查看是否存XID對應的binlog,如果存在,則表示事務成功提交,需要用prepare狀態的redo log進行恢復。

這樣即使崩潰了,也可以通過redo log來進行恢復了,恢複流程如下:

Redo Log是循環寫的,如下圖:

  • writepos記錄了當前寫的位置,一邊寫位置一邊往前推進,當writepos與checkpoint重疊的時候就表示logfile寫滿了,綠色部分表示是空閑的空間,紅色部分是寫了redo log的空間;
  • checkpoint處標識了當前的LSN,每當系統崩潰重啟,都會從當前checkpoint這個位置執行重做日誌,根據重做日誌逐個確認數據頁是否沒問題,有問題就通過redo log進行修復。

LSN Log Sequence Number的縮寫。代表日誌序列號。在InnoDB中,LSN佔用8個字節,單調遞增,LSN的含義:

  • 重做日誌寫入的總量;
  • checkpoint的位置;
  • 頁的版本;

除了重做日誌中有LSN,每個頁的頭部也是有存儲了該頁的LSN,我們前面介紹頁面格式的時候有介紹過。

在頁中LSN表示該頁最後刷新時LSN的大小。[19]

3.11、Undo Logs

上面說的redo log記錄了事務的行為,可以通過其對頁進行重做操作,但是食物有時候需要進行回滾,這時候就需要undo log了[20]

關於Undo Log的存儲:InnoDB中有回滾段(rollback segment),每個回滾段記錄1024個undo log segment,在每個undo log segment段中進行申請undo頁。系統表空間偏移量為5的頁記錄了所有的rollback segment header所在的頁。

3.11.1、undo log的格式

根據行為不同分為兩種:

insert undo log

insert undo log:只對事務本身可見,所以insert undo log在事務提交后可直接刪除,無需執行purge操作;

insert undo log主要記錄了:

next 記錄下一個undo log的位置
type_cmpl undo的類型:insert or update
*undo_no 記錄事務的ID
*table_id 記錄表對象
*len1, col1 記錄列和值
*len2, col2 記錄列和值
start 記錄undo log的開始位置

假設在事務1001中,執行以下sql,t20的table_id為10:

insert into t20(id, a, b, c, d) values(12, 2, 3, 1, "init")

那麼對應會生成一條undo log:

update undo log

update undo log:執行update或者delete會產生undo log,會影響已存在的記錄,為了實現MVCC(後邊介紹),update undo log不能再事務提交時立刻刪除,需要將事務提交時放入到history list上,等待purge線程進行最後的刪除操作。

update undo log主要記錄了:

next 記錄下一個undo log的位置
type_cmpl undo的類型:insert or update
*undo_no undo日誌編號
*table_id 記錄表對象
info_bits
*DATA_TRX_ID 事務的ID
*DATA_ROLL_PTR 回滾指針
*len1, i_col1 n_unique_index
*len2, i_col2
n_update_fields 以下是update vector信息,表示update操作導致發送改變的列
*pos1, *len1, u_old_col1
*pos2, *len2, u_old_col2
n_bytes_below
*pos, *len, col1
*pos, *len, col2
start 記錄undo log的開始位置

假設在事務1002中,執行以下sql,t20的table_id為10:

update t20 set d="update1" where id=60;

那麼對應會生成一條undo log:

如上圖,每回退應用一個undo log,就回退一個版本,這就是MVCC(Multi versioning concurrency control)的實現原理。

下面我們在執行一個delete sql:

delete from t20 where id=60;

對應的undo log變為如下:

如上圖,實際的行記錄不會立刻刪除,而是在行記錄頭信息記錄了一個deleted_flag標誌位。最終會在purge線程purge undo log的時候進行實際的刪除操作,這個時候undo log也會清理掉。

3.11.2、MVCC實現原理

如上圖所示,MySQL只會有一個行記錄,但是會把每次執行的sql導致行記錄的變動,通過undo log的形式記錄起來,undo log通過回滾指針連接在一起,這樣我們想回溯某一個版本的時候,就可以應用undo log,回到對應的版本視圖了。

我們知道InnoDB是支持RC(Read Commit)和RR(Repeatable Read)事務隔離級別的,而這個是通過一致性視圖(consistent read view)實現的。

一個事務開啟瞬間,所有活躍的事務(未提交)構成了一個視圖數組,InnoDB就是通過這個視圖數組來判斷行數據是否需要undo到指定的版本:

RR事務隔離級別

假設我們使用了RR事務隔離級別。我們看個例子:

如下圖,假設id=60的記錄a=1

事務C啟動的瞬間,活躍的事務如下圖黃色部分所示:

也就是對於事務A、事務B、事務C,他們能夠看到的數據只有是行記錄中的最大事務IDDATA_TRX_ID<=11的,如果大於,那麼只能通過undo進行回滾了。如果TRX_ID=當前事務id,也可以看到,即看到自己的改動。

另外有一個需要注意的:

  • 在RR隔離級別下,當事務更新事務的時候,只能用當前讀來獲取最新的版本數據來更新,如果當前記錄的行鎖被其他事務佔用,就需要進入所等待;
  • 在RC隔離級別下,每個語句執行都會計算出新的一致性視圖。

所以我們分析上面的例子的執行流程:

  • 事務C執行update,執行當前讀,拿到的a=1,然後+1,最終a=2,同時添加一個TRX_ID=11的undo log;
  • 事務B執行select,使用快照讀,記錄的DATA_TRX_ID > 11,所以需要通過undo log回滾到DATA_TRX_ID=11的版本,所以拿到的a是1;
  • 事務B執行update,需要使用當前讀,拿到最新的記錄,a=2,然後加1,最終a=3;
  • 事務B執行select,拿到當前最新的版本,為自己的事務id,所以得到a=3;
  • 事務A執行select,使用快照讀,記錄的DATA_TRX_ID > 11,所以需要通過undo log回滾到DATA_TRX_ID=11的版本,所以拿到的a是1。
  • 如果是RC隔離級別,執行select的時候會計算出新的視圖,新的視圖能夠看到的最大事務ID=14,由於事務B還沒提交,事務C提交了,所以可以得到a=2:

總結

  • 數據完整性依靠:redo log
  • 事務隔離級別的實現依靠MVCC,MVCC依靠undo log實現
  • IO性能提升方式:buffer pool加快查詢效率和普通索引更新的效率,log buffer對日誌寫的性能提升
  • 查詢性能提升依賴於索引,底層用頁存儲,字段越小頁存儲越多行記錄,查詢效率越快;自增字段作為聚集索引可以加快插入操作;
  • 故障恢復:雙寫緩衝區、redo log
  • 主從同步:binlog

本文內容比較多,看完之後需要多梳理,最後大家可以對照着這個思維導圖回憶一下,這些內容是否都記住了:

這篇文章的內容就差不多介紹到這裏了,能夠閱讀到這裏的朋友真的是很有耐心,為你點個贊。

本文為arthinking基於相關技術資料和官方文檔撰寫而成,確保內容的準確性,如果你發現了有何錯漏之處,煩請高抬貴手幫忙指正,萬分感激。

大家可以關注我的博客:itzhai.com 獲取更多文章,我將持續更新後端相關技術,涉及JVM、Java基礎、架構設計、網絡編程、數據結構、數據庫、算法、併發編程、分佈式系統等相關內容。

如果您覺得讀完本文有所收穫的話,可以關注我的賬號,或者點贊吧,碼字不易,您的支持就是我寫作的最大動力,再次感謝!

關注我的公眾號,及時獲取最新的文章。

更多文章

  • JVM系列專題:公眾號發送 JVM

本文作者: arthinking

博客鏈接: https://www.itzhai.com/database/insight-into-the-underlying-architecture-of-mysql-buffer-and-disk.html

洞悉MySQL底層架構:遊走在緩衝與磁盤之間

版權聲明: BY-NC-SA許可協議:創作不易,如需轉載,請聯繫作者,謝謝!

References

  1. innodb_data_home_dir. Retrieved from https://dev.mysql.com/doc/refman/5.7/en/innodb-parameters.html#sysvar_innodb_data_home_dir ↩︎

  2. ib_buffer_pool. Retrieved from https://dev.mysql.com/doc/refman/5.6/en/innodb-preload-buffer-pool.html ↩︎

  3. ib_logfile0. Retrieved from https://dev.mysql.com/doc/refman/5.7/en/innodb-redo-log.html ↩︎

  4. ibtmp1. Retrieved from https://dev.mysql.com/doc/refman/5.7/en/innodb-temporary-tablespace.html ↩︎

  5. db.opt. Retrieved from https://dev.mysql.com/doc/refman/8.0/en/data-dictionary-file-removal.html ↩︎

  6. Linux Programmer’s Manual – OPEN(2). (2020-02-09). Retrieved from http://man7.org/linux/man-pages/man2/open.2.html ↩︎

  7. man-pages.write. (2019-10-10). Retrieved from http://man7.org/linux/man-pages/man2/write.2.html ↩︎

  8. man-pages.fdatasync. (2019-03-06). Retrieved from http://man7.org/linux/man-pages/man2/fdatasync.2.html ↩︎

  9. On Disk IO, Part 1: Flavors of IO. medium.com. Retrieved from https://medium.com/databasss/on-disk-io-part-1-flavours-of-io-8e1ace1de017 ↩︎

  10. Innodb calls fsync for writes with innodb_flush_method=O_DIRECT. Retrieved from https://bugs.mysql.com/bug.php?id=45892 ↩︎

  11. 14.6.3.3 General Tablespaces. Retrieved from https://dev.mysql.com/doc/refman/5.7/en/general-tablespaces.html ↩︎

  12. MYSQL INNODB表壓縮. (2018-03-09). Retrieved from https://cloud.tencent.com/developer/article/1056453 ↩︎

  13. 前綴索引,一種優化索引大小的解決方案. (2015-03-03). Retrieved from https://www.cnblogs.com/studyzy/p/4310653.html ↩︎

  14. MySQL Internals Manual – innodb page structure[EB/OL]. (2020-05-04). Retrieved 2020-0530, from https://dev.mysql.com/doc/internals/en/innodb-page-structure.html ↩︎

  15. official.MySQL Internals Manual – innodb record structure[EB/OL]. (2020-05-04). Retrieved 2020-0530, from https://dev.mysql.com/doc/internals/en/innodb-record-structure.html ↩︎

  16. 姜承堯. MySQL技術內幕-InnoDB存儲引擎第二版[M]. 机械工業出版社, 2013-5:104. ↩︎

  17. 為什麼 MySQL 使用 B+ 樹. draveness.me. (2019-12-11). Retrieved from https://draveness.me/whys-the-design-mysql-b-plus-tree/ ↩︎

  18. InnoDB DoubleWrite Buffer as Read Cache using SSDs∗. Retrieved from https://www.usenix.org/legacy/events/fast12/poster_descriptions/Kangdescription2-12-12.pdf ↩︎

  19. 姜承堯. MySQL技術內幕-InnoDB存儲引擎第二版[M]. 机械工業出版社, 2013-5:302-303. ↩︎

  20. 姜承堯. MySQL技術內幕-InnoDB存儲引擎第二版[M]. 机械工業出版社, 2013-5:306. ↩︎

本站聲明:網站內容來源於博客園,如有侵權,請聯繫我們,我們將及時處理

台中搬家公司費用怎麼算?

擁有20年純熟搬遷經驗,提供免費估價且流程透明更是5星評價的搬家公司