深入 Python 解釋器源碼,我終于搞明白了字符串駐留的原理!

      網友投稿 659 2022-05-30

      英文:https://arpitbhayani.me/blogs/string-interning

      聲明:本翻譯是出于交流學習的目的,基于 CC BY-NC-SA 4.0 授權協議。為便于閱讀,內容略有改動。

      每種編程語言為了表現出色,并且實現卓越的性能,都需要有大量編譯器級與解釋器級的優化。

      由于字符串是任何編程語言中不可或缺的一個部分,因此,如果有快速操作字符串的能力,就可以迅速地提高整體的性能。

      在本文中,我們將深入研究 Python 的內部實現,并了解 Python 如何使用一種名為字符串駐留(String Interning)的技術,實現解釋器的高性能。 本文的目的不僅在于介紹 Python 的內部知識,而且還旨在使讀者能夠輕松地瀏覽 Python 的源代碼;因此,本文中將有很多出自 CPython 的代碼片段。

      全文提綱如下:

      (在 Python貓 公眾號回復數字“0215”,下載高清思維導圖)

      1、什么是“字符串駐留”?

      字符串駐留是一種編譯器/解釋器的優化方法,它通過緩存一般性的字符串,從而節省字符串處理任務的空間和時間。

      這種優化方法不會每次都創建一個新的字符串副本,而是僅為每個適當的不可變值保留一個字符串副本,并使用指針引用之。

      每個字符串的唯一拷貝被稱為它的intern,并因此而得名 String Interning。

      Python貓注:String Interning 一般被譯為“字符串駐留”或“字符串留用”,在某些語言中可能習慣用 String Pool(字符串常量池)的概念,其實是對同一種機制的不同表述。intern 作為名詞時,是“實習生、實習醫生”的意思,在此可以理解成“駐留物、駐留值”。

      查找字符串 intern 的方法可能作為公開接口公開,也可能不公開。現代編程語言如 Java、Python、PHP、Ruby、Julia 等等,都支持字符串駐留,以使其編譯器和解釋器做到高性能。

      2、為什么要駐留字符串?

      字符串駐留提升了字符串比較的速度。 如果沒有駐留,當我們要比較兩個字符串是否相等時,它的時間復雜度將上升到 O(n),即需要檢查兩個字符串中的每個字符,才能判斷出它們是否相等。

      但是,如果字符串是固定的,由于相同的字符串將使用同一個對象引用,因此只需檢查指針是否相同,就足以判斷出兩個字符串是否相等,不必再逐一檢查每個字符。由于這是一個非常普遍的操作,因此,它被典型地實現為指針相等性校驗,僅使用一條完全沒有內存引用的機器指令。

      字符串駐留減少了內存占用。 Python 避免內存中充斥多余的字符串對象,通過享元設計模式共享和重用已經定義的對象,從而優化內存占用。

      3、Python的字符串駐留

      像大多數其它現代編程語言一樣,Python 也使用字符串駐留來提高性能。在 Python 中,我們可以使用is運算符,檢查兩個對象是否引用了同一個內存對象。

      因此,如果兩個字符串對象引用了相同的內存對象,則is運算符將得出True,否則為False。

      >>> 'python' is 'python' True

      我們可以使用這個特定的運算符,來判斷哪些字符串是被駐留的。在 CPython 的,字符串駐留是通過以下函數實現的,聲明在 unicodeobject.h 中,定義在 unicodeobject.c 中。

      PyAPI_FUNC(void) PyUnicode_InternInPlace(PyObject **);

      為了檢查一個字符串是否被駐留,CPython 實現了一個名為PyUnicode_CHECK_INTERNED的宏,同樣是定義在 unicodeobject.h 中。

      這個宏表明了 Python 在PyASCIIObject結構中維護著一個名為interned的成員變量,它的值表示相應的字符串是否被駐留。

      #define PyUnicode_CHECK_INTERNED(op) \ ? (((PyASCIIObject *)(op))->state.interned)

      4、字符串駐留的原理

      在 CPython 中,字符串的引用被一個名為interned的 Python 字典所存儲、訪問和管理。 該字典在第一次調用字符串駐留時,被延遲地初始化,并持有全部已駐留字符串對象的引用。

      4.1 如何駐留字符串?

      負責駐留字符串的核心函數是PyUnicode_InternInPlace,它定義在 unicodeobject.c 中,當調用時,它會創建一個準備容納所有駐留的字符串的字典interned,然后登記入參中的對象,令其鍵和值都使用相同的對象引用。

      以下函數片段顯示了 Python 實現字符串駐留的過程。

      void PyUnicode_InternInPlace(PyObject **p) { ? PyObject *s = *p; ? ......... ? // Lazily build the dictionary to hold interned Strings ? if (interned == NULL) { ? ? ? interned = PyDict_New(); ? ? ? if (interned == NULL) { ? ? ? ? ? PyErr_Clear(); ? ? ? ? ? return; ? ? ? } ? } ? PyObject *t; ? // Make an entry to the interned dictionary for the ? // given object ? t = PyDict_SetDefault(interned, s, s); ? ......... ? ? // The two references in interned dict (key and value) are ? // not counted by refcnt. ? // unicode_dealloc() and _PyUnicode_ClearInterned() take ? // care of this. ? Py_SET_REFCNT(s, Py_REFCNT(s) - 2); ? // Set the state of the string to be INTERNED ? _PyUnicode_STATE(s).interned = SSTATE_INTERNED_MORTAL; }

      深入 Python 解釋器源碼,我終于搞明白了字符串駐留的原理!

      4.2 如何清理駐留的字符串?

      清理函數從interned字典中遍歷所有的字符串,調整這些對象的引用計數,并把它們標記為NOT_INTERNED,使其被垃圾回收。一旦所有的字符串都被標記為NOT_INTERNED,則interned字典會被清空并刪除。

      這個清理函數就是_PyUnicode_ClearInterned,在 unicodeobject.c 中定義。

      void _PyUnicode_ClearInterned(PyThreadState *tstate) { ? ......... ? // Get all the keys to the interned dictionary ? PyObject *keys = PyDict_Keys(interned); ? ......... ? // Interned Unicode strings are not forcibly deallocated; ? // rather, we give them their stolen references back ? // and then clear and DECREF the interned dict. ? for (Py_ssize_t i = 0; i < n; i++) { ? ? ? PyObject *s = PyList_GET_ITEM(keys, i); ? ? ? ......... ? ? ? switch (PyUnicode_CHECK_INTERNED(s)) { ? ? ? case SSTATE_INTERNED_IMMORTAL: ? ? ? ? ? Py_SET_REFCNT(s, Py_REFCNT(s) + 1); ? ? ? ? ? break; ? ? ? case SSTATE_INTERNED_MORTAL: ? ? ? ? ? // Restore the two references (key and value) ignored ? ? ? ? ? // by PyUnicode_InternInPlace(). ? ? ? ? ? Py_SET_REFCNT(s, Py_REFCNT(s) + 2); ? ? ? ? ? break; ? ? ? case SSTATE_NOT_INTERNED: ? ? ? ? ? /* fall through */ ? ? ? default: ? ? ? ? ? Py_UNREACHABLE(); ? ? ? } ? ? ? // marking the string to be NOT_INTERNED ? ? ? _PyUnicode_STATE(s).interned = SSTATE_NOT_INTERNED; ? } ? // decreasing the reference to the initialized and ? // access keys object. ? Py_DECREF(keys); ? // clearing the dictionary ? PyDict_Clear(interned); ? // clearing the object interned ? Py_CLEAR(interned); }

      5、字符串駐留的實現

      既然了解了字符串駐留及清理的內部原理,我們就可以找出 Python 中所有會被駐留的字符串。

      為了做到這點,我們要做的就是在 CPython 源代碼中查找PyUnicode_InternInPlace 函數的調用,并查看其附近的代碼。下面是在 Python 中關于字符串駐留的一些有趣的發現。

      5.1 變量、常量與函數名

      CPython 對常量(例如函數名、變量名、字符串字面量等)執行字符串駐留。

      以下代碼出自codeobject.c,它表明在創建新的PyCode對象時,解釋器將對所有編譯期的常量、名稱和字面量進行駐留。

      PyCodeObject * PyCode_NewWithPosOnlyArgs(int argcount, int posonlyargcount, int kwonlyargcount, ? ? ? ? ? ? ? ? ? ? ? ? int nlocals, int stacksize, int flags, ? ? ? ? ? ? ? ? ? ? ? ? PyObject *code, PyObject *consts, PyObject *names, ? ? ? ? ? ? ? ? ? ? ? ? PyObject *varnames, PyObject *freevars, PyObject *cellvars, ? ? ? ? ? ? ? ? ? ? ? ? PyObject *filename, PyObject *name, int firstlineno, ? ? ? ? ? ? ? ? ? ? ? ? PyObject *linetable) { ? ........ ? if (intern_strings(names) < 0) { ? ? ? return NULL; ? } ? if (intern_strings(varnames) < 0) { ? ? ? return NULL; ? } ? if (intern_strings(freevars) < 0) { ? ? ? return NULL; ? } ? if (intern_strings(cellvars) < 0) { ? ? ? return NULL; ? } ? if (intern_string_constants(consts, NULL) < 0) { ? ? ? return NULL; ? } ? ........ }

      5.2 字典的鍵

      CPython 還會駐留任何字典對象的字符串鍵。

      當在字典中插入元素時,解釋器會對該元素的鍵作字符串駐留。以下代碼出自 dictobject.c,展示了實際的行為。

      有趣的地方:在PyUnicode_InternInPlace函數被調用處有一條注釋,它問道,我們是否真的需要對所有字典中的全部鍵進行駐留?

      int PyDict_SetItemString(PyObject *v, const char *key, PyObject *item) { ? PyObject *kv; ? int err; ? kv = PyUnicode_FromString(key); ? if (kv == NULL) ? ? ? return -1; ? // Invoking String Interning on the key ? PyUnicode_InternInPlace(&kv); /* XXX Should we really? */ ? err = PyDict_SetItem(v, kv, item); ? Py_DECREF(kv); ? return err; }

      5.3 任何對象的屬性

      Python 中對象的屬性可以通過setattr函數顯式地設置,也可以作為類成員的一部分而隱式地設置,或者在其數據類型中預定義。

      CPython 會駐留所有這些屬性名,以便實現快速查找。 以下是函數PyObject_SetAttr的代碼片段,該函數定義在文件object.c中,負責為 Python 對象設置新屬性。

      int PyObject_SetAttr(PyObject *v, PyObject *name, PyObject *value) { ? ........ ? PyUnicode_InternInPlace(&name); ? ........ }

      5.4 顯式地駐留

      Python 還支持通過sys模塊中的intern函數進行顯式地字符串駐留。

      當使用任何字符串對象調用此函數時,該字符串對象將被駐留。以下是 sysmodule.c 文件的代碼片段,它展示了在sys_intern_impl函數中的字符串駐留過程。

      static PyObject * sys_intern_impl(PyObject *module, PyObject *s) { ? ........ ? if (PyUnicode_CheckExact(s)) { ? ? ? Py_INCREF(s); ? ? ? PyUnicode_InternInPlace(&s); ? ? ? return s; ? } ? ........ }

      6、字符串駐留的其它發現

      只有編譯期的字符串會被駐留。 在解釋時或編譯時指定的字符串會被駐留,而動態創建的字符串則不會。

      Python貓注:這一條規則值得展開思考,我曾經在上面踩過坑……有兩個知識點,我相信 99% 的人都不知道:字符串的 join() 方法是動態創建字符串,因此其創建的字符串不會被駐留;常量折疊機制也發生在編譯期,因此有時候容易把它跟字符串駐留搞混淆。推薦閱讀《join()方法的神奇用處與Intern機制的軟肋》

      包含 ASCII 字符和下劃線的字符串會被駐留。 在編譯期間,當對字符串字面量進行駐留時,CPython 確保僅對匹配正則表達式[a-zA-Z0-9_]*的常量進行駐留,因為它們非常貼近于 Python 的標識符。

      Python貓注:關于 Python 中標識符的命名規則,在 Python2 版本只有“字母、數字和下劃線”,但在 Python 3.x 版本中,已經支持 Unicode 編碼。這部分內容推薦閱讀《醒醒!Python已經支持中文變量名啦!》

      參考材料

      字符串駐留(https://en.wikipedia.org/wiki/String_interning)

      CPython優化(https://stummjr.org/post/cpython-optimizations/)

      Python對象第三部分:字符串駐留(https://medium.com/@bdov_/https-medium-com-bdov-python-objects-part-iii-string-interning-625d3c7319de)

      Python字符串駐留的內部原理(http://guilload.com/python-string-interning/)

      Python優化機制:常量折疊(https://mp.weixin.qq.com/s/p1Zb_linFLWwPlNyA5Ui1Q)

      join()方法的神奇用處與Intern機制的軟肋(https://mp.weixin.qq.com/s/M2uHVqaHe_nyO5jT60V_6Q)

      C 語言 Python 面向對象編程

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      上一篇:【響應式編程的思維藝術】 (4)從打飛機游戲理解并發與流的融合
      下一篇:華為戰略研究院院長徐文偉:創新領航,推動世界進步
      相關文章
      亚洲午夜久久久久久久久电影网| 亚洲综合色丁香麻豆| 亚洲av永久无码天堂网| 亚洲精品在线免费观看| 亚洲国产日韩一区高清在线| 亚洲成a人片77777kkkk| 亚洲色无码一区二区三区| 国产亚洲成人在线播放va| 亚洲一区二区三区乱码A| 国产产在线精品亚洲AAVV| 亚洲一区二区三区国产精华液| 亚洲最大在线观看| 亚洲av中文无码乱人伦在线r▽ | 亚洲成a人片在线观看日本| 亚洲爆乳精品无码一区二区| 亚洲GV天堂无码男同在线观看| 亚洲色大网站WWW永久网站| 亚洲视频无码高清在线| 亚洲日韩看片无码电影| 中文字幕无码精品亚洲资源网久久 | 久久久久久A亚洲欧洲AV冫| 国产国拍亚洲精品福利| 亚洲avav天堂av在线网毛片| 亚洲精品欧美综合四区| 亚洲狠狠狠一区二区三区| 亚洲人成网站18禁止久久影院| 亚洲偷偷自拍高清| 亚洲熟妇无码AV不卡在线播放| 亚洲AV无码专区在线电影成人| 久久人午夜亚洲精品无码区| 亚洲国产综合无码一区二区二三区 | 亚洲男人天堂2018av| 亚洲爆乳精品无码一区二区| 亚洲成av人在片观看| 日韩欧美亚洲中文乱码| 亚洲不卡AV影片在线播放| 亚洲无码在线播放| 久久精品国产亚洲网站| 在线看亚洲十八禁网站| 亚洲中文字幕无码中文字在线| 亚洲v高清理论电影|