每门计算机语言都需要一些容器来保存变量数据。在一些语言当中,变量都有特定的类型,如字符串,数组,对象等等。比如 C 和 Pascal 就属于这种。而 php 则没有这样的类型。在 PHP 中,一个变量在某一行是字符串,可能到下一行就变成了数字。变量可以经常在不同的类型间轻易的转化,甚至是自动的转换。 PHP 之所以成为一个简单并且强大的语言,很大一部分的原因是它拥有弱类型的变量。但是有些时候这也会带来一些问题。在 PHP 内部,所有的变量都保存在 zval 结构中,也就是说,zval 使用同一种结构存储了包括 int、array、string 等不同数据类型。它不仅仅包含变量的值,也包含变量的类型。变量容器中包含一些 Zend 引擎用来区分是否引用的字段。同时它也包含这个值的引用计数。
那么,zval 是如何做到的呢,下面我们一起来揭开面纱。
PHP 是一种弱类型的语言,这就意味着在声明或使用变量的时候,并不需要显式指明其数据类型。但是,PHP 是由C来实现的,大家都知道C对变量的类型管理是非常严格的,强类型的C是这样实现弱类型的 PHP 变量类型的:
在变量声明的开始,ZE 判断用户变量的类型,并存入到以下 zval 结构体中。zval 结构体定义在 Zend/zend.h 文件,其代码如下:
- typedef struct _zval_struct zval;...struct _zval_struct {
- /* Variable information */
- zvalue_value value;
- /* value */
- zend_uint refcount__gc;
- zend_uchar type;
- /* active type */
- zend_uchar is_ref__gc;
- };
在上面的结构体中有四个值,其含义为:
属性名 | 含义 | 默认值 |
---|---|---|
refcount__gc | 表示引用计数 | 1 |
is_ref__gc | 表示是否为引用 | 0 |
value | 存储着变量的值信息 | |
type | 记录变量的内部类型 |
在 PHP5.3 之后,由于引入了垃圾收集机制,引用计数和是否为引用的属性名为 refount__gc 和 is_ref_gc。在此之前为 refcount 和 is__ref。
在变量的初始化过程中,ZE 会将变量的类型(type)值根据其变量类型置为:IS_NULL, IS_BOOL, IS_LONG, IS_DOUBLE, IS_STRING, IS_ARRAY, IS_OBJECT, IS_RESOURCE 之一。
PHP 的实现中,如何判断变量是属于哪种类型的呢?(下节介绍)
在上面大家不难发现,所有的 php 变量都是存储于 zval 结构中,其中变量值存储在 zvalue_value 联合体中:
- typedef union _zvalue_value {
- long lval; /* long value */
- double dval; /* double value */
- struct {
- char *val;
- int len;
- } str;
- HashTable *ht; /* hash table value */
- zend_object_value obj;
- } zvalue_value;
各种类型的数据会使用不同的方法来进行变量值的存储,其对应变量的赋值方式:
变量类型 | 宏 | |
---|---|---|
boolean | ZVAL_BOOL | 布尔型 / 整型的变量值存储于 (zval).value.lval 中, 其类型也会以相应的 IS_* 进行存储。
|
integer | ZVAL_LONG | |
float | ZVAL_DOUBLE | |
null | ZVAL_NULL | NULL 值的变量值不需要存储,只需要把 (zval).type 标为 IS_NULL。
|
resource | ZVAL_RESOURCE | 资源类型的存储与其他一般变量无异,但其初始化及存取实现则不同。
|
字符串类型的存储有别于上述一般类型,因为 C 中的字符串变量实际上是指向一个字符数组的头指针。所以,PHP 在实现字符串变量时,也采用指针的方式,在_zvalue_value 数据结构中,存在下面的结构体内,其中 * val 就存储了指向字符串的指针,而 len 则存储了字符的长度。
- struct {
- char *val;
- int len;
- } str;
从这里可以看出 strlen() 函数是不会重新计算字符串长度的,只是返回 str 结构体中的 len 的值。
数组是 PHP 中最常用,也是最强大变量类型,它可以存储其他类型的数据,而且提供各种内置操作函数。数组的存储相对于其他变量要复杂一些,需要使用其它两种数据结构 HashTable 和 Bucket。
- typedef struct _hashtable {
- uint nTableSize; // hash Bucket的大小,最小为8,以2x增长。
- uint nTableMask; // nTableSize-1 , 索引取值的优化
- uint nNumOfElements; // hash Bucket中当前存在的元素个数, count()函数会直接返回此值
- ulong nNextFreeElement; // 标记hash Bucket当前索引数
- Bucket * pInternalPointer; // 当前遍历的指针(foreach比for快的原因之一)
- Bucket * pListHead; // 存储数组头元素指针
- Bucket * pListTail; // 存储数组尾元素指针
- Bucket * *arBuckets; // 存储hash数组
- dtor_func_t pDestructor;
- zend_bool persistent;
- unsigned char nApplyCount; // 标记当前hash Bucket被递归访问的次数(防止多次递归)
- zend_bool bApplyPRotection; // 标记当前hash桶允许不允许多次访问,不允许时,最多只能递归3次
- #
- if ZEND_DEBUG int inconsistent;#endif
- }
- HashTable; .... typedef struct bucket {
- ulong h; //对char *key进行hash后的值,或者是用户指定的数字索引值
- uint nKeyLength; //hash关键字的长度,如果数组索引为数字,此值为0
- void * pData; //指向value,一般是用户数据的副本,如果是指针数据,则指向pDataPtr
- void * pDataPtr; //如果是指针数据,此值会指向真正的value,同时上面pData会指向此值
- struct bucket * pListNext; //整个hash表的下一元素
- struct bucket * pListLast;
- struct bucket * pNext; //存放在同一个hash Bucket内的下一个元素
- struct bucket * pLast;
- char arKey[1];
- /*存储字符索引,此项必须放在最未尾,因为此处只字义了1个字节,存储的实际上是指向char *key的值,
- 这就意味着可以省去再赋值一次的消耗,而且,有时此值并不需要,所以同时还节省了空间。
- */
- }
- Bucket;
从代码中不难发现,数组的存储是由_zval_struct , _zvalue_value,HashTable,Bucket 共同完成的。上面的注释中标出了结构中的主要属性的作用。
对象是一种复合型的数据,其需要存储较多元化的数据,如属性,方法,以及自身的一些性质。对象在 PHP 中是使用一种 zend_object_value 的结构体来存放。其代码如下:
- typedef struct _zend_object_value {
- zend_object_handle handle; // unsigned int类型,是
- zend_object_handlers *handlers;
- } zend_object_value;
handle 字段是 EG(objects_store).object_buckets 的索引,用来存取对应对象的相关数据。zend_object_handlers 是一个包含许多方法指针的结构体。关于这个结构体及对象相关的类的结构_zend_class_entry,将在第五章节作详细介绍。
来源: http://www.taocms.org/741.html