OpenStack Create Snapshot源码流程分析,理解创建快照的本质

云计算 OpenStack
笔者以一个普通用户的角度,在实际应用的过程中不断深入对看OpenStack的理解。在遇到故障时,通过对源码流程的分析,来探求问题出现的原因是知道在操作上还是系统上。本篇博文主要针对作者对创建快照过程(Create Snapshot)的源代码流程的分析,走出了之前的认知误区,理解了目前OpenStack创建快照过程的实质。

编者的话

笔者以一个普通用户的角度,在实际应用的过程中不断深入对看OpenStack的理解。在遇到故障时,通过对源码流程的分析,来探求问题出现的原因是知道在操作上还是系统上。本篇博文主要针对作者对创建快照过程(Create Snapshot)的源代码流程的分析,走出了之前的认知误区,理解了目前OpenStack创建快照过程的实质。

[[126282]]

背景:

一直以为OpenStack的创建快照的操作是在线创建快照(live snapshot), 并且应该是增量的快照,即利用virsh或者qemu的live snapshot来实现的:

virsh snapshot-create-as --live ....

后来发现快照和原始镜像之间并没有依赖关系,感觉OpenStack还做的挺好的,自动解决了增量快照和原始镜像之间的依赖关系;

但是后来又发现做快照的时候虚拟机竟然会shutoff, 就感觉不对了,于是分析了下源码。

源代码流程分析

1 nova/compute/api.py

  1. # NOTE(melwitt): We don't check instance lock for snapshot because lock is 
  2. # intended to prevent accidental change/delete of instances 
  3. @wrap_check_policy 
  4. @check_instance_cell 
  5. @check_instance_state(vm_state=[vm_states.ACTIVE, vm_states.STOPPED, 
  6. vm_states.PAUSED, vm_states.SUSPENDED]) 
  7. def snapshot(self, context, instance, name, extra_properties=None): 
  8. """Snapshot the given instance. 
  9.  
  10. :param instance: nova.db.sqlalchemy.models.Instance 
  11. :param name: name of the snapshot 
  12. :param extra_properties: dict of extra image properties to include 
  13. when creating the image. 
  14. :returns: A dict containing image metadata 
  15. ""
  16. #调用glance api创建image entry,为后将snapshot上传为镜像做准备,虽然镜像和snapshot在可以上传到glance作为镜像启动虚拟机, 
  17. #但是为了区分二者的不同,glance将镜像和snapshot标记卫不同的类型:type=image 和 type=snapshot 
  18. image_meta = self._create_image(context, instance, name, 
  19. 'snapshot'
  20. extra_properties=extra_properties) 
  21.  
  22. # NOTE(comstud): Any changes to this method should also be made 
  23. # to the snapshot_instance() method in nova/cells/messaging.py 
  24. # 将任务状态(task state) 设置为:image_snapshot_pending 
  25. instance.task_state = task_states.IMAGE_SNAPSHOT_PENDING 
  26. instance.save(expected_task_state=[None]) 
  27. #通过rpc调用nova/compute/rpcapi.py的snapshot_instance函数 
  28. self.compute_rpcapi.snapshot_instance(context, instance, 
  29. image_meta['id  

 

2 nova/compute/rpcapi.py

  1.  #梳理下流程: (1)用户发起create snapshot的请求; (2)nova-api服务接收到这个请求并进行前期处理,即3.1中代码的处理流程; 
  2. 3)真正的snapshot操作是需要在nova-compute节点上执行的,所以nova-api需要向nova-compute发送message 
  3. #由于OpenStack环境中会有很多个nova-compute,所以需要通过server=_compute_host(None, instance)来获取虚拟机所在的host,并向其发送message。 
  4. def snapshot_instance(self, ctxt, instance, image_id): 
  5. version = '3.0' 
  6. cctxt = self.client.prepare(server=_compute_host(None, instance), 
  7. version=version) 
  8. cctxt.cast(ctxt, 'snapshot_instance'
  9. instance=instance, 
  10. image_id=image_id) 
  11.  
  12. 3 nova/virt/libvirt/driver.py 
  13.  
  14. def snapshot(self, context, instance, image_id, update_task_state): 
  15. """Create snapshot from a running VM instance. 
  16.  
  17. This command only works with qemu 0.14
  18. ""
  19. try
  20. virt_dom = self._get_domain(instance) 
  21. except exception.InstanceNotFound: 
  22. raise exception.InstanceNotRunning(instance_id=instance['uuid']) 
  23.  
  24. base_image_ref = instance['image_ref'
  25.  
  26. base = compute_utils.get_image_metadata( 
  27. context, self._image_api, base_image_ref, instance) 
  28.  
  29. snapshot = self._image_api.get(context, image_id) 
  30.  
  31. disk_path = libvirt_utils.find_disk(virt_dom) 
  32. source_format = libvirt_utils.get_disk_type(disk_path) 
  33.  
  34. image_format = CONF.libvirt.snapshot_image_format or source_format 
  35.  
  36. # NOTE(bfilippov): save lvm and rbd as raw 
  37. if image_format == 'lvm' or image_format == 'rbd'
  38. image_format = 'raw' 
  39.  
  40. metadata = self._create_snapshot_metadata(base, 
  41. instance, 
  42. image_format, 
  43. snapshot['name']) 
  44.  
  45. snapshot_name = uuid.uuid4().hex 
  46.  
  47. state = LIBVIRT_POWER_STATE[virt_dom.info()[0]] 
  48.  
  49. # NOTE(rmk): Live snapshots require QEMU 1.3 and Libvirt 1.0.0
  50. # These restrictions can be relaxed as other configurations 
  51. # can be validated. 
  52. # NOTE(dgenin): Instances with LVM encrypted ephemeral storage require 
  53. # cold snapshots. Currently, checking for encryption is 
  54. # redundant because LVM supports only cold snapshots. 
  55. # It is necessary in case this situation changes in the 
  56. # future. 
  57. #这里需要注意,解释了为啥现在是cold snapshot而不是live snapshot: 
  58. # 有人提过live snapshot的bug,社区认为live snapshot目前不稳定,所以默认条件下采用cold snapshot,并且是通过硬编码来实现的 
  59. # 看下面这个判断条件,成立的时候将live_snapshot = true,其中MIN_LIBVIRT_LIVESNAPSHOT_VERSION=1.3.0, 其实现在libvirt的***版本 
  60. # 才到1.2.11, 所以这个live_snapshot的条件不满足,就变成了cold_snapshot 
  61. if (self._host.has_min_version(MIN_LIBVIRT_LIVESNAPSHOT_VERSION, 
  62. MIN_QEMU_LIVESNAPSHOT_VERSION, 
  63. REQ_HYPERVISOR_LIVESNAPSHOT) 
  64. and source_format not in ('lvm''rbd'
  65. and not CONF.ephemeral_storage_encryption.enabled): 
  66. live_snapshot = True 
  67. # Abort is an idempotent operation, so make sure any block 
  68. # jobs which may have failed are ended. This operation also 
  69. # confirms the running instance, as opposed to the system as a 
  70. # whole, has a new enough version of the hypervisor (bug 1193146). 
  71. try
  72. virt_dom.blockJobAbort(disk_path, 0
  73. except libvirt.libvirtError as ex: 
  74. error_code = ex.get_error_code() 
  75. if error_code == libvirt.VIR_ERR_CONFIG_UNSUPPORTED: 
  76. live_snapshot = False 
  77. else
  78. pass 
  79. else
  80. live_snapshot = False 
  81.  
  82. # NOTE(rmk): We cannot perform live snapshots when a managedSave 
  83. # file is present, so we will use the cold/legacy method 
  84. for instances which are shutdown. 
  85. if state == power_state.SHUTDOWN: 
  86. live_snapshot = False 
  87.  
  88. # NOTE(dkang): managedSave does not work for LXC 
  89. #注意这里,如果live_snashot目前是false,所以在做snapshot之前先要执行: 
  90. #(1)_detach_pci_devices, 卸载虚拟机挂载的pci设备,比如数据盘 
  91. #(2) self._detach_sriov_ports, 卸载虚拟机挂载的SRIOV设备,比如支持SRIOV的网卡设备 
  92. if CONF.libvirt.virt_type != 'lxc' and not live_snapshot: 
  93. if state == power_state.RUNNING or state == power_state.PAUSED: 
  94. self._detach_pci_devices(virt_dom, 
  95. pci_manager.get_instance_pci_devs(instance)) 
  96. self._detach_sriov_ports(instance, virt_dom) 
  97. virt_dom.managedSave(0
  98. #判断虚拟机的后端存储是什么,不同的后端存储做snapshot是不同的,本地文件系统的化,默认qcow2 
  99. snapshot_backend = self.image_backend.snapshot(instance, 
  100. disk_path, 
  101. image_type=source_format) 
  102.  
  103. if live_snapshot: 
  104. LOG.info(_LI("Beginning live snapshot process"), 
  105. instance=instance) 
  106. else
  107. LOG.info(_LI("Beginning cold snapshot process"), 
  108. instance=instance) 
  109. #更新任务的状态为:image_pending_upload, 大家都知道做完snapshot要上传 
  110. update_task_state(task_state=task_states.IMAGE_PENDING_UPLOAD) 
  111. #目前做快照的过程是: 
  112. #(1)现在../data/nova/instance/snapshots目录下生成临时目录,比如nova/instances/snapshots/tmptHr585 
  113. #(2)然后将快照生成到这个目录,具体参见snapshot_backend.snapshot_extract(out_path, image_format)这个函数 
  114. #(3)生成完成后,通过glance api上传,具体参见 self._image_api.update 
  115. snapshot_directory = CONF.libvirt.snapshots_directory 
  116. fileutils.ensure_tree(snapshot_directory) 
  117. with utils.tempdir(dir=snapshot_directory) as tmpdir: 
  118. try
  119. out_path = os.path.join(tmpdir, snapshot_name) 
  120. if live_snapshot: 
  121. # NOTE(xqueralt): libvirt needs o+x in the temp directory 
  122. os.chmod(tmpdir, 0o701) 
  123. self._live_snapshot(context, instance, virt_dom, disk_path, 
  124. out_path, image_format, base) 
  125. else
  126. #这个函数实际执行了一条命令: qemu-img convert -f qcow2 -O qcow2 disk_path out_path,算是生成了快照 
  127. snapshot_backend.snapshot_extract(out_path, image_format) 
  128. finally
  129. new_dom = None 
  130. # NOTE(dkang): because previous managedSave is not called 
  131. for LXC, _create_domain must not be called. 
  132. if CONF.libvirt.virt_type != 'lxc' and not live_snapshot: 
  133. if state == power_state.RUNNING: 
  134. new_dom = self._create_domain(domain=virt_dom) ##恢复做快照之前虚拟机的状态 
  135. elif state == power_state.PAUSED: 
  136. new_dom = self._create_domain(domain=virt_dom, 
  137. launch_flags=libvirt.VIR_DOMAIN_START_PAUSED) 
  138. if new_dom is not None: 
  139. self._attach_pci_devices(new_dom, 
  140. pci_manager.get_instance_pci_devs(instance)) 
  141. self._attach_sriov_ports(context, instance, new_dom) 
  142. LOG.info(_LI("Snapshot extracted, beginning image upload"), 
  143. instance=instance) 
  144.  
  145. # Upload that image to the image service 
  146.  
  147. update_task_state(task_state=task_states.IMAGE_UPLOADING, 
  148. expected_state=task_states.IMAGE_PENDING_UPLOAD) 
  149. with libvirt_utils.file_open(out_path) as image_file: ###将生成的快照上传到glance 
  150. self._image_api.update(context, 
  151. image_id, 
  152. metadata, 
  153. image_file) 
  154. LOG.info(_LI("Snapshot image upload complete"), 
  155. instance=instance)  

结论:

目前OpenStack默认的快照方式都是cold snapshot, 首先先关机,其次执行如下命令生成一个镜像文件,再次开机,***再调用glance api将镜像上传。

  1. qemu-img convert -f qcow2 -O qcow2 <disk_path> <out_path> 

所以目前并不是真正意义的快照,其实和关闭虚拟机,拷贝一份,再上传没有本质区别。

博文出处:http://blog.chinaunix.net/uid-20940095-id-4752643.html

责任编辑:Ophira 来源: ChinaUnix博客
相关推荐

2014-03-12 10:19:54

iOS对象

2012-11-22 10:11:16

LispLisp教程

2021-03-11 08:10:48

JVM对象的创建School

2016-10-26 20:49:24

ReactJavascript前端

2021-09-08 10:47:33

Flink执行流程

2021-09-10 06:50:03

Node.jsSocket端口

2021-08-26 11:21:34

技术代码计算

2009-09-15 15:09:50

Linq本质

2017-02-27 11:48:58

JVM源码分析Java

2009-12-14 18:04:38

Linux命令创建快照

2020-07-13 09:09:23

Sentinel源码Bucket

2011-05-24 10:24:29

创建与使用VMware

2017-03-16 11:39:33

Openstack源码姿势

2014-05-12 16:40:13

Linux命令快照

2021-09-30 07:36:51

AndroidViewDraw

2009-09-15 14:58:26

Linq查询本质

2012-08-30 09:48:02

Struts2Java

2017-12-07 09:11:52

物联网信息技术技术

2021-08-12 10:38:58

安全分析数据安全网络安全

2021-09-22 08:37:02

pod源码分析kubernetes
点赞
收藏

51CTO技术栈公众号