Back

多个workers下 delayed_job的问题:

发布时间: 2012-08-02 09:52:00

会导致“多个workers" (单个 worker 下工作正常)的状态下,导入 CSV 文件之后,不能正常的根据导入的 device进行 query remote, update emails . 这两个操作。

根据Randy的要求, 导入CSV之后,可以自动的查询远程,然后更新本地的device信息。 所以后来的代码是这样做的:
1. 建立优先级是 0 的JOB (最高), 来导入CSV
2. 建立优先级是 10 的JOB, (中级) , 来查询远程远程DEVICE数据。
3. 建立优先级是 20  的JOB (最低), 来更新本地DEVICE数据。

可是实际上发现,在多个WORKER下,上述情况不成里。  会有不少 优先级 = 20 的JOB,会在 优先级 = 10 的JOB执行完成之前被执行。

经过研究,发现了 delayed_job 的执行机制:   某个JOB在被执行时,会被设置 lock = true ,然后等它执行完毕了,worker再删掉这个job. 所以,在下面这个情况下, 低优先级的JOB会在高优先级的JOB未完成之前被执行:

job1, p = 10,   耗时 10s
job2, p = 10,   耗时 10s
job3, p = 10,   耗时 10s
job4, p = 20,   耗时 5s
job5, p = 20,   耗时 5s

在 worker = 5 (总之只要满足 > 3 这个条件)  时, 就会出现:
job1, job2, job3 被执行
job4, job5 也被执行

结果 job4, job5 被执行完之后,  job 1, 2,3 都没执行完。

所以为了解决这个问题,我加入了"wait job" , 专门用于等待。

      4     loop do
      5       unless preconditional_jobs_exist?(priority_of_this_job)
      6         break
      7       end
      8       Rails.logger.info "=== preconditional_jobs_exist:(priority < #{priority_of_this_job}), sleep 10 seconds"
      9       sleep 10
     10     end




最新(正在测试中)的代码是这样的:
1. 建立优先级是 0 的JOB (最高), 来导入CSV
2. 建立优先级是 10 的JOB, (中级) , 来查询远程远程DEVICE数据。
2.5 建立优先级是 15 的 WAIT JOB , 用来专门等待,确定 所有的 高优先级JOB 完成。
3. 建立优先级是 20  的JOB (最低), 来更新本地DEVICE数据。

目前从LOG来看,  这些JOB不是严格按照优先级执行的。 而是有极少数(3~ 5%) 会忽略优先级被执行。
所以这个问题还需要进一步的排查。

Back