使用celery遇到的坑

celery worker -A app_name -l info必须在项目的根目录运行而且,这里的app_name必须是项目中的Celery实例的完整引用路径*
celery的定时任务会有一定时间的延迟。比如，我规定模拟登陆新浪微博任务每隔10个小时执行一次，那么定时任务第一次执行就会在开启定时任务之后的10个小时后才会执行。而我抓取微博需要马上执行，需要带上cookie，所以不能等那1个小时。这个没有一个比较好的解决方法，可以使用celery的crontab()来代替schdule做定时，它会在启动的时候就执行。我采用的方法是第一次手动执行该任务，然后再通过schedule执行。
celery的定时任务可能会让任务重复。定时器一定只能在一个节点启动，否则会造成任务重复。另外，如果当前worker节点都停止了，而beat在之后才停止，那么下一次启动worker的时候，它还会执行上一次未完成的任务，可能会有重复。
由于抓取用户和抓取用户关注、粉丝的任务耗时和工作量不同，所以需要使用任务路由，将任务按比重合理分配到各个分布式节点上，这就需要使用到celery提供的task queue。如果单独使用task queue还好，但是和定时任务一起使用，就可能出现问题。我遇到的问题就是定时任务压根就不执行！开始我的配置大概就是这样

app.conf.update(
    CELERY_TIMEZONE='Asia/Shanghai',
    CELERY_ENABLE_UTC=True,
    CELERY_ACCEPT_CONTENT=['json'],
    CELERY_TASK_SERIALIZER='json',
    CELERY_RESULT_SERIALIZER='json',
    CELERYBEAT_SCHEDULE={
        'user_task': {
            'task': 'tasks.user.excute_user_task',
            'schedule': timedelta(minutes=3),
        },
        'login_task': {
            'task': 'tasks.login.excute_login_task',
            'schedule': timedelta(hours=10),
        },
    },
    CELERY_QUEUES=(
        Queue('login_queue', exchange=Exchange('login', type='direct'), routing_key='for_login'),
        Queue('user_crawler', exchange=Exchange('user_info', type='direct'), routing_key='for_user_info'),
        Queue('fans_followers', exchange=Exchange('fans_followers', type='direct'), routing_key='for_fans_followers')
    )
)

结果过了一天发现定时任务并没有执行，后来把task加上了一个option字段，指定了任务队列，就可以了，比如

     'user_task': {
            'task': 'tasks.user.excute_user_task',
            'schedule': timedelta(minutes=3),
            'options': {'queue': 'fans_followers', 'routing_key': 'for_fans_follwers'}
     },

部分分布式节点一直出现Received task，但是却不执行其中的任务的情况。这种情况下重启worker节点一般就可以恢复。但是最好查查原因。通过查看flower的失败任务信息，才发现是插入数据的时候有的异常未被处理。这一点严格说来并不是celery的bug，不过也很令人费解。所以推荐在使用celery的时候配合使用flower做监控。
有的系统上如果我们直接使用celery -A tasks.workers worker -l info -c 1可能在worker启动后马上就停止了，具体原因我还不不清楚，解决方法是在相应系统上指定任务队列，比如celery -A tasks.workers -Q login_queue worker -l info -c 1，这样的话，应该worker在启动后就不会退出了
有的时候，任务堆积特别严重，导致某些逻辑上优先级高的任务并未得到执行，比如登录任务应该在cookie过期之前执行，但是可能因为抓取任务太多导致登录任务得不到执行，具体解决方法可以查看issue42
关于如何停止celery worker：这个问题是一个群友问的，celery官方文档给了两种方式，这里只针对*nix用户：一种方式是使用诸如pkill -9 -f 'celery worker'或者 ps auxww | grep 'celery worker' | awk '{print $2}' | xargs kill -9之类的命令，第二种方式是使用celery规定的信号给主进程发终止信号，TERM表示热关闭，需要等celery把所有未完成的任务都执行完;QUIT表示冷关闭，会直接关闭celery worker.更具体的信息可以阅读官方文档
使用celery -A tasks.workers worker -l info -c 1这种类型的命令，无法执行诸如登录和抓取等任务。这是一个群友遇到的问题，解决方案是在启动worker的时候指定任务队列，比如指定login_queue

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

使用celery遇到的坑

Clone this wiki locally