Deliveroo分享从Ruby迁移到Rust提升17倍性能

本文介绍我们在没有中断生产运营情况下是如何将生产系统的第1层服务从Ruby迁移到Rust？

在物流算法团队中，我们有一个名为Dispatcher的服务，其主要目的是以最佳方式向司机提供订单。对于每个司机，我们建立了一个时间轴，我们可以预测司机在某个时间点的位置; 知道这一点，我们可以更有效地向司机推荐订单。构建每个时间线涉及相当多的计算：使用不同的机器学习模型来预测事件将花费多长时间：断言某些约束，计算分配成本。计算本身很快，但问题是我们需要做很多这样的事情：对于每个订单，我们需要检查所有可用的司机以确定最好指派给哪位。 Dispatcher的第一个版本主要是用Ruby编写的：这是公司的首选语言，并且当时我们的规模足够大。然而，随着Deliveroo不断增长，订单和乘客的数量急剧增加，我们看到调度过程开始花费的时间比以前长得多，我们意识到，在某些时候，不可能在一个时间限制内一步到位I调度一些区域了。我们也知道，如果我们决定实施更高级的算法，这将更限制我们，因为需要更多的计算时间。我们尝试的第一件事是优化当前代码（缓存一些计算，试图找到算法中的错误），这没有多大帮助。很明显Ruby在这里是一个瓶颈，我们开始研究替代方案。

为什么使用Rust? 我们考虑了一些如何解决调度速度问题的方法：

选择具有更好性能特征的新编程语言并重写Dispatcher
确定最大的瓶颈，重写代码的这些部分，并以某种方式将它们集成到当前代码中

我们知道从头开始重写是有风险的，因为它可能会引入错误，并且切换服务可能会很痛苦，因此我们对这种方法感到不舒服。另一个选择，找到瓶颈并替换它们，我们已经为代码的一部分做了一些事情（我们为Rust实现了Hungarian路由匹配算法的原生扩展），并且效果很好。我们决定尝试这种方法。

有几种选择我们如何将用另一种语言编写的部分代码集成到Ruby中：

构建外部服务并提供与之通信的API
构建原生扩展

我们很快就放弃了构建外部服务的选项，因为我们需要在每个调度周期中调用此外部服务数十万次，并且通信的开销将抵消所有潜在的速度增益，或者我们需要重新实现此服务中调度程序的一个重要部分，几乎与完全重写相同。我们决定它必须是某种原生扩展，为此，我们决定使用Rust，因为它为我们勾选了大部分方框：

它具有很高的性能（与C相当）
它是内存安全的
它可以用来构建动态库，可以加载到Ruby中（使用extern "C"接口）

我们的一些团队成员有Rust的经验，喜欢这种语言，Dispatcher的一部分已经使用了Rust。我们的策略是逐步替换当前的ruby实现，逐个替换算法的部分内容。这是可能的，因为我们可以在Rust中实现单独的方法和类，并从Ruby调用它们，而不需要很大的跨语言交互开销。

如何使Ruby与Rust交互？ 有几种不同的方法可以从Ruby调用Rust：

使用extern "C"接口在Rust中编写动态库，并使用FFI调用它。
编写动态库，但使用Ruby API注册方法，这样就可以直接从Ruby调用它们，就像任何其他Ruby代码一样。

使用FFI的第一种方法要求我们在Rust和Ruby中提出一些自定义C类接口，然后在两种语言中为它们创建包装器。使用Ruby API的第二种方法听起来更有前途，因为已经存在使我们的生活更轻松的库：

ruru and rutie
Helix

首先使用Helix:

它有一些看起来像在Rust中编写Ruby的宏，这对我们来说比我们感到舒服的时候更神奇
强制协议没有很好地记录，并且不清楚如何将非原始Ruby对象传递给Helix方法
我们不确定安全性 - 看起来Helix没有调用Ruby方法rb_protect，这可能会导致未定义的行为

最终，我们决定使用ruru / rutie，但保持Ruby层薄和隔离，以便我们可能在将来切换。我们决定使用Rutie，这是Ruru的最新分支，它有更积极的发展。以下是如何使用ruru / rutie中的一种方法创建类的一个小示例：

#[macro_use]
extern crate rutie;

use rutie::{Class, Object, RString};

class!(HelloWorld);
methods!(
    HelloWorld,
    _itself,

    fn hello(name: RString) -> RString {
        RString::new(format!("Hello {}", name.unwrap().to_string()))
    }
);

#[allow(non_snake_case)]
#[no_mangle]
pub extern "C" fn Init_ruby_rust_demo() {
    let mut class = Class::new("RubyRustDemo", None);
    class.define(|itself| itself.def_self("hello", hello) );
}

这是伟大的，如果你需要的是通过一些基本的类型（如String，Fixnum，Boolean如果你需要传递大量的数据，等等），用你的方法，但不是很大。在这种情况下，您可以传递整个Order对象，然后您需要调用该对象上需要的每个字段以将其移动到Rust中：

pub struct RustUser {
    name: String,
    address: Address,
}

pub struct Address {
    pub country: String,
    pub city: String,
}

class!(User);

impl VerifiedObject for User {
    fn is_correct_type<T: Object>(object: &T) -> bool {
        object.send("class").send("name").try_convert_to::<RString>().to_string() == "User"
    }

    fn error_message() -> &'static str {
        "Not a valid request"
    }
}

methods!(
    // .. some code skipped

    fn hello(user: AnyObject) -> Boolean {
        let name = user.send("name").try_convert_to::<RString>().unwrap().to_string();
        let ruby_address = user.send("address");
        let country = ruby_address.send("country").try_convert_to::<RString>().unwrap().to_string();
        let city = ruby_address.send("city").try_convert_to::<RString>().unwrap().to_string();
        let address = Address {
            country,
            city
        };
        let rust_user = RustUser {
            name,
            address
        };
        do_something_with_user(&rust_user);
        Boolean::new(true)
    }
)

你可以在这里看到很多例行和重复的代码，也缺少适当的错误处理。在查看此代码之后，它提醒我们这看起来很像手动解析JSON或类似的东西。您可以将Ruby中的对象序列化为JSON，然后在Rust中解析它，它的工作原理很好，但您仍需要在Ruby中实现JSON序列化程序。然后我们很好奇，如果我们serde为AnyObject自己实现反序列化器会怎样：它将接受ruties AnyObject并遍历类型中定义的每个字段并调用该ruby对象上的相应方法来获取它的值。有效！这是相同的方法，但使用我们的serde反序列化器和序列化器：

#[derive(Debug, Deserialize)]
pub struct User {
    pub name: String,
    pub address: Address,
}

#[derive(Debug, Deserialize)]
pub struct Address {
    pub country: String,
    pub city: String
}

class!(HelloWorld);
rutie_serde_methods!(
    HelloWorld,
    _itself,
    ruby_class!(Exception),

    // Notice that the argument has our defined type User, and the return type is plain bool
    fn hello_user(user: User) -> bool {
        do_something_with_user(&user);
        true
    }
);

您可以看到代码hello_user现在有多简单- 我们不再需要user手动解析。因为它是serde，所以它也可以处理嵌套对象（正如你可以看到的那样）。我们还添加了一个内置的错误处理：如果serde无法“解析”对象，这个宏将引发我们提供的类的异常（Exception在这种情况下），它还将方法体包装在panic::catch_unwind，并且重新在Ruby中将恐慌引发为异常。使用rutie-serde，我们可以快速，轻松地实现Ruby和Rust之间的薄接口。

从Ruby迁移到Rust 我们想出了一个逐步用Rust替换Ruby Dispatcher的所有部分的计划。我们首先使用Rust类替换，这些类没有依赖于Dispatcher的其他部分并添加功能标志，类似于：

module TravelTime
  def self.get(from_location, to_location, options)
    in the real world the feature flag would be more granular and enable you to do an incremental roll-out
    if rust_enabled? && Feature.enabled?(:rust_travel_time)
        RustTravelTime.get(from_location, to_location, options)
    else
        RubyTravelTime.get(from_location, to_location, options)
    end
  end
end

还有一个主开关（在这种情况下rust_enabled?），它允许我们只通过一个功能标记来关闭所有Rust代码。由于Ruby和Rust类的实现API大致相同，我们能够使用相同的测试来测试它们，这使我们对实现的质量更有信心。

RSpec.describe TravelTime do
  shared_examples "travel_time" do
    let(:from_location) { build(:location) }
    let(:to_location) { build(:location) }
    let(:options) { build(:travel_time_options) }

    it 'returns correct travel time' do
      expect(TravelTime.get(from_location, to_location, options)).to eq(123.45)
    end
  end

  context "ruby implementation" do
    before do
      Feature.disable!(:rust_travel_time)
    end

    include "travel_time"
  end

  context "rust implementation" do
    before do
      Feature.enable!(:rust_travel_time)
    end

    include "travel_time"
  end
end

同样非常重要的是，在任何时候，我们都可以关闭Rust集成，Dispatcher仍然可以工作（因为我们将Ruby实现与Rust一起保存并继续添加功能标志）。

性能改进 当将更大的代码块移动到Rust中时，我们注意到我们正在仔细监视的性能改进。将较小的模块移动到Rust时，我们没有期待太多的改进：事实上，一些代码变得更慢，因为它是在紧密循环中调用的，并且从Ruby应用程序调用Rust代码的开销很小。

在Dispatcher中，调度周期有3个主要阶段：

加载数据中
运行计算，计算任务
保存/发送作业

加载数据和保存数据阶段几乎线性地根据数据集大小进行缩放，而计算阶段（我们移动到Rust）在其中具有更高阶的多项式分量。我们不太担心加载/保存数据阶段，我们也没有优先加快这些阶段的速度。虽然加载数据和发送数据仍然是用Ruby编写的Dispatcher的一部分，但总调度时间显着减少：例如，在我们较大的一个区域中，它从~4秒下降到0.8秒。

在这0.8秒中，在计算阶段，在Rust中花费了大约0.2秒。这意味着0.6秒是加载数据和向车手发送任务的Ruby / DB开销。看起来调度周期现在仅快5倍，但实际上，此示例时间内的计算阶段从~3.2秒减少到0.2秒，这是17倍的加速。

请记住，就实现而言，Rust代码几乎是Ruby代码的1：1副本，并且我们没有添加任何额外的优化（如缓存，在某些情况下避免复制内存），因此仍有空间改善。

结论我们的项目很成功：从Ruby转向Rust取得了成功，大大加快了我们的dipatch流程，并为我们提供了更多的空间，我们可以尝试实现更高级的算法。渐进式迁移和细致特征标记减轻了项目的大部分风险。我们能够以更小的增量部件交付它，就像我们通常在Deliveroo中构建的任何其他功能一样。 Rust已经表现出了很好的性能，并且缺少运行时使得在构建Ruby原生扩展时可以很容易地将它用作C的替代品。