我正在结合 riak/riak-js 开发 nodejs 应用程序并遇到以下问题:

运行这个请求

db.mapreduce 
  .add('logs') 
  .run(); 

正确返回存储在存储桶日志中的所有 155.000 个项目及其 ID:

[ 'logs', '1GXtBX2LvXpcPeeR89IuipRUFmB' ], 
[ 'logs', '63vL86NZ96JptsHifW8JDgRjiCv' ], 
[ 'logs', 'NfseTamulBjwVOenbeWoMSNRZnr' ], 
[ 'logs', 'VzNouzHc7B7bSzvNeI1xoQ5ih8J' ], 
[ 'logs', 'UBM1IDcbZkMW4iRWdvo4W7zp6dc' ], 
[ 'logs', 'FtNhPxaay4XI9qfh4Cf9LFO1Oai' ], 
.... 

如果我指定一个 map-Funktion 并且只使用存储桶日志中的几个项目

db.mapreduce 
  .add([['logs', 'SUgJ2fhfgyR2WE87n7IVHyBi4C9'], ['logs', 'EMtywD1UFnsq9rNRuINLzDsHdh2'], ['logs', 'ZXPh5ws8mOdASQFEtLDk8CBRn8t']]) 
  .map( function(v) {return ["asd"]; } ) 
  .run(); 

一切正常,返回以下预期输出:

[ 'asd', 'asd', 'asd' ] 

如果我现在希望 riak 映射存储桶“日志”中的所有项目(大约 155.000 个小型 json 文档)

db.mapreduce     
  .add('logs')   
  .map( function(v) {return ["asd"]; } )     
  .run(); 

我只收到错误:

{ [Error: [object Object]] message: '[object Object]', statusCode: 500 } 

这里发生了什么?在错误对象中没有写任何有用的东西。

更新: riak-console 多次显示以下内容:

[notice] JS call failed: All VMs are busy. 

将 riaks app.config 中的 map_js_vm_count 增加到 36 后,消息变成:

[error] Pipe worker startup failed:fitting was gone before startup 

链接: Basho Labs Riak Driver riak-js

请您参考如下方法:

basho.com 的 Bryan 回答了我的问题:

嗨,科尼利厄斯。你能描述一下你的 Riak 配置吗? 具体来说,您的集群中有多少个节点,您的 app.config 中的 ring_creation_size 是多少?

例如,如果您在单节点开发集群上使用默认设置 {ring_creation_size, 64},这种行为很可能发生。 155,000 个项目足以让所有 64 个 vnode 正常工作。

在第一种情况下,在提高 map_js_vm_count 之前,这 64 个 vnode 仅争夺 8 个 Javascript VM,因此有些可能会饿到超时,这将导致“所有 VM 都忙”日志消息。

在第二种情况下,在提高 map_js_vm_count 之后,这 36 个 Javascript VM 可能无法在查询超时到来之前处理所有 155,000 个项目。 “配件在启动前消失了”日志消息说运行查询的管道关闭,而仍有输入到达 vnode。

在没有映射函数的简单情况下,您不会看到这些行为中的任何一个,因为不需要与 Javascript VM 进行交互。 此外,在这种情况下,对象甚至不会从磁盘中读取,从而进一步缓解了资源争用。

我认为最有帮助的两个配置解决方案是降低 ring_creation_size 和提高查询超时。将 ring_creation_size 降低到 16,甚至在单节点集群上降低到 8 将减少对 Javascript VM 的争用,因为映射函数处理中尝试的并行性会减少。提高查询超时(应该是“运行”函数的参数,或类似的,但我不熟悉 riak-js 客户端),将给查询更多的时间在关闭之前完成,这可能是必要的克服缓慢的处理。

在 Erlang 中重写您的 map 函数也应该有所帮助,因为它会更快,并且不会有相同类型的 VM 争用。但是,据我所知,这在早期开发中并不容易使用。

喂, 布莱恩


评论关闭
IT虾米网

微信公众号号:IT虾米 (左侧二维码扫一扫)欢迎添加!