实用程序命令
Grunt shell提供了一组实用程序命令。这些包括实用程序命令,例如clear, help, history, quit, 和 set; 和诸如exec, kill, 和 run之类的命令从Grunt shell中控制Pig。下面给出了Grunt shell提供的实用程序命令的描述。
clear 命令
clear 命令用于清除Grunt shell 的屏幕。
句法
您可以使用clear命令清除grunt shell的屏幕,如下所示。
help 命令
help 命令给你 pig 命令或 pig 属性列表。
句法
您可以使用help命令获得Pig命令的列表,如下所示。
grunt> help
Commands:
<pig latin statement>; - See the PigLatin manual for details: http://hadoop.apache.org/pig
File system commands:
fs <fs arguments> - Equivalent to Hadoop dfs command: http://hadoop.apache.org/common/docs/current/hdfs_shell.html
Diagnostic commands:
describe <alias>[::<alias] - Show the schema for the alias. Inner aliases can be described as A::B.
explain [-script <pigscript>] [-out <path>] [-brief] [-dot|-xml] [-param <param_name>=<param_value>]
[-param_file <file_name>] [<alias>] - Show the execution plan to compute the alias or for entire script.
-script - Explain the entire script.
-out - Store the output into directory rather than print to stdout.
-brief - Don't expand nested plans (presenting a smaller graph for overview).
-dot - Generate the output in .dot format. Default is text format.
-xml - Generate the output in .xml format. Default is text format.
-param <param_name - See parameter substitution for details.
-param_file <file_name> - See parameter substitution for details.
alias - Alias to explain.
dump <alias> - Compute the alias and writes the results to stdout.
Utility Commands:
exec [-param <param_name>=param_value] [-param_file <file_name>] <script> -
Execute the script with access to grunt environment including aliases.
-param <param_name - See parameter substitution for details.
-param_file <file_name> - See parameter substitution for details.
script - Script to be executed.
run [-param <param_name>=param_value] [-param_file <file_name>] <script> -
Execute the script with access to grunt environment.
-param <param_name - See parameter substitution for details.
-param_file <file_name> - See parameter substitution for details.
script - Script to be executed.
sh <shell command> - Invoke a shell command.
kill <job_id> - Kill the hadoop job specified by the hadoop job id.
set <key> <value> - Provide execution parameters to Pig. Keys and values are case sensitive.
The following keys are supported:
default_parallel - Script-level reduce parallelism. Basic input size heuristics used by default.
debug - Set debug on or off. Default is off.
job.name - Single-quoted name for jobs. Default is PigLatin:<script name>
job.priority - Priority for jobs. Values: very_low, low, normal, high, very_high. Default is normal
stream.skippath - String that contains the path. This is used by streaming.
any hadoop property.
help - Display this message.
history [-n] - Display the list statements in cache.
-n Hide line numbers.
quit - Quit the grunt shell.
history 命令
该命令显示了自调用Grunt Sell以来已执行/使用过的语句列表。
语法
假设自打开Grunt shell以来,我们已经执行了三个语句。
grunt> customers = LOAD 'hdfs://localhost:9000/pig_data/customers.txt' USING PigStorage(',');
grunt> orders = LOAD 'hdfs://localhost:9000/pig_data/orders.txt' USING PigStorage(',');
grunt> student = LOAD 'hdfs://localhost:9000/pig_data/student.txt' USING PigStorage(',');
然后,使用history命令将产生以下输出。
grunt> history
customers = LOAD 'hdfs://localhost:9000/pig_data/customers.txt' USING PigStorage(',');
orders = LOAD 'hdfs://localhost:9000/pig_data/orders.txt' USING PigStorage(',');
student = LOAD 'hdfs://localhost:9000/pig_data/student.txt' USING PigStorage(',');
set 命令
set 命令用于显示在pig 中使用的键/分配值。
用法
使用此命令,可以将值设置为以下键。
键 |
描述和值 |
default_parallel |
您可以通过将任何整数作为值传递给此键来设置map作业的化简数量。 |
debug |
您可以通过off/on此键来关闭或打开Pig中的调试功能。 |
job.name |
您可以通过将字符串值传递给此键来将作业名称设置为所需的作业。 |
job.priority |
您可以通过将以下值之一传递给此键来为作业设置作业优先级-
- very_low
- low
- normal
- high
- very_high
|
stream.skippath |
对于流式传输,可以通过将所需的路径以字符串形式传递给此键来设置不传输数据的路径。 |
quit 命令
您可以使用此命令从Grunt shell退出。
用法
如下所示从Grunt shell退出。
现在,让我们看一下可以从Grunt shell控制Apache Pig的命令。
exec 命令
使用exec命令,我们可以从Grunt shell中执行Pig脚本。
句法
下面给出的是实用程序命令exec的语法。
grunt> exec [–param param_name = param_value] [–param_file file_name] [script]
例
我们假设HDFS的/pig_data/目录中有一个名为Student.txt的文件,其内容如下。
001,Rajiv,Hyderabad
002,siddarth,Kolkata
003,Rajesh,Delhi
并且,假设我们在HDFS的/pig_data/目录中有一个名为sample_script.pig的脚本文件,内容如下。
student = LOAD 'hdfs://localhost:9000/pig_data/student.txt' USING PigStorage(',') as (id:int,name:chararray,city:chararray);
Dump student;
现在,让我们使用exec命令从Grunt shell执行上述脚本,如下所示。
grunt> exec /sample_script.pig
输出
在EXEC命令执行脚本sample_script.pig。按照脚本中的指示,它会将Student.txt文件加载到Pig中,并为您提供转储运算符显示以下内容的结果。
(1,Rajiv,Hyderabad)
(2,siddarth,Kolkata)
(3,Rajesh,Delhi)
kill 命令
您可以使用此命令从Grunt Shell中终止作业。
句法
下面给出的是kill命令的语法。
例 - 假设有一个运行中的id为Id_0055的Pig作业,您可以使用kill命令从Grunt shell中杀死它,如下所示。
run 命令
您可以使用run命令从Grunt shell运行Pig脚本
句法
下面给出的是run命令的语法。
grunt> run [–param param_name = param_value] [–param_file file_name] script
例 - 让我们假设有一个文件名为student.txt在/pig_data/用下面的内容目录HDFS的。
001,Rajiv,Hyderabad
002,siddarth,Kolkata
003,Rajesh,Delhi
并且,假设我们在本地文件系统中有一个名为sample_script.pig的脚本文件,内容如下。
student = LOAD 'hdfs://localhost:9000/pig_data/student.txt' USING
PigStorage(',') as (id:int,name:chararray,city:chararray);
现在,让我们使用run命令从Grunt shell运行上述脚本,如下所示。
grunt> run /sample_script.pig
您可以使用Dump运算符查看脚本的输出,如下所示。
grunt> Dump;
(1,Rajiv,Hyderabad)
(2,siddarth,Kolkata)
(3,Rajesh,Delhi)
注 – exec和run命令之间的区别在于,如果我们使用run,则脚本的语句在命令历史记录中可用。