Big Sky :: C言語から使えるJSONパーサ、JSMNを試してみた。

2012/08/22

C言語から使えるJSONパーサ、JSMNを試してみた。

C++ だと picojson ばかり使っていて、JSON使うからC++かなという言語の選び方をしていたりしたのですが、今日matsuuさんのブクマ経由で見つけた。

jsmn

The minimalistic portable framework for parsing JSON data format.
http://bitbucket.org/zserge/jsmn

特徴としては

C98コンパチブル
動的なメモリアロケーションを行わない
可能な限り最小のオーバーヘッド
JSONのパースは1パス
libc も含め依存物がない
MITライセンス下で配布され、プロプライエタリなプロジェクトでも使える
単純で美しいデザイン

といったところ。C言語で使える JSON パーサは実は以前にも json-c を試した事はあったのですが、あれは .c の拡張子ファイルを C++ 指定でビルドしているだけというゴニョゴニョなあれなので使い物になりませんでした。
そんな中で見つけたこれは、実にシンプルで応用性がありそうなので記事にしたいと思います。ただし使用上の注意があるので使う人は要検討です。
まずこの jsmn が提供する物はパーサのみ。しかもパース結果から得られるのは各トークンの位置と種別、データとして扱う際の開始終了位置のみです。えっそんなので使い物になるの？と思うかもしれませんが、実は用途によっては十分だったりもします。以下に例を示します。


#include <assert.h>

#include <string.h>

#include <jsmn.h>



#define countof(x) (sizeof(x)/sizeof(x[0]))



int

main() {

  jsmn_parser p;

  jsmntok_t tokens[10] = {0};

  char buf[256];

  const char* js = "{\"foo\": \"bar\", \"baz\": [1,true]}";

  int r;

  jsmn_init(&p);



  r = jsmn_parse(&p, js, tokens, countof(tokens));

  assert(r == JSMN_SUCCESS);



  /* 全体の型はOBJECT */

  assert(tokens[0].type == JSMN_OBJECT);



  /* 中のトークン数は4 */

  assert(tokens[0].size == 4);



  /* 1つ目の型はSTRING */

  assert(tokens[1].type == JSMN_STRING);



  /* 1つ目の値は"foo" */

  memset(buf, 0, sizeof buf);

  strncpy(buf, js + tokens[1].start, tokens[1].end - tokens[1].start);

  assert(!strcmp(buf, "foo"));



  /* 2つ目の型はSTRING */

  assert(tokens[2].type == JSMN_STRING);



  /* 2つ目の値は"bar" */

  memset(buf, 0, sizeof buf);

  strncpy(buf, js + tokens[2].start, tokens[2].end - tokens[2].start);

  assert(!strcmp(buf, "bar"));



  /* 3つ目の型はSTRING */

  assert(tokens[3].type == JSMN_STRING);



  /* 3つ目の値は"baz" */

  memset(buf, 0, sizeof buf);

  strncpy(buf, js + tokens[3].start, tokens[3].end - tokens[3].start);

  assert(!strcmp(buf, "baz"));



  /* 4つ目の型はARRAY */

  assert(tokens[4].type == JSMN_ARRAY);



  /* 4つ目のARRAYのトークン数は2 */

  assert(tokens[4].size == 2);



  /* 5つ目の型はPRIMITIVE */

  assert(tokens[5].type == JSMN_PRIMITIVE);



  /* 5つ目の値は"1" */

  memset(buf, 0, sizeof buf);

  strncpy(buf, js + tokens[5].start, tokens[5].end - tokens[5].start);

  assert(atoi(buf) == 1);



  /* 6つ目の型はPRIMITIVE */

  assert(tokens[6].type == JSMN_PRIMITIVE);



  /* 6つ目の値は"true" */

  memset(buf, 0, sizeof buf);

  strncpy(buf, js + tokens[6].start, tokens[6].end - tokens[6].start);

  assert(!strcmp(buf, "true"));

}

例を追って説明します。まず jsmn_parser を jsmn_init で初期化します。実際には構造体メンバに初期値を代入しているに過ぎません。
初期化した jsmn_parser を jsmn_parse 引数に渡して JSON 文字列をパースします。この時、トークン数を渡す必要があります。このトークンは動的に確保されません。基本的に jsmn は内部でメモリを動的確保しません。これについての解決方法は後で説明します。
パースされた結果はトークンの配列となります。そしてこのトークンは以下の内容で構成されます。

型
値を示す JSON 文字列の開始位置
値を示す JSON 文字列の終了位置
値が配列の場合のアイテム個数
値がオブジェクトの場合のキーおよび値の個数

たとえば


{"foo": "bar", "baz": [1,true]}

この JSON をパースした場合、トークンは

トークン	型	値
tokens[0]	JSMN_OBJECT	オブジェクト
tokens[1]	JSMN_STRING	"foo"
tokens[2]	JSMN_STRING	"bar"
tokens[3]	JSMN_STRING	"baz"
tokens[4]	JSMN_ARRAY	配列
tokens[5]	JSMN_PRIMITIVE	1
tokens[6]	JSMN_PRIMITIVE	true

上記の様に、トークンは各識別毎に作られます。オブジェクトのキーおよび値もそれぞれのトークンとして格納されます。
jsmn_parse はトークンの量が不足している場合、エラー JSMN_ERROR_NOMEM を返します。例えば、どれだけの量のトークンが JSON 文字列として与えられるか分からない場合、トークンのサイズを広げる必要があります。この場合、jsmn ではパーサを再初期化する事なしに、トークンを広げて再度 jsmn_parse を実行する事でパースを続行出来る様になっています。
ただしどれだけの量が不足していたかは分からないので、適度な増減を考慮する必要があります。
今日は試しに twitter のパブリックタイムラインをパースしてみました。


#include <assert.h>

#include <string.h>

#include <memory.h>

#include <curl/curl.h>

#include <jsmn.h>



#define countof(x) (sizeof(x)/sizeof(x[0]))



typedef struct {

  char* data;   // response data from server

  size_t size;  // response size of data

} MEMFILE;



MEMFILE*

memfopen() {

  MEMFILE* mf = (MEMFILE*) malloc(sizeof(MEMFILE));

  if (mf) {

    mf->data = NULL;

    mf->size = 0;

  }

  return mf;

}



void

memfclose(MEMFILE* mf) {

  if (mf->data) free(mf->data);

  free(mf);

}



size_t

memfwrite(char* ptr, size_t size, size_t nmemb, void* stream) {

  MEMFILE* mf = (MEMFILE*) stream;

  int block = size * nmemb;

  if (!mf) return block; // through

  if (!mf->data)

    mf->data = (char*) malloc(block);

  else

    mf->data = (char*) realloc(mf->data, mf->size + block);

  if (mf->data) {

    memcpy(mf->data + mf->size, ptr, block);

    mf->size += block;

  }

  return block;

}



char*

memfstrdup(MEMFILE* mf) {

  char* buf;

  if (mf->size == 0) return NULL;

  buf = (char*) malloc(mf->size + 1);

  memcpy(buf, mf->data, mf->size);

  buf[mf->size] = 0;

  return buf;

}



int

skip(jsmntok_t* tokens, int off) {

  jsmntype_t t = tokens[off].type;

  if (t == JSMN_ARRAY || t == JSMN_OBJECT) {

    int n, l = tokens[off++].size;

    for (n = 0; n < l; n++)

      off = skip(tokens, off);

  } else

    off++;

  return off;

}



typedef struct {

  char* screen_name;

  char* text;

} tweet;



int

main() {

  jsmn_parser p;

  jsmntok_t *tokens;

  size_t len;

  char buf[1024];

  CURL* curl;

  MEMFILE* mf = NULL;

  char* js = NULL;

  int i, j, k, count, off;

  tweet* tweets = NULL;



  mf = memfopen();



  curl = curl_easy_init();

  curl_easy_setopt(curl, CURLOPT_URL, "http://api.twitter.com/1/statuses/public_timeline.json");

  curl_easy_setopt(curl, CURLOPT_WRITEDATA, mf);

  curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, memfwrite);

  curl_easy_perform(curl);

  curl_easy_cleanup(curl);



  js = memfstrdup(mf);

  memfclose(mf);



  jsmn_init(&p);



  len = 5;

  tokens = malloc(sizeof(jsmntok_t) * len);

  if (tokens == NULL) {

    perror("malloc");

    goto leave;

  }

  memset(tokens, 0, sizeof(jsmntok_t) * len);

  while (1) {

    int r = jsmn_parse(&p, js, tokens, len);

    if (r == JSMN_SUCCESS) 

      break;

    assert(r == JSMN_ERROR_NOMEM);

    len *= 2;

    tokens = realloc(tokens, sizeof(jsmntok_t) * len);

    if (tokens == NULL) {

      perror("malloc");

      goto leave;

    }

  }



  off = 0;

  count = tokens[off++].size;



  tweets = malloc(sizeof(tweet) * count);

  memset(tweets, 0, sizeof(tweet) * count);



  for (i = 0; i < count; i++) {

    int k1, k2;

    k1 = tokens[off++].size;

    for (j = 0; j < k1 / 2; j++) {

      memset(buf, 0, sizeof buf);

      strncpy(buf, js + tokens[off].start, tokens[off].end - tokens[off].start);

      off++;

      if (!strcmp(buf, "text")) {

        memset(buf, 0, sizeof buf);

        strncpy(buf, js + tokens[off].start, tokens[off].end - tokens[off].start);

        tweets[i].text = strdup(buf);

        off++;

      } else if (!strcmp(buf, "user")) {

        k2 = tokens[off].size;

        off++;

        for (k = 0; k < k2 / 2; k++) {

          memset(buf, 0, sizeof buf);

          strncpy(buf, js + tokens[off].start, tokens[off].end - tokens[off].start);

          off++;

          if (!strcmp(buf, "screen_name")) {

            memset(buf, 0, sizeof buf);

            strncpy(buf, js + tokens[off].start, tokens[off].end - tokens[off].start);

            tweets[i].screen_name = strdup(buf);

            off++;

          } else

            off = skip(tokens, off);

        }

      } else

        off = skip(tokens, off);

    }

  }



  for (i = 0; i < count; i++) {

    printf("%s: %s\n", tweets[i].screen_name, tweets[i].text);

  }



  for (i = 0; i < count; i++) {

    free(tweets[i].screen_name);

    free(tweets[i].text);

  }

  free(tweets);



leave:

  if (js) free(js);

  if (tokens) free(tokens);

}

出力結果から分かる通り、実は jsmn はまだ \uXXXX という文字列リテラルをパース出来ません。よって twitter のタイムライン上に流れるユニコード文字列は全てエスケープされたまま表示されます。
ちょっと癖があるのでフラットな JSON であれば十分役立つのですが、twitter のタイムラインの様にオブジェクト構造がネストされた物になると扱う側が常にメモリを意識しなければならないので途端に難易度があがります。
例えばキーと値がベタに決まっていて、ネストも無いような JSON であれば少しは使い道はあるかもしれませんね。\uXXXX リテラルがサポートされればもう少し使い道が出てくるかもしれません。

Posted at 01:53 | WriteBacks () | Edit

Edit this entry...

wikieditish message: Ready to edit this entry.

New Name:

Title:

Body:

meta-tags: json, C
meta-creation_date: 2012-08-22T01:53:42+09:00

C++ だと picojson ばかり使っていて、JSON使うからC++かなという言語の選び方をしていたりしたのですが、今日matsuuさんのブクマ経由で見つけた。

<blockquote class="quote">
 <a href="http://bitbucket.org/zserge/jsmn">jsmn</a>
 
 The minimalistic portable framework for parsing JSON data format.
 <cite>http://bitbucket.org/zserge/jsmn</cite>
</blockquote>

特徴としては

<ul>
 <li>C98コンパチブル</li>
 <li>動的なメモリアロケーションを行わない</li>
 <li>可能な限り最小のオーバーヘッド</li>
 <li>JSONのパースは1パス</li>
 <li>libc も含め依存物がない</li>
 <li>MITライセンス下で配布され、プロプライエタリなプロジェクトでも使える</li>
 <li>単純で美しいデザイン</li>
</ul>

といったところ。C言語で使える JSON パーサは実は以前にも <a href="http://mattn.kaoriya.net/software/lang/c/20080207205241.htm">json-c</a> を試した事はあったのですが、あれは .c の拡張子ファイルを C++ 指定でビルドしているだけというゴニョゴニョなあれなので使い物になりませんでした。 
そんな中で見つけたこれは、実にシンプルで応用性がありそうなので記事にしたいと思います。ただし使用上の注意があるので使う人は要検討です。 
まずこの jsmn が提供する物はパーサのみ。しかもパース結果から得られるのは各トークンの位置と種別、データとして扱う際の開始終了位置のみです。えっそんなので使い物になるの？と思うかもしれませんが、実は用途によっては十分だったりもします。以下に例を示します。

例を追って説明します。まず jsmn_parser を jsmn_init で初期化します。実際には構造体メンバに初期値を代入しているに過ぎません。 
初期化した jsmn_parser を jsmn_parse 引数に渡して JSON 文字列をパースします。この時、トークン数を渡す必要があります。このトークンは動的に確保されません。基本的に jsmn は内部でメモリを動的確保しません。これについての解決方法は後で説明します。 
パースされた結果はトークンの配列となります。そしてこのトークンは以下の内容で構成されます。

<ul>
 <li>型</li>
 <li>値を示す JSON 文字列の開始位置</li>
 <li>値を示す JSON 文字列の終了位置</li>
 <li>値が配列の場合のアイテム個数</li>
 <li>値がオブジェクトの場合のキーおよび値の個数</li>
</ul>

たとえば

この JSON をパースした場合、トークンは

<table border="1">
 <tr><th>トークン</th><th>型</th><th>値</th></tr>
 <tr><td>tokens[0]</td><td>JSMN_OBJECT</td><td>オブジェクト</td></tr>
 <tr><td>tokens[1]</td><td>JSMN_STRING</td><td>"foo"</td></tr>
 <tr><td>tokens[2]</td><td>JSMN_STRING</td><td>"bar"</td></tr>
 <tr><td>tokens[3]</td><td>JSMN_STRING</td><td>"baz"</td></tr>
 <tr><td>tokens[4]</td><td>JSMN_ARRAY</td><td>配列</td></tr>
 <tr><td>tokens[5]</td><td>JSMN_PRIMITIVE</td><td>1</td></tr>
 <tr><td>tokens[6]</td><td>JSMN_PRIMITIVE</td><td>true</td></tr>
</table>

上記の様に、トークンは各識別毎に作られます。オブジェクトのキーおよび値もそれぞれのトークンとして格納されます。 
jsmn_parse はトークンの量が不足している場合、エラー JSMN_ERROR_NOMEM を返します。例えば、どれだけの量のトークンが JSON 文字列として与えられるか分からない場合、トークンのサイズを広げる必要があります。この場合、jsmn ではパーサを再初期化する事なしに、トークンを広げて再度 jsmn_parse を実行する事でパースを続行出来る様になっています。 
ただしどれだけの量が不足していたかは分からないので、適度な増減を考慮する必要があります。 
今日は試しに twitter のパブリックタイムラインをパースしてみました。

<code class="code">
#include&nbsp;&lt;assert.h&gt; 
#include&nbsp;&lt;string.h&gt; 
#include&nbsp;&lt;memory.h&gt; 
#include&nbsp;&lt;curl/curl.h&gt; 
#include&nbsp;&lt;jsmn.h&gt; 
 
#define countof(x) (sizeof(x)/sizeof(x[0])) 
 
typedef&nbsp;struct&nbsp;{ 
&nbsp;&nbsp;char* data;&nbsp;&nbsp;&nbsp;// response data from server 
&nbsp;&nbsp;size_t&nbsp;size;&nbsp;&nbsp;// response size of data 
} MEMFILE; 
 
MEMFILE* 
memfopen() { 
&nbsp;&nbsp;MEMFILE* mf = (MEMFILE*) malloc(sizeof(MEMFILE)); 
&nbsp;&nbsp;if&nbsp;(mf) { 
&nbsp;&nbsp;&nbsp;&nbsp;mf-&gt;data =&nbsp;NULL; 
&nbsp;&nbsp;&nbsp;&nbsp;mf-&gt;size =&nbsp;0; 
&nbsp;&nbsp;} 
&nbsp;&nbsp;return&nbsp;mf; 
} 
 
void 
memfclose(MEMFILE* mf) { 
&nbsp;&nbsp;if&nbsp;(mf-&gt;data) free(mf-&gt;data); 
&nbsp;&nbsp;free(mf); 
} 
 
size_t 
memfwrite(char* ptr,&nbsp;size_t&nbsp;size,&nbsp;size_t&nbsp;nmemb,&nbsp;void* stream) { 
&nbsp;&nbsp;MEMFILE* mf = (MEMFILE*) stream; 
&nbsp;&nbsp;int&nbsp;block = size * nmemb; 
&nbsp;&nbsp;if&nbsp;(!mf)&nbsp;return&nbsp;block;&nbsp;// through 
&nbsp;&nbsp;if&nbsp;(!mf-&gt;data) 
&nbsp;&nbsp;&nbsp;&nbsp;mf-&gt;data = (char*) malloc(block); 
&nbsp;&nbsp;else 
&nbsp;&nbsp;&nbsp;&nbsp;mf-&gt;data = (char*) realloc(mf-&gt;data, mf-&gt;size + block); 
&nbsp;&nbsp;if&nbsp;(mf-&gt;data) { 
&nbsp;&nbsp;&nbsp;&nbsp;memcpy(mf-&gt;data + mf-&gt;size, ptr, block); 
&nbsp;&nbsp;&nbsp;&nbsp;mf-&gt;size += block; 
&nbsp;&nbsp;} 
&nbsp;&nbsp;return&nbsp;block; 
} 
 
char* 
memfstrdup(MEMFILE* mf) { 
&nbsp;&nbsp;char* buf; 
&nbsp;&nbsp;if&nbsp;(mf-&gt;size ==&nbsp;0)&nbsp;return&nbsp;NULL; 
&nbsp;&nbsp;buf = (char*) malloc(mf-&gt;size +&nbsp;1); 
&nbsp;&nbsp;memcpy(buf, mf-&gt;data, mf-&gt;size); 
&nbsp;&nbsp;buf[mf-&gt;size] =&nbsp;0; 
&nbsp;&nbsp;return&nbsp;buf; 
} 
 
int 
skip(jsmntok_t* tokens,&nbsp;int&nbsp;off) { 
&nbsp;&nbsp;jsmntype_t t = tokens[off].type; 
&nbsp;&nbsp;if&nbsp;(t == JSMN_ARRAY || t == JSMN_OBJECT) { 
&nbsp;&nbsp;&nbsp;&nbsp;int&nbsp;n, l = tokens[off++].size; 
&nbsp;&nbsp;&nbsp;&nbsp;for&nbsp;(n =&nbsp;0; n &lt; l; n++) 
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;off = skip(tokens, off); 
&nbsp;&nbsp;}&nbsp;else 
&nbsp;&nbsp;&nbsp;&nbsp;off++; 
&nbsp;&nbsp;return&nbsp;off; 
} 
 
typedef&nbsp;struct&nbsp;{ 
&nbsp;&nbsp;char* screen_name; 
&nbsp;&nbsp;char* text; 
} tweet; 
 
int 
main() { 
&nbsp;&nbsp;jsmn_parser p; 
&nbsp;&nbsp;jsmntok_t *tokens; 
&nbsp;&nbsp;size_t&nbsp;len; 
&nbsp;&nbsp;char&nbsp;buf[1024]; 
&nbsp;&nbsp;CURL* curl; 
&nbsp;&nbsp;MEMFILE* mf =&nbsp;NULL; 
&nbsp;&nbsp;char* js =&nbsp;NULL; 
&nbsp;&nbsp;int&nbsp;i, j, k, count, off; 
&nbsp;&nbsp;tweet* tweets =&nbsp;NULL; 
 
&nbsp;&nbsp;mf = memfopen(); 
 
&nbsp;&nbsp;curl = curl_easy_init(); 
&nbsp;&nbsp;curl_easy_setopt(curl, CURLOPT_URL,&nbsp;&quot;<a href="http://api.twitter.com/1/statuses/public_timeline.json">http://api.twitter.com/1/statuses/public_timeline.json</a>&quot;); 
&nbsp;&nbsp;curl_easy_setopt(curl, CURLOPT_WRITEDATA, mf); 
&nbsp;&nbsp;curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, memfwrite); 
&nbsp;&nbsp;curl_easy_perform(curl); 
&nbsp;&nbsp;curl_easy_cleanup(curl); 
 
&nbsp;&nbsp;js = memfstrdup(mf); 
&nbsp;&nbsp;memfclose(mf); 
 
&nbsp;&nbsp;jsmn_init(&amp;p); 
 
&nbsp;&nbsp;len =&nbsp;5; 
&nbsp;&nbsp;tokens = malloc(sizeof(jsmntok_t) * len); 
&nbsp;&nbsp;if&nbsp;(tokens ==&nbsp;NULL) { 
&nbsp;&nbsp;&nbsp;&nbsp;perror(&quot;malloc&quot;); 
&nbsp;&nbsp;&nbsp;&nbsp;goto&nbsp;leave; 
&nbsp;&nbsp;} 
&nbsp;&nbsp;memset(tokens,&nbsp;0,&nbsp;sizeof(jsmntok_t) * len); 
&nbsp;&nbsp;while&nbsp;(1) { 
&nbsp;&nbsp;&nbsp;&nbsp;int&nbsp;r = jsmn_parse(&amp;p, js, tokens, len); 
&nbsp;&nbsp;&nbsp;&nbsp;if&nbsp;(r == JSMN_SUCCESS)&nbsp; 
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;break; 
&nbsp;&nbsp;&nbsp;&nbsp;assert(r == JSMN_ERROR_NOMEM); 
&nbsp;&nbsp;&nbsp;&nbsp;len *=&nbsp;2; 
&nbsp;&nbsp;&nbsp;&nbsp;tokens = realloc(tokens,&nbsp;sizeof(jsmntok_t) * len); 
&nbsp;&nbsp;&nbsp;&nbsp;if&nbsp;(tokens ==&nbsp;NULL) { 
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;perror(&quot;malloc&quot;); 
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;goto&nbsp;leave; 
&nbsp;&nbsp;&nbsp;&nbsp;} 
&nbsp;&nbsp;} 
 
&nbsp;&nbsp;off =&nbsp;0; 
&nbsp;&nbsp;count = tokens[off++].size; 
 
&nbsp;&nbsp;tweets = malloc(sizeof(tweet) * count); 
&nbsp;&nbsp;memset(tweets,&nbsp;0,&nbsp;sizeof(tweet) * count); 
 
&nbsp;&nbsp;for&nbsp;(i =&nbsp;0; i &lt; count; i++) { 
&nbsp;&nbsp;&nbsp;&nbsp;int&nbsp;k1, k2; 
&nbsp;&nbsp;&nbsp;&nbsp;k1 = tokens[off++].size; 
&nbsp;&nbsp;&nbsp;&nbsp;for&nbsp;(j =&nbsp;0; j &lt; k1 /&nbsp;2; j++) { 
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;memset(buf,&nbsp;0,&nbsp;sizeof&nbsp;buf); 
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;strncpy(buf, js + tokens[off].start, tokens[off].end - tokens[off].start); 
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;off++; 
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;if&nbsp;(!strcmp(buf,&nbsp;&quot;text&quot;)) { 
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;memset(buf,&nbsp;0,&nbsp;sizeof&nbsp;buf); 
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;strncpy(buf, js + tokens[off].start, tokens[off].end - tokens[off].start); 
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;tweets[i].text = strdup(buf); 
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;off++; 
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;}&nbsp;else&nbsp;if&nbsp;(!strcmp(buf,&nbsp;&quot;user&quot;)) { 
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;k2 = tokens[off].size; 
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;off++; 
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;for&nbsp;(k =&nbsp;0; k &lt; k2 /&nbsp;2; k++) { 
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;memset(buf,&nbsp;0,&nbsp;sizeof&nbsp;buf); 
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;strncpy(buf, js + tokens[off].start, tokens[off].end - tokens[off].start); 
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;off++; 
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;if&nbsp;(!strcmp(buf,&nbsp;&quot;screen_name&quot;)) { 
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;memset(buf,&nbsp;0,&nbsp;sizeof&nbsp;buf); 
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;strncpy(buf, js + tokens[off].start, tokens[off].end - tokens[off].start); 
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;tweets[i].screen_name = strdup(buf); 
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;off++; 
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;}&nbsp;else 
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;off = skip(tokens, off); 
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;} 
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;}&nbsp;else 
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;off = skip(tokens, off); 
&nbsp;&nbsp;&nbsp;&nbsp;} 
&nbsp;&nbsp;} 
 
&nbsp;&nbsp;for&nbsp;(i =&nbsp;0; i &lt; count; i++) { 
&nbsp;&nbsp;&nbsp;&nbsp;printf(&quot;%s:&nbsp;%s\n&quot;, tweets[i].screen_name, tweets[i].text); 
&nbsp;&nbsp;} 
 
&nbsp;&nbsp;for&nbsp;(i =&nbsp;0; i &lt; count; i++) { 
&nbsp;&nbsp;&nbsp;&nbsp;free(tweets[i].screen_name); 
&nbsp;&nbsp;&nbsp;&nbsp;free(tweets[i].text); 
&nbsp;&nbsp;} 
&nbsp;&nbsp;free(tweets); 
 
leave: 
&nbsp;&nbsp;if&nbsp;(js) free(js); 
&nbsp;&nbsp;if&nbsp;(tokens) free(tokens); 
} 
</code>

出力結果から分かる通り、実は jsmn はまだ <code>\uXXXX</code> という文字列リテラルをパース出来ません。よって twitter のタイムライン上に流れるユニコード文字列は全てエスケープされたまま表示されます。 
ちょっと癖があるのでフラットな JSON であれば十分役立つのですが、twitter のタイムラインの様にオブジェクト構造がネストされた物になると扱う側が常にメモリを意識しなければならないので途端に難易度があがります。 
例えばキーと値がベタに決まっていて、ネストも無いような JSON であれば少しは使い道はあるかもしれませんね。<code>\uXXXX</code> リテラルがサポートされればもう少し使い道が出てくるかもしれません。

Excerpt:

C++ だと picojson ばかり使っていて、JSON使うからC++かなという言語の選び方をしていたりしたのですが、今日matsuuさんのブクマ経由で見つけた。 jsmn The minimalistic portable framework for parsing JSON data format. http://bitbucket.org/zserge/jsmn特徴としては C98コンパチブル 動的なメモリアロケーションを行わない 可能な限り最小のオーバーヘッド JSONのパースは1パス libc も含め依存物がない MITライセンス下で配布され、プロプライエタリなプロジェクトでも使える 単純で美しいデザインといったところ。C言語で使える JSON パーサは実は以前にも json-c を試した事はあったのですが、あれは .c の拡張子ファイルを C++ 指定でビルドしているだけというゴニョゴニョなあれなので使い物になりませんでした。そんな中で見つけたこれは、実にシンプルで応用性がありそうなので記事にしたいと思います。ただし使用上の注意があるので使う人は要検討です。まずこの jsmn が提供する物はパーサのみ。しかもパース結果から得られるのは各トークンの位置と種別、データとして扱う際の開始終了位置のみです。えっそんなので使い物になるの？と思うかもしれませんが、実は用途によっては十分だったりもします。以下に例を示します。#include <assert.h>#include <string.h>#include <jsmn.h>#define countof(x) (sizeof(x)/sizeof(x[0]))intmain() {  jsmn_parser p;  jsmntok_t tokens[10] = {0};  char buf[256];  const char* js = "{\"foo\": \"bar\", \"baz\": [1,true]}";  int r;  jsmn_init(&p);  r = jsmn_parse(&p, js, tokens, countof(tokens));  assert(r == JSMN_SUCCESS);  /* 全体の型はOBJECT */  assert(tokens[0].type == JSMN_OBJECT);  /* 中のトークン数は4 */  assert(tokens[0].size == 4);  /* 1つ目の型はSTRING */  assert(tokens[1].type == JSMN_STRING);  /* 1つ目の値は"foo" */  memset(buf, 0, sizeof buf);  strncpy(buf, js + tokens[1].start, tokens[1].end - tokens[1].start);  assert(!strcmp(buf, "foo"));  /* 2つ目の型はSTRING */  assert(tokens[2].type == JSMN_STRING);  /* 2つ目の値は"bar" */  memset(buf, 0, sizeof buf);  strncpy(buf, js + tokens[2].start, tokens[2].end - tokens[2].start);  assert(!strcmp(buf, "bar"));  /* 3つ目の型はSTRING */  assert(tokens[3].type == JSMN_STRING);  /* 3つ目の値は"baz" */  memset(buf, 0, sizeof buf);  strncpy(buf, js + tokens[3].start, tokens[3].end - tokens[3].start);  assert(!strcmp(buf, "baz"));  /* 4つ目の型はARRAY */  assert(tokens[4].type == JSMN_ARRAY);  /* 4つ目のARRAYのトークン数は2 */  assert(tokens[4].size == 2);  /* 5つ目の型はPRIMITIVE */  assert(tokens[5].type == JSMN_PRIMITIVE);  /* 5つ目の値は"1" */  memset(buf, 0, sizeof buf);  strncpy(buf, js + tokens[5].start, tokens[5].end - tokens[5].start);  assert(atoi(buf) == 1);  /* 6つ目の型はPRIMITIVE */  assert(tokens[6].type == JSMN_PRIMITIVE);  /* 6つ目の値は"true" */  memset(buf, 0, sizeof buf);  strncpy(buf, js + tokens[6].start, tokens[6].end - tokens[6].start);  assert(!strcmp(buf, "true"));}例を追って説明します。まず jsmn_parser を jsmn_init で初期化します。実際には構造体メンバに初期値を代入しているに過ぎません。初期化した jsmn_parser を jsmn_parse 引数に渡して JSON 文字列をパースします。この時、トークン数を渡す必要があります。このトークンは動的に確保されません。基本的に jsmn は内部でメモリを動的確保しません。これについての解決方法は後で説明します。パースされた結果はトークンの配列となります。そしてこのトークンは以下の内容で構成されます。 型 値を示す JSON 文字列の開始位置 値を示す JSON 文字列の終了位置 値が配列の場合のアイテム個数 値がオブジェクトの場合のキーおよび値の個数たとえば{"foo": "bar", "baz": [1,true]}この JSON をパースした場合、トークンは トークン型値 tokens[0]JSMN_OBJECTオブジェクト tokens[1]JSMN_STRING"foo" tokens[2]JSMN_STRING"bar" tokens[3]JSMN_STRING"baz" tokens[4]JSMN_ARRAY配列 tokens[5]JSMN_PRIMITIVE1 tokens[6]JSMN_PRIMITIVEtrue上記の様に、トークンは各識別毎に作られます。オブジェクトのキーおよび値もそれぞれのトークンとして格納されます。jsmn_parse はトークンの量が不足している場合、エラー JSMN_ERROR_NOMEM を返します。例えば、どれだけの量のトークンが JSON 文字列として与えられるか分からない場合、トークンのサイズを広げる必要があります。この場合、jsmn ではパーサを再初期化する事なしに、トークンを広げて再度 jsmn_parse を実行する事でパースを続行出来る様になっています。ただしどれだけの量が不足していたかは分からないので、適度な増減を考慮する必要があります。今日は試しに twitter のパブリックタイムラインをパースしてみました。#include <assert.h>#include <string.h>#include <memory.h>#include <curl/curl.h>#include <jsmn.h>#define countof(x) (sizeof(x)/sizeof(x[0]))typedef struct {  char* data;   // response data from server  size_t size;  // response size of data} MEMFILE;MEMFILE*memfopen() {  MEMFILE* mf = (MEMFILE*) malloc(sizeof(MEMFILE));  if (mf) {    mf->data = NULL;    mf->size = 0;  }  return mf;}voidmemfclose(MEMFILE* mf) {  if (mf->data) free(mf->data);  free(mf);}size_tmemfwrite(char* ptr, size_t size, size_t nmemb, void* stream) {  MEMFILE* mf = (MEMFILE*) stream;  int block = size * nmemb;  if (!mf) return block; // through  if (!mf->data)    mf->data = (char*) malloc(block);  else    mf->data = (char*) realloc(mf->data, mf->size + block);  if (mf->data) {    memcpy(mf->data + mf->size, ptr, block);    mf->size += block;  }  return block;}char*memfstrdup(MEMFILE* mf) {  char* buf;  if (mf->size == 0) return NULL;  buf = (char*) malloc(mf->size + 1);  memcpy(buf, mf->data, mf->size);  buf[mf->size] = 0;  return buf;}intskip(jsmntok_t* tokens, int off) {  jsmntype_t t = tokens[off].type;  if (t == JSMN_ARRAY || t == JSMN_OBJECT) {    int n, l = tokens[off++].size;    for (n = 0; n < l; n++)      off = skip(tokens, off);  } else    off++;  return off;}typedef struct {  char* screen_name;  char* text;} tweet;intmain() {  jsmn_parser p;  jsmntok_t *tokens;  size_t len;  char buf[1024];  CURL* curl;  MEMFILE* mf = NULL;  char* js = NULL;  int i, j, k, count, off;  tweet* tweets = NULL;  mf = memfopen();  curl = curl_easy_init();  curl_easy_setopt(curl, CURLOPT_URL, "http://api.twitter.com/1/statuses/public_timeline.json");  curl_easy_setopt(curl, CURLOPT_WRITEDATA, mf);  curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, memfwrite);  curl_easy_perform(curl);  curl_easy_cleanup(curl);  js = memfstrdup(mf);  memfclose(mf);  jsmn_init(&p);  len = 5;  tokens = malloc(sizeof(jsmntok_t) * len);  if (tokens == NULL) {    perror("malloc");    goto leave;  }  memset(tokens, 0, sizeof(jsmntok_t) * len);  while (1) {    int r = jsmn_parse(&p, js, tokens, len);    if (r == JSMN_SUCCESS)       break;    assert(r == JSMN_ERROR_NOMEM);    len *= 2;    tokens = realloc(tokens, sizeof(jsmntok_t) * len);    if (tokens == NULL) {      perror("malloc");      goto leave;    }  }  off = 0;  count = tokens[off++].size;  tweets = malloc(sizeof(tweet) * count);  memset(tweets, 0, sizeof(tweet) * count);  for (i = 0; i < count; i++) {    int k1, k2;    k1 = tokens[off++].size;    for (j = 0; j < k1 / 2; j++) {      memset(buf, 0, sizeof buf);      strncpy(buf, js + tokens[off].start, tokens[off].end - tokens[off].start);      off++;      if (!strcmp(buf, "text")) {        memset(buf, 0, sizeof buf);        strncpy(buf, js + tokens[off].start, tokens[off].end - tokens[off].start);        tweets[i].text = strdup(buf);        off++;      } else if (!strcmp(buf, "user")) {        k2 = tokens[off].size;        off++;        for (k = 0; k < k2 / 2; k++) {          memset(buf, 0, sizeof buf);          strncpy(buf, js + tokens[off].start, tokens[off].end - tokens[off].start);          off++;          if (!strcmp(buf, "screen_name")) {            memset(buf, 0, sizeof buf);            strncpy(buf, js + tokens[off].start, tokens[off].end - tokens[off].start);            tweets[i].screen_name = strdup(buf);            off++;          } else            off = skip(tokens, off);        }      } else        off = skip(tokens, off);    }  }  for (i = 0; i < count; i++) {    printf("%s: %s\n", tweets[i].screen_name, tweets[i].text);  }  for (i = 0; i < count; i++) {    free(tweets[i].screen_name);    free(tweets[i].text);  }  free(tweets);leave:  if (js) free(js);  if (tokens) free(tokens);}出力結果から分かる通り、実は jsmn はまだ \uXXXX という文字列リテラルをパース出来ません。よって twitter のタイムライン上に流れるユニコード文字列は全てエスケープされたまま表示されます。ちょっと癖があるのでフラットな JSON であれば十分役立つのですが、twitter のタイムラインの様にオブジェクト構造がネストされた物になると扱う側が常にメモリを意識しなければならないので途端に難易度があがります。例えばキーと値がベタに決まっていて、ネストも無いような JSON であれば少しは使い道はあるかもしれませんね。\uXXXX リテラルがサポートされればもう少し使い道が出てくるかもしれません。

Ping URLs:

File:

Password:

A quick preview will be rendered here when you click "Preview" button.