2022/04/01


Go で URL を扱う時は通常、net/url を使います。その際、例えばベースとなる URL にパスを足そうと思うと意外としんどかったりしました。

package main

import (
    "fmt"
    "log"
    "net/url"
    "path"
)

func main() {
    endpoint := "https://example.com"
    u, err := url.Parse(endpoint)
    if err != nil {
        log.Fatal(err)
    }
    u.Path = path.Join(u.Path, "foo""bar""baz")
    endpoint = u.String()
    fmt.Println(endpoint)
}

一部の方は「ハァッ?文字列で足せばいいじゃん」と思われるかもしれませんが、URL のパスを扱うという行為は実はとても難しい事なのです。path.Join を使う事で、不要な / が混じらない効果があります。また以下の様に相対パスを扱う場合

u.Path = path.Join(u.Path, "foo""..""baz")

https:///example.com/foo/baz に修正してくれるといった効果もあります。そういう点で僕は Go で URL を扱う場合は面倒でも url.Parse を使う事をオススメしています。しかしたかが元が文字列の URL にパスを足す為だけにこれだけのコードを書くのは、いくら Explicit の精神とは言え面倒に感じるのは共感できます。

net/url: add JoinPath, URL.JoinPath · golang/go@604140d · GitHub

Builds on CL 332209. Fixes #47005 Change-Id: I82708dede05d79a196ca63f5a4e7cb5ac9a041ea GitHub-Last-R...

https://github.com/golang/go/commit/604140d93111f89911e17cb147dcf6a02d2700d0
Go の master ブランチで net/urlJoinPathURL.JoinPath が追加されました。上記のコードであれば以下の様に簡単にパスを結合する事ができる様になりました。 package main

import (
    "fmt"
    "log"
    "net/url"
)

func main() {
    endpoint := "https://example.com"
    var err error
    endpoint, err = url.JoinPath(endpoint, "foo""bar")
    if err != nil {
        log.Fatal(err)
    }
    fmt.Println(endpoint)
}

URL のパスを組み立てる為に URL を作らなくても良いので、ずいぶん楽になりました。

Posted at by



2022/03/24


献本頂きました。執筆者の皆様、技術評論社の皆様、ありがとうございました。

もともとデータ解析というか機械学習に幾らか興味があり、このブログや Zenn 等でも幾らか記事を書いてきたのですが、R 言語に関してはほぼほぼノータッチで、たまに遊んだりはしていましたが使えるというレベルではありませんでした。

以前から vim-lsp-settings という、Vim からあらゆる Language Server をインストールできるプラグインを作っており、そこで R の Language Server を試したところ、Windows で動かないバグを見付けパッチを送った際に少し触ったのが初めて R を触った体験です。このパッチがマージされたのをきっかけに少しだけ R を触る様になりました。

おそらく多くの皆さんも、R がどういった言語でどれくらい成熟しているのかはご存じないかもしれません。かくいう僕も今回 R を触って改めて驚いたのですが、R はかなり成熟しており、エコシステムはもちろん、周辺ツールや IDE、ライブラリを作る為の仕組み等も既に一通り揃った、ほぼほぼ完成したプラットフォームなのです。特に驚いたのが Windows への対応力です。僕の経験上、失礼ながらマイナーなプログラミング言語は Windows での動作が未保障でひどければ非サポートという状況が一般的で、うまく動いても手直しが必要というのが経験則だったのですが、R に至ってはほぼ何も手を加える事無く、いろいろなライブラリが動作します。

そんな中で本書を手に取り、色々なサンプルを1つずつ試しながら読んだのですが、一言で言えば「データ解析は奥が深い」です。そしてもう1つ「見せ方次第でデータは変わる」とも感じました。もちろんデータそのものが変わる訳ではありませんが、受け取る側の印象はまったく変わってくると思いますし、その為に必要なデータ加工のスキルはとても重要だと思いました。そして抽出されたデータを加工し、グラフ等で表現する一連のワークフローを行う際には、R は強い味方になってくれる事も理解できました。

こういったデータ解析はもちろん Python でも同じ様な事はできるのですが、R の IDE である RStudio のデキがかなり良く、おそらく巷にあるどのデータ解析 IDE よりも良く出来ているだろうと思いました。僕は R 言語はド素人な訳ですが、僕と同じ様に R 言語をビギナーから始めたい人には、初手から詳しい説明が書かれている本書はとても便利でありがたい1冊だと思いますし、R に慣れるまではしばらく近くに置いておきたい本になると思います。

Posted at by



2022/03/20


おなじみC/C++から使えるJSONライブラリを紹介するコーナー。まずは過去のまとめ。

C/C++ から扱える JSON ライブラリを数多く紹介してきましたが、パフォーマンスの観点では simdjson が不動の物にしていました。

GitHub - simdjson/simdjson: Parsing gigabytes of JSON per second

Documentation Usage documentation is available: Basics is an overview of how to use simdjson and its...

https://github.com/simdjson/simdjson

がしかし yyjson の登場により、この認識を改めなければならなくなりました。

GitHub - ibireme/yyjson: The fastest JSON library in C

yyjson A high performance JSON library written in ANSI C. Features Fast : can read or write gigabyte...

https://github.com/ibireme/yyjson

まずはこのベンチマーク結果を見て下さい。

benchmark

追記 このグラフは simdjson の DOM API という古い API が使われていた頃の物らしく、ondemand API という最近の API を使うとまた結果が異なる様です。

一部で simdjson の方が勝ってはいるものの、殆どのケースで yyjson が上回っています。

yyjson の特徴は以下の通り。

  • 高速: 最新の CPU で秒間ギガバイトの JSON データを読み書きできる
  • ポータブル: ANSI C(C89)に準拠
  • 標準: RFC8259 標準に厳密に準拠
  • 安全: 完全な JSON 形式、数値形式、UTF-8 バリデーション
  • 精度: int64、uint64、および double の数値を正確に読み書き可能
  • 制限が少ない: 無制限の JSON レベル、\u0000 および null で終了しない文字列をサポート
  • 拡張可能: コメント、末尾のコンマ、nan/inf、カスタムメモリアロケータを許可するオプション
  • 開発者向け: 1個のヘッダファイル1個のCファイルのみ、統合が簡単

ソースの中を見てみましたが、随所で SIMD による最適化が行われています。データ構造も SIMD で扱う為に 64 ビット単位(タイプ、長さ、ペイロードの3つで 128 ビット)にしてあります。

いつもの通りサンプルコードを書いてみました。本ブログサイトのエントリを JSON 形式にした物をパースしてみます。

#include 
#include 

int
main() {
  yyjson_read_err err;
  yyjson_doc *doc = yyjson_read_file("foo.json",
      YYJSON_READ_NOFLAG,
      NULL,
      &err);
  if (!doc) {
    fprintf(stderr"%s\n", err.msg);
    exit(1);
  }

  yyjson_val *root = yyjson_doc_get_root(doc);

  yyjson_val *title = yyjson_obj_get(root, "title");
  printf("title: %s\n", yyjson_get_str(title));

  yyjson_val *entries = yyjson_obj_get(root, "entries");

  size_t idx, max;
  yyjson_val *entry;
  yyjson_arr_foreach(entries, idx, max, entry) {
    title = yyjson_obj_get(entry, "title");
    printf("%s\n", yyjson_get_str(title));
  }

  yyjson_doc_free(doc); 
  return 0;
}

直感的で parson や jannson を使った事がある方であればどんな API かすぐに分かると思います。

ライセンスも MIT ですので業務で使う事もできますね。

Posted at by