あの「いらすとや」が毎日更新を終了。2012年からの毎月の更新量を調べたら凄かった

いらすとやトップページ

いらすとやトップページ。当サイトも何度かお世話になっている

いらすとやが毎日更新を終了

 いらすとやというサイトをご存じだろうか。「かわいいフリー素材集」とうたっており、柔らかいフェルトのようなタッチのイラストが無料で公開されており、ネット上だけでなく日本全国のさまざまな場所で利用されている。  本当に多くの場所で利用されており、街中のいらすとやのイラストを収集している人もいる(前人未到温泉)。また、イラストの知名度があまりにも高くなったために、ぬいぐるみや雑貨が作られたりもしている。近年では企業とのコラボレーションも多い(いらすとや)。  いらすとやは、フリー素材のサイトだが、無制限に無料というわけではない。「素材を21点以上使った商用デザイン」「素材の高解像度データの作成」は有償で対応となっている。著作権も放棄していない(いらすとや)。  この、いらすとやは、多くの人が「どこかで絵を見たことがある」サイトなのだが、実は「みふねたかし」という個人の方が運営している。そして1月25日に、今後のサイトの更新についてという記事が投稿された。 > 9年間(たしか)毎日サイトを更新をしてきたのですが、ここ数年は他にもやることが増えてほとんど休みがなく、精神的にも体力的にも今のペースで全てをやり続けるのは難しいと感じています。 > いろいろと考えたのですが、タイミング的にキリもいいので1月31日でサイトの更新を一旦停止します。 > 2月からゆっくり休んで、その後はサイトを不定期更新にして無理のない範囲でいろいろと頑張りたいと思います。  長い期間にわたって描いていた素材は、25000点以上になっているそうだ。単純にこの点数を9年という月日で割ると「25000 / 9 / 365 = 7.61」という計算になる。1日に7枚から8枚のイラストを休みなく描いていたというのだ。これは確かに大変そうだ。  とはいえ、9年間の中で波があったのではないかと思う。サイトの初期に多くの絵がアップされていた、あるいはサイトが認知されてから作成点数が増えた。そうした粗密はあると思う。  もし、偏りがあるのなら、1日あたりの点数は、7.61よりも、もっと多くなる。そこで、いらすとやの素材制作が、どのように推移していったか調べてみることにした。

いらすとや2万5000点の毎月の更新頻度を調査する

 さて、いらすとやのサイトだが、更新履歴のページはない。Twitterのアカウントでは、更新があると呟きがあるが、このツイートを全部さかのぼるのも大変だ。  サイトには「新しいイラスト」というコーナーがあり、過去の更新状況をさかのぼれる。しかし、どんどん過去にさかのぼる「次のページ」のリンクは連番ではなく、「updated-max=2021-01-25T12:00:00+09:00」のように、次の検索開始位置を日時で指定する形式になっている。  1ページには24個の素材リンクが掲載されるため、全てのリンクをたどるには1041ページ近くクローリングして、「次のページ」のURLを得続けなければならない。  そこからさらに各ページを取得して更新日時を確かめようとすると、2万5000ページ取得する必要がある。簡単なプログラムを書けば全てのリンクをたどれるが、サイトにも迷惑をかけるし、もう少し楽をして情報を得たいと思った。  いらすとやサイトの各素材のURLは「2021/01/blog-post_32.html」のようになっており、「年/月」がURLに含まれる。そのため、年月までの情報なら、Webページを全て取得しなくても分かる。サイト全体のURLのリストが得られれば、どの年月に、どのぐらいのページが作成されたのか知ることができる。  Webページの中には、先の「今後のサイトの更新について」のように、素材とは無関係のページもあるが、全体の比率から考えると無視できる数だ。こうした判断のもと、いらすとやWebサイトの全URLを得て、そのURLから各年月の更新頻度を調べる算段を立てることにした。  調査として、まずは「sitemap.xml」があるか確認した。「sitemap.xml」は、Googleなどの検索エンジンに、サイトの構造を報せるファイルだ(e-Words)。  あればよいなと思い、アクセスすると「sitemap.xml」は存在した。このファイルは以下のような構造になっている。 – sitemapindex   - sitemap     - loc       https://www.irasutoya.com/sitemap.xml?page=1       ~     - loc       https://www.irasutoya.com/sitemap.xml?page=20  「sitemap.xml」にはpageが1から20のURLが掲載されていた。こちらにアクセスすると、以下のような情報がまとまったXMLファイルが得られる。「urlset.url.loc」にURLが入っている。 – urlset   - url     - loc       https://www.irasutoya.com/2021/01/blog-post_343.html     - lastmod       2021-01-28T06:00:15Z   - url   - url   ︙  「sitemap.xml」には1~20ページのURL(page=1~page=20)しか掲載されていないが、実際には167ページ(page=167)まで存在している。これらを全てダウンロードして、URLを取得すれば、更新年月のリストを手に入れることができる。  167ページは、先の1041ページよりも少ないので、データを得るなら、こちらの方がサイトへの負荷が少なく適切だ。  というわけで、Windows10 の curl.exe を使い、全てのXMLファイルをダウンロードした。Windows10 には、2018年頃から、curl.exe が標準で付属するようになった。curl は、もともと Unix 系のプログラムだったが、Linux に移植されて、Windows でも独自に実装された(ASCII.jp)。  「curl.exe URL > 保存先」と書いて実行すれば、URLのファイルをローカルに保存できる。page=1 から page=167 のURLと保存先を、プログラムや EXCEL などで作り、コマンド プロンプトでまとめて実行すれば、2~3分で全部のファイルをダウンロードできる。
次のページ
入手したデータで毎月の更新量を視覚化すると……
1
2
PC_middleRec_left
PC_middleRec_right
関連記事
PC_fotterRec_left
PC_foterRec_right