あの「いらすとや」が毎日更新を終了。2012年からの毎月の更新量を調べたら凄かった

いらすとやトップページ

いらすとやトップページ。当サイトも何度かお世話になっている

いらすとやが毎日更新を終了

 いらすとやというサイトをご存じだろうか。「かわいいフリー素材集」とうたっており、柔らかいフェルトのようなタッチのイラストが無料で公開されており、ネット上だけでなく日本全国のさまざまな場所で利用されている。  本当に多くの場所で利用されており、街中のいらすとやのイラストを収集している人もいる(前人未到温泉)。また、イラストの知名度があまりにも高くなったために、ぬいぐるみや雑貨が作られたりもしている。近年では企業とのコラボレーションも多い(いらすとや)。  いらすとやは、フリー素材のサイトだが、無制限に無料というわけではない。「素材を21点以上使った商用デザイン」「素材の高解像度データの作成」は有償で対応となっている。著作権も放棄していない(いらすとや)。  この、いらすとやは、多くの人が「どこかで絵を見たことがある」サイトなのだが、実は「みふねたかし」という個人の方が運営している。そして1月25日に、今後のサイトの更新についてという記事が投稿された。 > 9年間(たしか)毎日サイトを更新をしてきたのですが、ここ数年は他にもやることが増えてほとんど休みがなく、精神的にも体力的にも今のペースで全てをやり続けるのは難しいと感じています。 > いろいろと考えたのですが、タイミング的にキリもいいので1月31日でサイトの更新を一旦停止します。 > 2月からゆっくり休んで、その後はサイトを不定期更新にして無理のない範囲でいろいろと頑張りたいと思います。  長い期間にわたって描いていた素材は、25000点以上になっているそうだ。単純にこの点数を9年という月日で割ると「25000 / 9 / 365 = 7.61」という計算になる。1日に7枚から8枚のイラストを休みなく描いていたというのだ。これは確かに大変そうだ。  とはいえ、9年間の中で波があったのではないかと思う。サイトの初期に多くの絵がアップされていた、あるいはサイトが認知されてから作成点数が増えた。そうした粗密はあると思う。  もし、偏りがあるのなら、1日あたりの点数は、7.61よりも、もっと多くなる。そこで、いらすとやの素材制作が、どのように推移していったか調べてみることにした。

いらすとや2万5000点の毎月の更新頻度を調査する

 さて、いらすとやのサイトだが、更新履歴のページはない。Twitterのアカウントでは、更新があると呟きがあるが、このツイートを全部さかのぼるのも大変だ。  サイトには「新しいイラスト」というコーナーがあり、過去の更新状況をさかのぼれる。しかし、どんどん過去にさかのぼる「次のページ」のリンクは連番ではなく、「updated-max=2021-01-25T12:00:00+09:00」のように、次の検索開始位置を日時で指定する形式になっている。  1ページには24個の素材リンクが掲載されるため、全てのリンクをたどるには1041ページ近くクローリングして、「次のページ」のURLを得続けなければならない。  そこからさらに各ページを取得して更新日時を確かめようとすると、2万5000ページ取得する必要がある。簡単なプログラムを書けば全てのリンクをたどれるが、サイトにも迷惑をかけるし、もう少し楽をして情報を得たいと思った。  いらすとやサイトの各素材のURLは「2021/01/blog-post_32.html」のようになっており、「年/月」がURLに含まれる。そのため、年月までの情報なら、Webページを全て取得しなくても分かる。サイト全体のURLのリストが得られれば、どの年月に、どのぐらいのページが作成されたのか知ることができる。  Webページの中には、先の「今後のサイトの更新について」のように、素材とは無関係のページもあるが、全体の比率から考えると無視できる数だ。こうした判断のもと、いらすとやWebサイトの全URLを得て、そのURLから各年月の更新頻度を調べる算段を立てることにした。  調査として、まずは「sitemap.xml」があるか確認した。「sitemap.xml」は、Googleなどの検索エンジンに、サイトの構造を報せるファイルだ(e-Words)。  あればよいなと思い、アクセスすると「sitemap.xml」は存在した。このファイルは以下のような構造になっている。 – sitemapindex   - sitemap     - loc       https://www.irasutoya.com/sitemap.xml?page=1       ~     - loc       https://www.irasutoya.com/sitemap.xml?page=20  「sitemap.xml」にはpageが1から20のURLが掲載されていた。こちらにアクセスすると、以下のような情報がまとまったXMLファイルが得られる。「urlset.url.loc」にURLが入っている。 – urlset   - url     - loc       https://www.irasutoya.com/2021/01/blog-post_343.html     - lastmod       2021-01-28T06:00:15Z   - url   - url   ︙  「sitemap.xml」には1~20ページのURL(page=1~page=20)しか掲載されていないが、実際には167ページ(page=167)まで存在している。これらを全てダウンロードして、URLを取得すれば、更新年月のリストを手に入れることができる。  167ページは、先の1041ページよりも少ないので、データを得るなら、こちらの方がサイトへの負荷が少なく適切だ。  というわけで、Windows10 の curl.exe を使い、全てのXMLファイルをダウンロードした。Windows10 には、2018年頃から、curl.exe が標準で付属するようになった。curl は、もともと Unix 系のプログラムだったが、Linux に移植されて、Windows でも独自に実装された(ASCII.jp)。  「curl.exe URL > 保存先」と書いて実行すれば、URLのファイルをローカルに保存できる。page=1 から page=167 のURLと保存先を、プログラムや EXCEL などで作り、コマンド プロンプトでまとめて実行すれば、2~3分で全部のファイルをダウンロードできる。
次のページ 
入手したデータで毎月の更新量を視覚化すると……
1
2
バナー 日本を壊した安倍政権
新着記事

ハーバービジネスオンライン編集部からのお知らせ

政治・経済

コロナ禍でむしろ沁みる「全員悪人」の祭典。映画『ジェントルメン』の魅力

カルチャー・スポーツ

頻発する「検索汚染」とキーワードによる検索の限界

社会

ロンドン再封鎖16週目。最終回・英国社会は「新たな段階」に。<入江敦彦の『足止め喰らい日記』嫌々乍らReturns>

国際

仮想通貨は“仮想”な存在なのか? 拡大する現実世界への影響

政治・経済

漫画『進撃の巨人』で政治のエッセンスを。 良質なエンターテイメントは「政治離れ」の処方箋

カルチャー・スポーツ

上司の「応援」なんて部下には響かない!? 今すぐ職場に導入するべきモチベーションアップの方法

社会

64bitへのWindowsの流れ。そして、32bit版Windowsの終焉

社会

再び訪れる「就職氷河期」。縁故優遇政権を終わらせるのは今

政治・経済

微表情研究の世界的権威に聞いた、AI表情分析技術の展望

社会

PDFの生みの親、チャールズ・ゲシキ氏死去。その技術と歴史を振り返る

社会

新年度で登場した「どうしてもソリが合わない同僚」と付き合う方法

社会

マンガでわかる「ウイルスの変異」ってなに?

社会

アンソニー・ホプキンスのオスカー受賞は「番狂わせ」なんかじゃない! 映画『ファーザー』のここが凄い

カルチャー・スポーツ

ネットで話題の「陰謀論チャート」を徹底解説&日本語訳してみた

社会

ロンドン再封鎖15週目。肥満やペットに現れ出したニューノーマル社会の歪み<入江敦彦の『足止め喰らい日記』嫌々乍らReturns>

社会

「ケーキの出前」に「高級ブランドのサブスク」も――コロナ禍のなか「進化」する百貨店

政治・経済

「高度外国人材」という言葉に潜む欺瞞と、日本が搾取し依存する圧倒的多数の外国人労働者の実像とは?

社会