HOME > 事項 >

ウェブアーカイビング



アーカイブ 於:社会学・社会科学&学会

Tweet
last update:20220824


■ウェブアーカイビングとは

「ウェブ・アーカイビングとは、ウェブ上の情報資源を「記録化」し、その情報の内容と存在を空間的、時間的に安定化させることによって、インターネットのラスト・リゾートを構築しようとする試みである」(p.97)
◇廣瀬信己. (2003). 国立国会図書館におけるウェブ・アーカイビングの実践と課題-インターネットを安定的な知的社会資本とするために. 情報処理学会研究報告データベースシステム (DBS), 2003(51 (2003-DBS-130)), 95-112.

※物理的資料を「デジタル化」することによってアーカイブする「デジタルアーカイブ」と、ウェブメディアをアーカイブする「ウェブアーカイブ(アーカイビング)」を本ページでは明確に区別して用います。

■ウェブアーカイブのリスト

◇Archive-it!(インターネットアーカイブ=アメリカ)
◇Archive.Today(不詳)
◇Internet Archive TV NEWS(インターネットアーカイブ=アメリカ)
◇Library of Congress(アメリカ議会図書館Library of Congress=アメリカ)
◇Open Library(インターネットアーカイブ=アメリカ)
◇Stanford Web Archive Portal(スタンフォード大学=アメリカ)
◇UK Government Web Archive(英国国立文書館The National Archives=イギリス)
◇UK Parliament Web Archive(英国議会=イギリス) 
◇WAYBACK MACHINE(インターネットアーカイブ=アメリカ)
◇WARP=Web Archiving Project(国立国会図書館=日本)

◇ウェブ魚拓(株式会社アフィリティー=日本)

■用語・技法

ライフサイクル

「ウェブアーカイブのライフサイクルは、「選定」、「収集」、「組織化」、「保存」、「公開」の5つの部分からなります。ウェブサイトに掲載されている情報は時間の経過とともに変化していきます。ウェブアーカイブでは、このサイクルを定期的に繰り返しながらウェブサイトの変化を記録していきます。」
◇国立国会図書館インターネット資料保存事業 不詳 「2. ウェブアーカイブのライフサイクル」. [リンク]

選択的収集/バルク収集

「ウェブ・アーカイビングを行うにあたっては世界的にみて二つの異なったアプローチが存在する。それは「選択的収集」と「バルク収集」である。選択的収集とは、個々のウェブ上の情報資源について、サイト単位、あるいは資料単位で、言わば「一冊」ずつ収集を行っていく方法である。一方、バルク収集とは、一国全体、あるいは世界全体のウェブ情報を一括して収集する方法である。前者は、情報資源単位で書誌的なメタデータを作成することによってきめ細かいアーカイブの構築が可能であるが、一つ一つの収集に膨大な人的コストを必要とするため、現実的にはごくわずかな量のアーカイブしか構築できないという欠点がある。一方、後者は収集作業をほとんど自動化できるため、低コストで大規模なアーカイブが構築可能であるが、均質性を欠く玉石混交のアーカイブとなってしまうほか、コンテンツ更新時の再収集頻度を情報資源ごとに個別に設定することができない等の欠点がある。」
◇廣瀬信己. (2002). 消えゆくウェブを救え!: 動き出すウェブ・アーカイビング.[リンク]

「選択収集
特定のウェブサイトにターゲットを絞って収集することを「選択収集(Selective Harvesting)」といいます。サイト単位やページ単位などの収集単位も指定します。小〜中規模のウェブアーカイブの場合や、以下に紹介する「バルク収集」のための法律制度が無い場合などに採用される収集方法です。ウェブサイトにも著作権があるため、法律により著作権が制限されていない場合には、事前に発信者の許諾を得てから行う必要があります。

バルク収集
「バルク収集(Bulk Harvesting)」とは、「.fr」や「.de」などの国別ドメイン全体を対象にウェブサイトを大規模に収集することです。なかには世界全体のウェブサイトを収集対象とすaるインターネットアーカイブのような機関もあります。

一国全体を対象とするバルク収集の多くは、国立図書館などの公的機関が法律制度に基づいて行っています。法律によってウェブサイトの著作権を制限しているため、事前に発信者の許諾を得る必要はありません。国立国会図書館も2010年4月に施行された改正国立国会図書館法に基づいて、公的機関のウェブサイトを発信者の許諾を得ること無く収集を行っています(インターネット資料の収集-国立国会図書館法に基づく収集)。このように法律制度に基づいて行う収集は「制度収集」とも呼ばれます。」
◇国立国会図書館インターネット資料保存事業 不詳 「2. ウェブアーカイブのライフサイクル」. [リンク] 

「二 フィンランド国立図書館の取り組み
 フィンランド国立図書館は現在、一国全体のウェブ情報を一括して収集(以下「バルク収集」という、注1)するプロジェクトを進めており、二〇〇三年一月施行を目標にワーキンググループを設置して納本制度・著作権法を改正する準備を行っている。選択的収集ではなくバルク収集を行う方針を採った理由としては、
(1)将来においてどのような情報が価値を持つかについて、現時点で判断を行うことは困難であること
(2)紙媒体の資料について網羅的収集を行っているにもかかわらず、ウェブ情報について選択的収集を行うことは論理的一貫性を欠くこと
などが挙げられる。責任者のユハ・ハカラ氏は、「たとえレストランのメニューであっても、当時の食生活を知る貴重な資料であり、個々のウェブ情報について国立図書館が要・不要の価値判断を下すことは適切ではない」と述べている。
 検討中の新納本制度においては、「オンライン資源(online resources)」は「自由アクセス資源(freely accessible online resources)」と「制限アクセス資源(access protected online resources)」とに分けられる。」
◇廣瀬信己. (2002). 北欧諸国におけるウェブ・アーカイビングの現状と納本制度. 国立国会図書館月報,490:112.

■資料

廣瀬信己 2003「国立国会図書館におけるウェブ・アーカイビングの実践と課題-インターネットを安定的な知的社会資本とするために」

「しかしながら、従来の出版物に比べ知識や情報を流通させるメディアとしては、決定的な限界をもっている。それは、情報の内容と存在が空間的にも時間的にも安定していないということである。その内容は、いつ更新されたり改変されたりするやもしれない不安定なものである(内容の不安定性)。また、仮に同じ内容であっても、URL(Uniform Resource Locater)が変更になることも多い(存在の空間的不安定性)。さらに著者やサーバ管理者の都合で公開が中止されることもあろう。特に数十年、数百年の長期の視点で考えた場合、インターネット情報はいつか必ず消えてしまうと言っても過言ではない(存在の時間的不安定性)。ウェブページの平均寿命は44日であると言われている。」(p.96)
「情報の内容と存在が空間的にも時間的にも不安定であるというインターネット上の情報流通のもつ成約は、インターネットにラスト・リゾートがないことに起因している。従来の図書や雑誌等のメディアでは、図書館がラスト・リゾートとしての役割を果たすことによって、先行業績の参照可能性が、社会的、歴史的に保障されてきた。時代を超えて文献を参照できるからこそ、文化や学問は先人の業績を土台として蓄積され、発展する。しかしながら、ラスト・リゾートを欠く現代のインターネットは、文化や学問の安定的な発展に必要な、先行業績の参照可能性が保障されていない。」(p.96)
◇廣瀬信己. (2003). 国立国会図書館におけるウェブ・アーカイビングの実践と課題-インターネットを安定的な知的社会資本とするために. 情報処理学会研究報告データベースシステム (DBS), 2003(51 (2003-DBS-130)), 95-112.

新保史生 2008 「ウェブ・アーカイビングと法」

「ウェブ・アーカイビングを実施するためには,法的に検討が必要な課題をクリアすることが前提条件とがる。ところが,その実施にあたっては,著作権法上の課題,違法な情報や他人の権利を侵害する情報が掲載されたサイトを収集した場合の対応,個人時報保護法に基づく個人時報の適正な取扱いと保護,アーカイブに記録された情報の完全性および可用性の確保など,法的に検討しなければならない課題が山積している。」
◇新保史生. (2008). ウェブ・アーカイビングと法 (< 特集> Web アーカイビングの現状と課題). 情報の科学と技術, 58(8), 376-382. 

廣瀬信己 2005 「Web 情報のデジタル・アーカイビング: WARP を中心に」

「国立国会図書館では, 平成 14 年 6 月より 「国立国会図書館インターネット資源選択的蓄積実験 事業 (WARP: Web Archiving Project)」 を実施している」
◇廣瀬信己. (2005). Web 情報のデジタル・アーカイビング: WARP を中心に. 情報管理, 47(11), 721-732.

■ソーシャルメディアアーカイビング(SMA)

「ウェブの進化に伴い、ウェブアーカイビングも進化していき、ソーシャルメディアアーカイビング(SMA、social media archiving)の試みが行われるようになった。SMAの先駆的プロジェクトの一つは、1994年に開始された『Occasio』であり、1988年から2002年の間にオンラインのディスカッショングループに投稿された政治的・社会的会話の保存を目的とたものである(IISH[2020])
 この期間中、国立図書館と公文書館も収集の範囲を広げ、ウェブを含めるようになった。ニュージーランド国立図書館では、2009年にツイッターアーカイブが収集したコレクションに追加された(Macnaught[2008])。大英図書館は2010年にソーシャルメディアの体系的なアーカイブを開始し、限定的なTwitter・Facebook・Youtubeコンテンツがそれ以前にも収集されていたが、そのコレクションに加えて2008年までさかのぼるTwitterアカウントのアーカイブを保持した(この期間中、(国立) 図書館と公文書館もコレクションの範囲を広げ、ウェブを含めました。ニュージーランド国立図書館では、2009 年に最初の Twitter アーカイブがコレクションに追加されました (Macnaught, 2018 )。大英図書館は 2010 年にソーシャル メディアの体系的なアーカイブを開始しましたが、限られた Twitter、Facebook、YouTube のコンテンツがこの日付以前にキャプチャされていましたが、英国国立公文書館はそのコレクションに 2008 年までさかのぼる Twitter アカウントのアーカイブを持っています (Espley et al.[2014] ; Hockx-Yu[2014] )」(山口訳)
◇Vlassenroot, E., Chambers, S., Lieber, S., Michel, A., Geeraert, F., Pranger, J., ... & Mechant, P. (2021). Web-archiving and social media: an exploratory analysis. International Journal of Digital Humanities, 2(1), 107-128. [HTML]

「ソーシャルメディアは様々な分野で急激に研究の対象として認識されつつある。このような注目にも関わらず、ソーシャルメディアを収集するためのツール(practices)やオープンソースツールは今日の研究者を十分にサポートしておらず、将来の研究者のための強固なコレクションを構築することもできない。私たちは、TwitterのAPIからデータを収集する研究者を支援するオープンソースのアプリケーション、Social Feed Manegerの開発と改良を進めている。」(山口訳)
◇Littman, J., Chudnov, D., Kerchner, D., Peterson, C., Tan, Y., Trent, R., ... & Wrubel, L. (2018). API-based social media collecting as a form of web archiving. International Journal on Digital Libraries, 19(1), 21-38. [HTML]

■ツイッターのアーカイブ

研究者向けに公開されたフルアーカイブ

 ツイッターはAcdemic向けに2006年から現在までの全公開データを取得できるエンドポイント−−そこに「○○のデータが欲しい」と送ると、必要なデータを返してくれる場所−−を用意している。
 申請し登録すれば研究者は無料で利用できる−−エンタープライズ(商用利用)向けには有料での利用になる。利用には研究計画書の提出やデータの(かなり具体的な)利用方法の説明、研究者としての身分が確かなものであることの証明などが認められる。

「全公開データ」の範囲について、公式リファレンスには次のようにある

Does Search Tweets: Full Archive mean all Tweets?

Yes. Search Tweets: Full Archive will index all publicly available Tweets created since 2006. Tweets created by protected accounts are not available. Deleted Tweets are not available.」

 したがって、フルーアーカイブによるアクセスは「公開された」ツイートのみを対象としている−−つまりいわゆる「鍵垢」にはアクセスできない−−ことに留意が必要である。
 さらに重要なのは削除されたツイートは使用できない(Deleted Tweets are not available)ということである。これをどのように考えるかは論点。
 投稿者が消せばフルアーカイブによっても見れなくなるのだから、それが残されるべき、とはある程度言えるのではないか。

作成: 山口 和紀

フルアーカイブに関する文献

「このエンドポイントでは、公開されているツイートの全履歴を検索でき、フィルタリングに基づいた完全なデータを、ページネーション付きのリクエスト・レスポンスモデルで提供します。また、より高度なクエリ言語(ブーリアン)をサポートしており、より正確なフィルタリング結果を得ることができます。このエンドポイントは、縦断的なトレンドの理解や、関心のある歴史的なトピックやイベントの分析に理想的です。」(山口訳、DeepLを使用し大幅修正)
◇Academic research Product track details--Developer Platform[リンク ]

前提条件 フルアーカイブ検索エンドポイントは、現在、Academic Researchのアクセス権の一部としてのみ利用可能です。このエンドポイントを使用するには、Academic Researchのアクセス レベルを申請する必要があります。
アクセスの承認に加えて、リクエストを認証するためのキーとトークンのセットが必要になります。これらのキーとトークンは、次の手順で生成できます。
開発者ポータルで学術研究アクセス権を持つプロジェクトに移動し、そのプロジェクト内に関連する開発者用アプリがあることを確認します。
アプリの「Keys and tokens」ページに移動し、必要な認証情報を生成します。すべての認証情報を安全な場所に保存してください。」(山口訳、DeepLを使用し大幅修正)
◇Getting started with the full-archive search endpoint--Twitter Develoer Platform [リンク ]

「新規および既存のTwitter開発者がアクセスするには、Academic Research申請書を作成する必要があります。以下の条件を満たしている方は、ぜひご応募ください。

学術機関の修士課程学生、博士課程学生、ポスドク、教員、または研究に重点を置く従業員のいずれかであること。 研究目的が明確であり、研究成果であるTwitterのデータをどのように利用、分析、共有するかについて具体的な計画をお持ちの方。プロジェクトの詳細はこちら 非商業的な目的で利用すること。非商用利用について詳しくはこちら 上記の要件をすべて満たしていない場合は、Twitter APIの他のアクセスレベルをご検討ください。」
◇Preparing for the application--Developer Platform[リンク ]

■文献リスト

◇田村 卓也 他 2022 「デジタルアーカイブをとおした地域史資料の収集と活用 ーー沖縄県南城市の事例から」, 『デジタルアーカイブ学会誌』6-3:e21-e24. URL:[外部リンク].

◇宮田 悠史 2022 「地方自治体におけるデジタルアーカイブによる経済波及効果の推計 ーー草創期の事例を対象として」, 『デジタルアーカイブ学会誌』6-s2:s49-s52. URL:[外部リンク].

◇逢坂 裕紀子 2021 「デジタル・アーカイブのメディア論 ーー文化資源をめぐるモラルエコノミー 」, 『デジタルアーカイブ学会誌』5-s2:s179-s182. URL:[外部リンク].

◇佐野 浩彬 他 2021 「災害時に発信される災害・防災情報の収集の実践と課題:2019年に発生した風水害を事例として」, 『デジタルアーカイブ学会誌』5-3:203-207. URL:[外部リンク].

◇塩崎 亮 2021 「公開ツイートを第三者がアーカイブすることに対する個人の意識 ーー質問票調査の集計結果」, 『図書館界』73-1:2-14. URL:[外部リンク].

◇長塚 隆 2021 「自治体史等の地域資料のデジタル化・オープン化の進展状況 ーー神奈川県全市の事例からーー」, 『情報知識学会誌』30-4:447-454. URL:[外部リンク].

◇時実 象一 2021 「新型コロナウィルス感染症(COVID-19)下の社会を記録するデジタルアーカイブの現状調査結果」, 『デジタルアーカイブ学会誌』5-s1:s44-s46. URL:[外部リンク].

◇塩崎 亮 2020 「ボーンデジタル個人文書の所蔵・受入状況 ーー国立国会図書館・米国議会図書館目録の内容分析」, 『図書館界』72-4:172-182. URL:[外部リンク].

◇柴山 明寛 2020 「災害記録を活かすためには」, 『情報の科学と技術』70-9:458-463. URL:[外部リンク].

◇宮田 悠史 2022 「地方自治体における映像アーカイブの現状と課題 : アーカイブの公開と活用による地域振興に向けて」, 『立命館映像学』13-14:7-30. URL:[外部リンク].

◇塩崎 亮 2019 「日本の大学ウェブサイトのアーカイブ状況 : Internet ArchiveとWARPの比較」, 『聖学院大学総合研究所Newsletter』29-2:4-10. URL:[外部リンク].

◇福田 博同 2017 「日本絵画デジタル典拠の現状とリンク方法 ーー2017年9月現在」, 『アート・ドキュメンテーション研究』25:18-36. URL:[外部リンク].

◇前田 直俊・大山 聡 2017 「ウェブアーカイブを支える技術」, 『情報の科学と技術』67-2:73-78. URL:[外部リンク].

◇大場 利康 2015 「国立国会図書館におけるデジタルアーカイブ事業のこれまでとこれから」, 『Japio year book』:20-27. URL:[外部リンク].

◇八日市谷 哲生 2011 「国立公文書館におけるデジタルアーカイブの取組み」, 『アーカイブズ学研究』15:4-15. URL:[外部リンク].

◇総務省関東総合通信局 2010 『地域住民参加型デジタルアーカイブの推進に関する調査検討会 報告書』. URL:[外部リンク].

◇田村 孝之・喜連川 優 2008 「大規模Webアーカイブ更新クローラにおけるスケジューリング手法の評価」, 『電子情報通信学会論文誌』91-3:551-559. URL:[外部リンク].

◇原田 隆史 2008 「Webアーカイブの仕組みと技術的な特徴(特集:Webアーカイビングの現状と課題)」, 『情報の科学と技術』58-8:383-388. URL:[外部リンク].

◇廣瀬 信己 2003 「国立国会図書館におけるウェブ・アーカイビングの実践と課題ーーインターネットを安定的な知的社会資本とするために」, 『情報処理学会研究報告』51:95-112. URL:[外部リンク].

英文

◇Ben-David, Anat 2021 "Critical Web Archive Research", The Past Web: Exploring Web Archives:181-188. URL:[外部リンク].

◇Garget, K et al. 2021 "Replaying Archived Twitter: When your bird is broken, will it bring you down?", 2021 ACM/IEEE Joint Conference on Digital Libraries (JCDL):160-169. URL:[外部リンク].

◇Rauchfleisch, Adrian・Kaiser, Jonas 2021 "Deplatforming the Far-right: An Analysis of YouTube and BitChute", SSRN. URL:[外部リンク].

◇Schwabach, Aaron 2021 "The Internet Archive's National Emergency Library: Is There an Emergency Fair Use Superpower?", Northwestern Journal of Technology and Intellectual Property19-4:187-216. URL:[外部リンク].

◇Sharma, Seemantani 2018 "'How Tweet it is!': Have Twitter Archives Been Left in the Dark", Journal of Law, Technology and Policy 2019:49-78. URL:[外部リンク].

関連する研究論文など

◇Alexander, Rice 2021 "Using YouTube as the Primary Transcription and Translation Platform for Remote Corpus Work",  Language Documentation & Conservation15:514-550. URL:[外部リンク].

◇Lemos, Andr?, Luiz, Martins et al. 2020 "Fake news as fake politics: the digital materialities of YouTube misinformation videos about Brazilian oil spill catastrophe", Media, Culture & Society43-5:886-905.  URL:[外部リンク].

■国立国会図書館によるウェブアーカイブ制度の年表



■1999年
7月19日
納本制度審議会答申「パッケージ系電子出版物の納入に係る代償金の額について」 http://dl.ndl.go.jp/info:ndljp/pid/1001006

2月22日
納本制度調査会答申「21世紀を展望した我が国の納本制度の在り方 ―電子出版物を中心に―」http://dl.ndl.go.jp/info:ndljp/pid/1001007

■2000年
8月31日
納本制度審議会答申「納入すべきパッケージ系電子出版物の「最良版」について」http://dl.ndl.go.jp/info:ndljp/pid/999241

■2002年
6月27日
ネットワーク系電子出版物小委員会 第1回
https://www.ndl.go.jp/jp/collect/deposit/council/1network_gijiroku.html

10月24日
ネットワーク系電子出版物小委員会 第2回
https://www.ndl.go.jp/jp/collect/deposit/council/2network_gijiroku.html


■2003年
1月28日
ネットワーク系電子出版物小委員会 第3回
https://www.ndl.go.jp/jp/collect/deposit/council/3network_gijiroku.html


2月13日
納本制度審議会答申「独立行政法人等の出版物の納入義務の在り方について」 http://dl.ndl.go.jp/info:ndljp/pid/999242

9月25日
ネットワーク系電子出版物の収集の課題に関する小委員会 第1回
https://www.ndl.go.jp/jp/collect/deposit/council/1netkadai_gijiroku.html

■2004年
1月26日
ネットワーク系電子出版物の収集の課題に関する小委員会 第2回
https://www.ndl.go.jp/jp/collect/deposit/council/2netkadai_gijiroku.html

3月30日
ネットワーク系電子出版物の収集の課題に関する小委員会 第3回
https://www.ndl.go.jp/jp/collect/deposit/council/3netkadai_gijiroku.html

7月16日
ネットワーク系電子出版物の収集の課題に関する小委員会 第4回
https://www.ndl.go.jp/jp/collect/deposit/council/4netkadai_gijiroku.html

11月1日
ネットワーク系電子出版物の収集の課題に関する小委員会 第5回
https://www.ndl.go.jp/jp/collect/deposit/council/5netkadai_gijiroku.html



12月9日
納本制度審議会答申「ネットワーク系電子出版物の収集に関する制度の在り方について」http://dl.ndl.go.jp/info:ndljp/pid/999243


■2009年
11月19日
オンライン資料の収集に関する小委員会 第一回
議事要録https://www.ndl.go.jp/jp/collect/deposit/council/1online_gijiroku.html

■12月15日
オンライン資料の収集に関する小委員会 第二回
議事要録https://www.ndl.go.jp/jp/collect/deposit/council/2online_gijiroku.html

■2010年
2月16日
オンライン資料の収集に関する小委員会 第三回
議事要録https://www.ndl.go.jp/jp/collect/deposit/council/3online_gijiroku.html

6月7日
納本制度審議会答申「オンライン資料の収集に関する制度の在り方について」https://www.ndl.go.jp/jp/collect/deposit/council/s_toushin_5.pdf


■2011年
7月29日
納本制度審議会答申「国立国会図書館法第二十五条の規定により納入する出版物の代償金額に関する件(昭和 50 年国立国会図書館告示第 1 号)第 2 項第 2 号に規定する納入の一括代行事務に要する金額の見直しについて」https://www.ndl.go.jp/jp/collect/deposit/council/s_toushin_6.pdf

■2012年3月6日
納本制度審議会中間答申「オンライン資料の制度的収集を行うに当たって補償すべき費用の内容について」https://www.ndl.go.jp/jp/collect/deposit/council/s_tyukantoushin.pdf

■2013年7月23日
納本制度審議会答申「国立国会図書館法第25条の4第4項に規定する金額等に関する件(平成25年国立国会図書館告示第1号)第1項に規定する金額の決定について」https://www.ndl.go.jp/jp/collect/deposit/council/s_toushin_7.pdf

■2021年3月25日
納本制度審議会答申「オンライン資料の制度収集を行うに当たって補償すべき費用の内容について」https://www.ndl.go.jp/jp/collect/deposit/council/s_toushin_8.pdf

■作業記録

ブログ

◇20220909
中井さん作成のPythonスクリプトを改良。
改良点は以下
- YYYY年MM月DD日形式をYYYY-MM-DD形式に変換



*作成:山口 和紀 増補:山口 和紀中井 良平
UP:20220709 REV:20220814, 0823(中井), 0824(山口), 28, 20230210u
アーカイブ 於:社会学・社会科学&学会  ◇事項
TOP HOME (http://www.arsvi.com)