Common Crawl
Common Crawl, web 'de gezinen ve arşivlerini ve veri kümelerini halka açık bir şekilde sağlayan; ABD federal yasalarına göre de vergiden muaf olan, 501(c)(3) tipi bir kâr amacı gütmeyen kuruluştur.[1][2] Common Crawl web arşivi, 2011'den beri toplanan petabaytlarca veriden oluşur.[3] Genelde her ay taramaları tamamlar.[4]
Common Crawl, Gil Elbaz tarafından kurulmuştur.[5] Kâr amacı gütmeyen kuruluşun danışmanları arasında Peter Norvig ve Joi Ito bulunmaktadır.[6] Kuruluşun tarayıcıları nofollow ve robots.txt politikalarına uymaktadır. Common Crawl veri kümesini işlemek için açık kaynak kodu herkesin kullanımına açıktır.
Tarih
[değiştir | kaynağı değiştir]Amazon Web Services, 2012 yılında Açık Veri Kümeleri (İngilizce: Public Data Sets) programı aracılığıyla Common Crawl arşivini barındırmaya başladı.[7]
Kuruluş, o yılın Temmuz ayında ".arc" dosyalarının yanı sıra meta veri dosyalarını ve tarayıcıların metin çıktılarını yayınlamaya başladı.[8] Common Crawl arşivleri daha önce yalnızca ".arc" dosyalarını içeriyordu.
Aralık 2012'de blekko; Şubat - Ekim 2012 arasında gerçekleştirilen aramaların metaverilerini Common Crawl'a bağışladı.[9] Bağışlanan veriler, Common Crawl'un "spam, porno ve aşırı SEO'nun etkisinden kaçınıp, taramasını iyileştirmesine" yardımcı oldu.
2013 yılında Common Crawl, özel bir tarayıcı yerine Apache Yazılım Vakfının Nutch web tarayıcısını kullanmaya başladı.[10] Common Crawl, Kasım 2013 taramasıyla ".arc" dosyalarını kullanmaktan ".warc" dosyalarına geçti.[11]
Yaygın Tarama verilerinin geçmişi
[değiştir | kaynağı değiştir]Aşağıdaki veriler resmi Common Crawl Bloğundan 27 Ekim 2020 tarihinde Wayback Machine sitesinde arşivlendi. toplanmıştır.
Tarama Tarihi | TİB'in boyutu | Milyarlarca sayfa | Yorumlar |
---|---|---|---|
Kasım 2018 | 220 | 2.6 | |
Ekim 2018 | 240 | 3.0 | |
Eylül 2018 | 220 | 2.8 | |
Ağustos 2018 | |||
Temmuz 2018 | 255 | 3.25 | |
Haziran 2018 | 235 | 3.05 | |
Mayıs 2018 | 215 | 2.75 | |
Nisan 2018 | 230 | 3.1 | |
Mart 2018 | 250 | 3.2 | |
Şubat 2018 | 270 | 3.4 | |
Ocak 2018 | 270 | 3.4 | |
Aralık 2017 | 240 | 2.9 | |
Kasım 2017 | 260 | 3.2 | |
Ekim 2017 | 300 | 3.65 | |
Eylül 2017 | 250 | 3.01 | |
Ağustos 2017 | 280 | 3.28 | |
Temmuz 2017 | 240 | 2.89 | |
Haziran 2017 | 260 | 3.16 | |
Mayıs 2017 | 250 | 2.96 | |
Nisan 2017 | 250 | 2.94 | |
Mart 2017 | 250 | 3.07 | |
Şubat 2017 | 250 | 3.08 | |
Ocak 2017 | 250 | 3.14 | |
Kasım 2016 | - | 2.85 | |
Ekim 2016 | - | 3.25 | |
Eylül 2016 | - | 1.72 | |
Ağustos 2016 | - | 1.61 | |
Temmuz 2016 | - | 1.73 | |
Haziran 2016 | - | 1.23 | |
Mayıs 2016 | - | 1.46 | |
Nisan 2016 | - | 1.33 | |
Şubat 2016 | - | 1.73 | |
Kasım 2015 | 151 | 1.82 | |
Eylül 2015 | 106 | 1.32 | |
Ağustos 2015 | 149 | 1.84 | |
Temmuz 2015 | 145 | 1.81 | |
Haziran 2015 | 131 | 1.67 | |
Mayıs 2015 | 159 | 2.05 | |
Nisan 2015 | 168 | 2.11 | |
Mart 2015 | 124 | 1.64 | |
Şubat 2015 | 145 | 1.9 | |
Ocak 2015 | 139 | 1.82 | |
Aralık 2014 | 160 | 2.08 | |
Kasım 2014 | 135 | 1.95 | |
Ekim 2014 | 254 | 3.7 | |
Eylül 2014 | 220 | 2.8 | |
Ağustos 2014 | 200 | 2.8 | |
Temmuz 2014 | 266 | 3.6 | |
Nisan 2014 | 183 | 2.6 | |
Mart 2014 | 223 | 2.8 | İlk Nutch taraması |
Ocak 2014 | 148 | 2.3 | Aylık gerçekleştirilen taramalar |
Kasım 2013 | 102 | 2 | Warc dosya biçimindeki veriler |
Temmuz 2012 | - | - | Arc dosya formatındaki veriler |
Ocak 2012 | - | - | Amazon Web Services'in Herkese Açık Veri Seti |
Kasım 2011 | 40 | 5 | Amazon'da ilk kullanılabilirlik |
Norvig Web Veri Bilimi Ödülü
[değiştir | kaynağı değiştir]Common Crawl, SURFsara ile destek olarak, Benelüks'teki öğrencilere ve araştırmacılara açık bir yarışma olan Norvig Web Data Science Award'a sponsorluk yapmaktadır.[12][13] Ödül, aynı zamanda ödülün jüri komitesine de başkanlık eden Peter Norvig'e verildi.
Kaynakça
[değiştir | kaynağı değiştir]- ^ Rosanna Xia (5 Şubat 2012). "Tech entrepreneur Gil Elbaz made it big in L.A." Los Angeles Times. 12 Ağustos 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Temmuz 2014.
- ^ "Gil Elbaz and Common Crawl". NBC News. 4 Nisan 2013. 8 Ağustos 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Temmuz 2014.
- ^ "So you're ready to get started". 8 Ekim 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 2 Haziran 2018.
- ^ Lisa Green (8 Ocak 2014). "Winter 2013 Crawl Data Now Available". 25 Mayıs 2018 tarihinde kaynağından arşivlendi. Erişim tarihi: 2 Haziran 2018.
- ^ "Startups - Gil Elbaz and Nova Spivack of Common Crawl - TWiST #222". This Week In Startups. 10 Ocak 2012.
- ^ Tom Simonite (23 Ocak 2013). "A Free Database of the Entire Web May Spawn the Next Google". MIT Technology Review. 26 Haziran 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Temmuz 2014.
- ^ Jennifer Zaino (13 Mart 2012). "Common Crawl To Add New Data In Amazon Web Services Bucket". Semantic Web. 1 Temmuz 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Temmuz 2014.
- ^ Jennifer Zaino (16 Temmuz 2012). "Common Crawl Corpus Update Makes Web Crawl Data More Efficient, Approachable For Users To Explore". Semantic Web. 12 Ağustos 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Temmuz 2014.
- ^ Jennifer Zaino (18 Aralık 2012). "Blekko Data Donation Is A Big Benefit To Common Crawl". Semantic Web. 12 Ağustos 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Temmuz 2014.
- ^ "Common Crawl's Move to Nutch". Common Crawl. 20 Şubat 2014. 24 Temmuz 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Temmuz 2014.
- ^ "New Crawl Data Available!". Common Crawl. 27 Kasım 2013. 24 Temmuz 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Temmuz 2014.
- ^ "The Norvig Web Data Science Award". Common Crawl. 15 Kasım 2012. 31 Temmuz 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Temmuz 2014.
- ^ "Norvig Web Data Science Award 2014". Dutch Techcentre for Life Sciences. 15 Ağustos 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Temmuz 2014.
Dış bağlantılar
[değiştir | kaynağı değiştir]- Kaliforniya, Amerika Birleşik Devletleri'nde Yaygın Tarama13 Mart 2013 tarihinde Wayback Machine sitesinde arşivlendi.
- Tarayıcı, kitaplıklar ve örnek kod içeren Ortak Tarama GitHub Deposu 13 Ağustos 2020 tarihinde Wayback Machine sitesinde arşivlendi.
- Ortak Tarama Tartışma Grubu8 Temmuz 2019 tarihinde Wayback Machine sitesinde arşivlendi.
- Ortak Tarama Blogu