草 - 一場數據革命

中級12/9/2024, 8:36:14 AM
Grass 為 AI 模型和應用程式提供整個互聯網作為數據集的訪問權限,該數據集通過全球節點網絡收集,這些節點通過貢獻閒置的互聯網帶寬。他們已經取得了強大的初步進展,擁有超過 250 萬用戶。

執行摘要

生成式AI是近期最重要的創新,隨著時間的推移變得更加重要。生成式AI基本上是由三個元素組成的產品:

算法 + 數據 + 計算 = 智能

這意味著數據和計算很可能成為全球最重要的資產之一,並且對它們的訪問將非常重要。

生成式人工智能模型需要大量的数据。最重要的生成式人工智能模型所操作的数据是互联网价值的数据,这是对所有人类知识总和的近似。

加密貨幣的核心是為全球提供對新數字資源的訪問,並通過代幣將以前不是資產的事物資產化。Grass通過數據實現了這一點。

Grass為AI模型和應用程序提供了整個互聯網作為數據集,實時地通過全球節點網絡收集,這些節點網絡由貢獻他們閒置的互聯網帶寬的節點構成。他們已經取得了強勁的初步成果,擁有超過250萬用戶。[1]

Grass的長期潛力市場巨大,與AI市場的規模及其未來增長相對應。過去,收集這一規模的數據集僅限於最大的科技巨頭。 Grass為數據帶來了新的經濟效益,降低了成本。這使得數據訪問不僅僅服務於精英大公司,而是長尾AI行業的廣泛需求。

問題

AI 模型訓練和微調需要大量的數據。從歷史上看,許多數據都是通過 AI 模型創建者從網站上爬取的。這種爬取數據的過程存在一些挑戰:

  • 網絡爬蟲成本高昂。只有少數大型機構有能力定期爬取整個網絡。這使得小型AI開發者無法訪問數據。
  • IP封鎖。 那些爬蟲服務與內容創作者之間一直在進行一場貓捉老鼠的遊戲。 封鎖IP地址以阻止爬蟲是相對簡單的,這樣就很難實現爬蟲目標並收集所需的數據進行AI訓練和微調。
  • 浪費資源。 爬網是一項可以使許多客戶受益的任務。 如果由單一客戶完成,所需的硬件、帶寬和計算能力是低效的。
  • 資料新鮮度。掃描整個互聯網是繁瑣且昂貴的。這使得大多數用戶經常掃描變得不切實際,進而降低了數據的新鮮度和影響AI模型的質量。

Grass' Solution

Grass旨在通過創建一個聯邦網絡的網絡爬蟲來解決這些問題。 參與Grass網絡的每個個人都會貢獻其未使用的互聯網帶寬的一部分,以從其IP地址提供少量的爬取。 然後,Grass從這些節點中組合數據,形成一個對AI訓練和微調有用的組合數據集。 這是一種優雅且合適的使用加密貨幣驅動的分佈式網絡。

未使用的互聯網還有其他業務案例,例如:

  • 收集本地/地理數據,如廣告
  • 進行學術研究
  • 檢查本地價格

今天,草使用現有的硬件(筆記本電腦,桌上型電腦等)收集數據。未來,草計劃提供一種數據收集設備,這是一種專門用於數據收集的定制硬件設備,由於該設備為特定任務進行了優化,因此可以提高效率。

草的好處

使用分布式網絡進行數據收集有幾個好處:

  • 在規模上變得更便宜的民主化獲取網絡數據。 與其讓單個客戶為自己的需求收集數據,Grass代表許多客戶收集數據。 這些數據可以被多次轉售,從而在數據上實現規模經濟,降低刮取的經濟成本,使市場更加高效。 在規模上,Grass理論上可以成為客戶最具成本效益的數據收集解決方案,為他們的協議創造經濟網絡效應。 這意味著數據收集現在對任何人都可用,而不僅僅是一些有資源刮取網絡的大公司。
  • IP封鎖變得不可行。通過分發爬取,檢測和停止爬取變得更加困難,因為每個節點僅進行相對較少的數據捕獲,很難區分典型的互聯網流量。這導致更完整的數據集進行訓練。
  • 互聯網帶寬被更有效地使用。由於草地有效地利用了未使用的互聯網帶寬,所以比為了刮取而配置新的帶寬更有效率。
  • 數據更準確和最新。頻繁地進行刮取比一個典型的客戶自行刮取更具成本效益。這導致數據不會過時。這很重要,因為相應的AI模型更加時新。

挑戰:將數據化為貨幣的內容創作者

在爬取數據時需要小心應對的一個棘手問題是內容創作者。這包括紐約時報和Reddit等網站,他們已開始將數據授權給第三方用於訓練人工智能模型以實現盈利。他們自然會對自己網站上的數據進行保護,因為這些數據對他們來說代表著非常有利可圖的收入來源。事實上,Reddit已禁止開發者使用其API進行機器學習,以保護其將數據授權給人工智能模型創建者的商業模式(請參閱服務條款)。這裡).

未來對於內容創作者意味著什麼?對於用戶生成的內容(UGC),例如Reddit,有一種觀點認為用戶擁有自己的數據(而不是平台),因為內容是由用戶創建的,應該由這些用戶擁有。從法律角度來看,這種觀點尚未得到充分探討,這將是有趣的事情。然而,如果用戶確實擁有他們貢獻的數據,那麼Grass可能代表了一條幫助這些用戶將其貢獻的數據商品化的假設途徑。例如,Grass可以獎勵Reddit的貢獻者,他們自願貢獻在Reddit上創建的數據。

對於像紐約時報這樣的付費內容創作者,內容是由付費作家創作的,因此沒有爭論可以用來主張用戶擁有的數據。因此,Grass可以簡單地排除這些網站不被抓取。或者,Grass可能會擴展到一個程度,以至於Grass本身成為這些網站的客戶並支付許可費變得可行。這種假設的工作方式是,Grass的客戶可以支付數據,然後Grass可以將收入分享給內容創作者,從而在靈活的預算上實現AI模型的創建。或者,Grass可以達到這樣的規模,可以代表所有客戶就大量授權交易進行談判。

Grass’ Launch

Grass在今年早些时候有一次非常令人印象深刻的推出:

  • Grass在Solana的歷史上進行了最廣泛的空投活動。[2]
  • 超過2百萬個錢包聲稱導致Solana的網絡在空投活動下承受壓力。
  • 全球范围内Grass的用户总数超过250万人。[3]
  • Grass具有能力和數據來訓練OpenAI的ChatGPT 3.5模型。
  • 作為對其平台的演示,Grass已經將一個包含自Reddit 2024年以來6億篇帖子和評論的數據集開源(參見這裡用於公告和這裡對於數據集)。

截至目前為止,草幣有正向價格行動發布後(+115%),這在大多數代幣在上市後的幾天/幾周內下跌是不尋常的。這很可能是對空投分發的聰明方法的一種反映,以及對Grass的未來和潛力的信任。總的來說,這是網絡的一個很好的開端,我們相信這為未來許多繁榮的一年鋪平了道路。

Grass 自 2024 年 10 月 28 日推出以來的代幣表現

來源:TradingView。

開始貢獻通過連接您的 Solana 錢包並賺取 Grass 代幣,利用您未使用的網絡帶寬。

想要使用Grass的數據集來進行您的業務、研究或項目嗎?請聯繫團隊discover@grassfoundation.io.

腳註

[1] 來源:https://www.getgrass.io/
[2] Source: https://www.google.com/url?q=https://www.theblock.co/post/323805/grass-becomes-most-distributed-solana-airdrop-as-nearly-1-5-million-addresses-claim-tokens&sa=D&source=docs&ust=1732646335082707&usg=AOvVaw0oVvhJL661rmE1ABmJqOyP.
[3] 資料來源: https://www.getgrass.io/.

免責聲明:

  1. 本文轉載自[Hack VC], 所有版權屬於原作者 [艾德·羅曼]. 如果對此轉載有異議,請聯繫 Gate 學習團隊將會迅速處理。
  2. 免責聲明:本文所表達的觀點和意見僅代表作者本人,並不構成任何投資建議。
  3. 本文的翻譯由 Gate Learn 團隊完成。未經許可,禁止複製、分發或抄襲翻譯後的文章。

草 - 一場數據革命

中級12/9/2024, 8:36:14 AM
Grass 為 AI 模型和應用程式提供整個互聯網作為數據集的訪問權限,該數據集通過全球節點網絡收集,這些節點通過貢獻閒置的互聯網帶寬。他們已經取得了強大的初步進展,擁有超過 250 萬用戶。

執行摘要

生成式AI是近期最重要的創新,隨著時間的推移變得更加重要。生成式AI基本上是由三個元素組成的產品:

算法 + 數據 + 計算 = 智能

這意味著數據和計算很可能成為全球最重要的資產之一,並且對它們的訪問將非常重要。

生成式人工智能模型需要大量的数据。最重要的生成式人工智能模型所操作的数据是互联网价值的数据,这是对所有人类知识总和的近似。

加密貨幣的核心是為全球提供對新數字資源的訪問,並通過代幣將以前不是資產的事物資產化。Grass通過數據實現了這一點。

Grass為AI模型和應用程序提供了整個互聯網作為數據集,實時地通過全球節點網絡收集,這些節點網絡由貢獻他們閒置的互聯網帶寬的節點構成。他們已經取得了強勁的初步成果,擁有超過250萬用戶。[1]

Grass的長期潛力市場巨大,與AI市場的規模及其未來增長相對應。過去,收集這一規模的數據集僅限於最大的科技巨頭。 Grass為數據帶來了新的經濟效益,降低了成本。這使得數據訪問不僅僅服務於精英大公司,而是長尾AI行業的廣泛需求。

問題

AI 模型訓練和微調需要大量的數據。從歷史上看,許多數據都是通過 AI 模型創建者從網站上爬取的。這種爬取數據的過程存在一些挑戰:

  • 網絡爬蟲成本高昂。只有少數大型機構有能力定期爬取整個網絡。這使得小型AI開發者無法訪問數據。
  • IP封鎖。 那些爬蟲服務與內容創作者之間一直在進行一場貓捉老鼠的遊戲。 封鎖IP地址以阻止爬蟲是相對簡單的,這樣就很難實現爬蟲目標並收集所需的數據進行AI訓練和微調。
  • 浪費資源。 爬網是一項可以使許多客戶受益的任務。 如果由單一客戶完成,所需的硬件、帶寬和計算能力是低效的。
  • 資料新鮮度。掃描整個互聯網是繁瑣且昂貴的。這使得大多數用戶經常掃描變得不切實際,進而降低了數據的新鮮度和影響AI模型的質量。

Grass' Solution

Grass旨在通過創建一個聯邦網絡的網絡爬蟲來解決這些問題。 參與Grass網絡的每個個人都會貢獻其未使用的互聯網帶寬的一部分,以從其IP地址提供少量的爬取。 然後,Grass從這些節點中組合數據,形成一個對AI訓練和微調有用的組合數據集。 這是一種優雅且合適的使用加密貨幣驅動的分佈式網絡。

未使用的互聯網還有其他業務案例,例如:

  • 收集本地/地理數據,如廣告
  • 進行學術研究
  • 檢查本地價格

今天,草使用現有的硬件(筆記本電腦,桌上型電腦等)收集數據。未來,草計劃提供一種數據收集設備,這是一種專門用於數據收集的定制硬件設備,由於該設備為特定任務進行了優化,因此可以提高效率。

草的好處

使用分布式網絡進行數據收集有幾個好處:

  • 在規模上變得更便宜的民主化獲取網絡數據。 與其讓單個客戶為自己的需求收集數據,Grass代表許多客戶收集數據。 這些數據可以被多次轉售,從而在數據上實現規模經濟,降低刮取的經濟成本,使市場更加高效。 在規模上,Grass理論上可以成為客戶最具成本效益的數據收集解決方案,為他們的協議創造經濟網絡效應。 這意味著數據收集現在對任何人都可用,而不僅僅是一些有資源刮取網絡的大公司。
  • IP封鎖變得不可行。通過分發爬取,檢測和停止爬取變得更加困難,因為每個節點僅進行相對較少的數據捕獲,很難區分典型的互聯網流量。這導致更完整的數據集進行訓練。
  • 互聯網帶寬被更有效地使用。由於草地有效地利用了未使用的互聯網帶寬,所以比為了刮取而配置新的帶寬更有效率。
  • 數據更準確和最新。頻繁地進行刮取比一個典型的客戶自行刮取更具成本效益。這導致數據不會過時。這很重要,因為相應的AI模型更加時新。

挑戰:將數據化為貨幣的內容創作者

在爬取數據時需要小心應對的一個棘手問題是內容創作者。這包括紐約時報和Reddit等網站,他們已開始將數據授權給第三方用於訓練人工智能模型以實現盈利。他們自然會對自己網站上的數據進行保護,因為這些數據對他們來說代表著非常有利可圖的收入來源。事實上,Reddit已禁止開發者使用其API進行機器學習,以保護其將數據授權給人工智能模型創建者的商業模式(請參閱服務條款)。這裡).

未來對於內容創作者意味著什麼?對於用戶生成的內容(UGC),例如Reddit,有一種觀點認為用戶擁有自己的數據(而不是平台),因為內容是由用戶創建的,應該由這些用戶擁有。從法律角度來看,這種觀點尚未得到充分探討,這將是有趣的事情。然而,如果用戶確實擁有他們貢獻的數據,那麼Grass可能代表了一條幫助這些用戶將其貢獻的數據商品化的假設途徑。例如,Grass可以獎勵Reddit的貢獻者,他們自願貢獻在Reddit上創建的數據。

對於像紐約時報這樣的付費內容創作者,內容是由付費作家創作的,因此沒有爭論可以用來主張用戶擁有的數據。因此,Grass可以簡單地排除這些網站不被抓取。或者,Grass可能會擴展到一個程度,以至於Grass本身成為這些網站的客戶並支付許可費變得可行。這種假設的工作方式是,Grass的客戶可以支付數據,然後Grass可以將收入分享給內容創作者,從而在靈活的預算上實現AI模型的創建。或者,Grass可以達到這樣的規模,可以代表所有客戶就大量授權交易進行談判。

Grass’ Launch

Grass在今年早些时候有一次非常令人印象深刻的推出:

  • Grass在Solana的歷史上進行了最廣泛的空投活動。[2]
  • 超過2百萬個錢包聲稱導致Solana的網絡在空投活動下承受壓力。
  • 全球范围内Grass的用户总数超过250万人。[3]
  • Grass具有能力和數據來訓練OpenAI的ChatGPT 3.5模型。
  • 作為對其平台的演示,Grass已經將一個包含自Reddit 2024年以來6億篇帖子和評論的數據集開源(參見這裡用於公告和這裡對於數據集)。

截至目前為止,草幣有正向價格行動發布後(+115%),這在大多數代幣在上市後的幾天/幾周內下跌是不尋常的。這很可能是對空投分發的聰明方法的一種反映,以及對Grass的未來和潛力的信任。總的來說,這是網絡的一個很好的開端,我們相信這為未來許多繁榮的一年鋪平了道路。

Grass 自 2024 年 10 月 28 日推出以來的代幣表現

來源:TradingView。

開始貢獻通過連接您的 Solana 錢包並賺取 Grass 代幣,利用您未使用的網絡帶寬。

想要使用Grass的數據集來進行您的業務、研究或項目嗎?請聯繫團隊discover@grassfoundation.io.

腳註

[1] 來源:https://www.getgrass.io/
[2] Source: https://www.google.com/url?q=https://www.theblock.co/post/323805/grass-becomes-most-distributed-solana-airdrop-as-nearly-1-5-million-addresses-claim-tokens&sa=D&source=docs&ust=1732646335082707&usg=AOvVaw0oVvhJL661rmE1ABmJqOyP.
[3] 資料來源: https://www.getgrass.io/.

免責聲明:

  1. 本文轉載自[Hack VC], 所有版權屬於原作者 [艾德·羅曼]. 如果對此轉載有異議,請聯繫 Gate 學習團隊將會迅速處理。
  2. 免責聲明:本文所表達的觀點和意見僅代表作者本人,並不構成任何投資建議。
  3. 本文的翻譯由 Gate Learn 團隊完成。未經許可,禁止複製、分發或抄襲翻譯後的文章。
即刻開始交易
註冊並交易即可獲得
$100
和價值
$5500
理財體驗金獎勵!
It seems that you are attempting to access our services from a Restricted Location where Gate is unable to provide services. We apologize for any inconvenience this may cause. Currently, the Restricted Locations include but not limited to: the United States of America, Canada, Cambodia, Thailand, Cuba, Iran, North Korea and so on. For more information regarding the Restricted Locations, please refer to the User Agreement. Should you have any other questions, please contact our Customer Support Team.