网站制作设计正规公司,北京关键词优化平台,门户网站都在哪推广,招商网官网分类目录#xff1a;《自然语言处理从入门到应用》总目录 合并语言模型和我们自己的文本数据是区分它们的一种强大方式#xff0c;这样做的第一步是将数据加载到“文档”中#xff0c;文档加载器的作用就是使这个过程变得简单。
LangChain提供了三种文档加载器#xff1a;…分类目录《自然语言处理从入门到应用》总目录 合并语言模型和我们自己的文本数据是区分它们的一种强大方式这样做的第一步是将数据加载到“文档”中文档加载器的作用就是使这个过程变得简单。
LangChain提供了三种文档加载器
转换加载器公共数据集或服务加载器专有数据集或服务加载器
转换加载器
这些转换加载器将数据从特定格式转换为文档格式例如有用于CSV和SQL的转换器。大多数情况下这些加载器从文件中输入数据有时也可以从URL中输入数据。许多这些转换器的主要驱动程序是Unstructured模块。该包可以将许多类型的文件文本、PowerPoint、图像、HTML、PDF 等转换为文本数据。
文档加载器提供的文件类型或数据类型包括
AirtableOpenAIWhisperParserCoNLL-UCopy PasteCSVEmailEPUBEverNoteMicrosoft ExcelFacebook ChatFile DirectoryHTMLImagesJupyter NotebookJSONMarkdownMicrosoft PowerPointMicrosoft WordOpen Document Format (ODT)Pandas DataFramePDFSitemapSubtitleTelegramTOMLUnstructured FileURLSelenium URL LoaderPlaywright URL LoaderWebBaseLoaderWeatherWhatsApp Chat
公共数据集或服务加载器
这些数据集和来源是为公共领域创建的我们使用查询来搜索并下载所需的文档。。对于这些数据集和服务我们不需要任何访问权限。下面是一些公共数据集或服务加载器的示例
ArxivAZLyricsBiliBiliCollege ConfidentialGutenbergHacker NewsHuggingFace数据集iFixitIMSDbMediaWikiDumpWikipediaYouTube 转录
专有数据集或服务加载器
这些数据集和服务不属于公共领域。这些加载器主要用于转换特定格式的应用程序或云服务的数据e。我们需要访问令牌和其他参数才能访问这些数据集和服务。下面是一些专有数据集或服务加载器的示例
Airbyte JSONApify DatasetAWS S3 DirectoryAWS S3 FileAzure Blob Storage ContainerAzure Blob Storage FileBlackboardBlockchainChatGPT DataConfluenceDiffbotDocugamiDuckDBFaunaFigmaGitBookGitGoogle BigQueryGoogle Cloud Storage DirectoryGoogle Cloud Storage FileGoogle DriveImage CaptionsIuguJoplinMicrosoft OneDriveModern TreasuryNotion DB 2/2Notion DB 1/2ObsidianPsychicPySpark DataFrame LoaderReadTheDocs DocumentationRedditRoamSlackSnowflakeSpreedlyStripeTwitter2Markdown
参考文献 [1] LangChain官方网站https://www.langchain.com/ [2] LangChain ️ 中文网跟着LangChain一起学LLM/GPT开发https://www.langchain.com.cn/ [3] LangChain中文网 - LangChain 是一个用于开发由语言模型驱动的应用程序的框架http://www.cnlangchain.com/