Examples of org.apache.nutch.indexer.DeleteDuplicates

org.apache.nutch.indexer.DeleteDuplicates
Delete duplicate documents in a set of Lucene indexes. Duplicates have either the same contents (via MD5 hash) or the same URL. This tool uses the following algorithm:
- Phase 1 - remove URL duplicates:
  In this phase documents with the same URL are compared, and only the most recent document is retained - all other URL duplicates are scheduled for deletion.
- Phase 2 - remove content duplicates:
  In this phase documents with the same content hash are compared. If property "dedup.keep.highest.score" is set to true (default) then only the document with the highest score is retained. If this property is set to false, only the document with the shortest URL is retained - all other content duplicates are scheduled for deletion.
- Phase 3 - delete documents:
  In this phase documents scheduled for deletion are marked as deleted in Lucene index(es).
@author Andrzej Bialecki

        indexer.indexSolr(solrUrl, crawlDb, linkDb, 
            Arrays.asList(HadoopFSUtil.getPaths(fstats)));
      }
      else {
        
        DeleteDuplicates dedup = new DeleteDuplicates(conf);        
        if(indexes != null) {
          // Delete old indexes
          if (fs.exists(indexes)) {
            LOG.info("Deleting old indexes: " + indexes);
            fs.delete(indexes, true);
          }


          // Delete old index
          if (fs.exists(index)) {
            LOG.info("Deleting old merged index: " + index);
            fs.delete(index, true);
          }
        }
        
        Indexer indexer = new Indexer(conf);
        indexer.index(indexes, crawlDb, linkDb, 
            Arrays.asList(HadoopFSUtil.getPaths(fstats)));
        
        IndexMerger merger = new IndexMerger(conf);
        if(indexes != null) {
          dedup.dedup(new Path[] { indexes });
          fstats = fs.listStatus(indexes, HadoopFSUtil.getPassDirectoriesFilter(fs));
          merger.merge(HadoopFSUtil.getPaths(fstats), index, tmpDir);
        }
      }

View Full Code Here

    Fetcher fetcher = new Fetcher(conf);
    ParseSegment parseSegment = new ParseSegment(conf);
    CrawlDb crawlDbTool = new CrawlDb(conf);
    LinkDb linkDbTool = new LinkDb(conf);
    Indexer indexer = new Indexer(conf);
    DeleteDuplicates dedup = new DeleteDuplicates(conf);
    IndexMerger merger = new IndexMerger(conf);
      
    // initialize crawlDb
    injector.inject(crawlDb, rootUrlDir);
    int i;
    for (i = 0; i < depth; i++) {             // generate new segment
      Path segment = generator.generate(crawlDb, segments, -1, topN, System
          .currentTimeMillis(), false, false);
      if (segment == null) {
        LOG.info("Stopping at depth=" + i + " - no more URLs to fetch.");
        break;
      }
      fetcher.fetch(segment, threads);  // fetch it
      if (!Fetcher.isParsing(job)) {
        parseSegment.parse(segment);    // parse it, if needed
      }
      crawlDbTool.update(crawlDb, new Path[]{segment}, true, true); // update crawldb
    }
    if (i > 0) {
      linkDbTool.invert(linkDb, segments, true, true, false); // invert links


      // index, dedup & merge
      indexer.index(indexes, crawlDb, linkDb, fs.listPaths(segments)); 
      dedup.dedup(new Path[] { indexes });
      merger.merge(fs.listPaths(indexes), index, tmpDir);
    } else {
      LOG.warn("No URLs to fetch - check your seed list and URL filters.");
    }
    if (LOG.isInfoEnabled()) { LOG.info("crawl finished: " + dir); }

View Full Code Here


  protected void doDedup(final OutputDirectories od) throws IOException
  {
    LOG.info("dedup " + od.getIndex());


    new DeleteDuplicates(getJobConf()).dedup(new Path[] {od.getIndexes()});
  }

View Full Code Here

    Fetcher fetcher = new Fetcher(conf);
    ParseSegment parseSegment = new ParseSegment(conf);
    CrawlDb crawlDbTool = new CrawlDb(conf);
    LinkDb linkDbTool = new LinkDb(conf);
    Indexer indexer = new Indexer(conf);
    DeleteDuplicates dedup = new DeleteDuplicates(conf);
    IndexMerger merger = new IndexMerger(conf);
      
    // initialize crawlDb
    injector.inject(crawlDb, rootUrlDir);
    int i;
    for (i = 0; i < depth; i++) {             // generate new segment
      Path segment = generator.generate(crawlDb, segments, -1, topN, System
          .currentTimeMillis(), false, false);
      if (segment == null) {
        LOG.info("Stopping at depth=" + i + " - no more URLs to fetch.");
        break;
      }
      fetcher.fetch(segment, threads);  // fetch it
      if (!Fetcher.isParsing(job)) {
        parseSegment.parse(segment);    // parse it, if needed
      }
      crawlDbTool.update(crawlDb, new Path[]{segment}, true, true); // update crawldb
    }
    if (i > 0) {
      linkDbTool.invert(linkDb, segments, true, true, false); // invert links


      // index, dedup & merge
      indexer.index(indexes, crawlDb, linkDb, fs.listPaths(segments));
      dedup.dedup(new Path[] { indexes });
      merger.merge(fs.listPaths(indexes), index, tmpDir);
    } else {
      LOG.warn("No URLs to fetch - check your seed list and URL filters.");
    }
    if (LOG.isInfoEnabled()) { LOG.info("crawl finished: " + dir); }

View Full Code Here

    Fetcher fetcher = new Fetcher(conf);
    ParseSegment parseSegment = new ParseSegment(conf);
    CrawlDb crawlDbTool = new CrawlDb(conf);
    LinkDb linkDbTool = new LinkDb(conf);
    Indexer indexer = new Indexer(conf);
    DeleteDuplicates dedup = new DeleteDuplicates(conf);
    IndexMerger merger = new IndexMerger(conf);
      
    // initialize crawlDb
    injector.inject(crawlDb, rootUrlDir);
    int i;
    for (i = 0; i < depth; i++) {             // generate new segment
      Path segment = generator.generate(crawlDb, segments, -1, topN, System
          .currentTimeMillis());
      if (segment == null) {
        LOG.info("Stopping at depth=" + i + " - no more URLs to fetch.");
        break;
      }
      fetcher.fetch(segment, threads, org.apache.nutch.fetcher.Fetcher.isParsing(conf));  // fetch it
      if (!Fetcher.isParsing(job)) {
        parseSegment.parse(segment);    // parse it, if needed
      }
      crawlDbTool.update(crawlDb, new Path[]{segment}, true, true); // update crawldb
    }
    if (i > 0) {
      linkDbTool.invert(linkDb, segments, true, true, false); // invert links


      if(indexes != null) {
        // Delete old indexes
        if (fs.exists(indexes)) {
          LOG.info("Deleting old indexes: " + indexes);
          fs.delete(indexes, true);
        }


        // Delete old index
        if (fs.exists(index)) {
          LOG.info("Deleting old merged index: " + index);
          fs.delete(index, true);
        }
      }


      // index, dedup & merge
      FileStatus[] fstats = fs.listStatus(segments, HadoopFSUtil.getPassDirectoriesFilter(fs));
      indexer.index(indexes, crawlDb, linkDb, Arrays.asList(HadoopFSUtil.getPaths(fstats)));
      if(indexes != null) {
        dedup.dedup(new Path[] { indexes });
        fstats = fs.listStatus(indexes, HadoopFSUtil.getPassDirectoriesFilter(fs));
        merger.merge(HadoopFSUtil.getPaths(fstats), index, tmpDir);
      }
    } else {
      LOG.warn("No URLs to fetch - check your seed list and URL filters.");

View Full Code Here

      
    new LinkDb(job).invert(linkDb, segments); // invert links


    // index, dedup & merge
    new Indexer(job).index(indexes, crawlDb, linkDb, fs.listPaths(segments));
    new DeleteDuplicates(job).dedup(new Path[] { indexes });
    new IndexMerger(fs, fs.listPaths(indexes), index, tmpDir, job).merge();


    if (LOG.isInfoEnabled()) { LOG.info("crawl finished: " + dir); }
  }

View Full Code Here

      
    new LinkDb(job).invert(linkDb, segments); // invert links


    // index, dedup & merge
    new Indexer(job).index(indexes, crawlDb, linkDb, fs.listPaths(segments));
    new DeleteDuplicates(job).dedup(new Path[] { indexes });
    new IndexMerger(fs, fs.listPaths(indexes), index, tmpDir, job).merge();


    if (LOG.isInfoEnabled()) { LOG.info("crawl finished: " + dir); }
  }

View Full Code Here

TOP

Related Classes of org.apache.nutch.indexer.DeleteDuplicates

org.apache.lucene.document.Document

org.apache.lucene.index.IndexReader

org.apache.nutch.crawl.Crawl

org.apache.nutch.util.NutchJob

org.archive.access.nutch.Nutchwax

java.text.SimpleDateFormat

All source code are property of their respective owners. Java is a trademark of Sun Microsystems, Inc and owned by ORACLE Inc. Contact coftware#gmail.com.